Au sein de notre API, les paramètres de requête sont utilisés pour personnaliser le scraper en fonction de vos besoins. Comprendre le fonctionnement de chaque paramètre nous permettra d'exploiter pleinement la puissance de notre API de scraping Web. Nous tenons à jour une documentation sur les paramètres de l'API ici. Cependant, nous allons également les examiner en détail ici, afin de mieux comprendre comment les paramètres de requête fonctionnent avec l'API de scraping Web. Cela étant dit, il existe trois types de paramètres : obligatoires, par défaut et facultatifs. Les paramètres obligatoires sont assez simples :
- Le paramètre `api_key` dont nous avons parlé plus haut
- Le paramètre `url`, qui représente l'URL que vous souhaitez scraper
Veuillez noter que la valeur du paramètre `url` doit être une URL valide, et non un nom de domaine, et qu’elle doit idéalement être encodée en URL (par exemple : https%3A%2F%2Fwebscrapingapi.com)
En ce qui concerne les paramètres par défaut, nous avons utilisé des données historiques pour augmenter le taux de réussite de notre API (et implicitement celui de votre projet). Nos données internes montrent que la meilleure configuration pour le web scraping consiste à utiliser un véritable navigateur web associé à une adresse IP résidentielle. Par conséquent, les paramètres par défaut de notre API sont :
- `render_js=1` - pour lancer un véritable navigateur (et non un simple client HTTP)
- `proxy_type=residential` - pour accéder à la cible via une adresse IP résidentielle (activé uniquement si votre forfait actuel prend en charge les proxys résidentiels)
Bien sûr, vous pouvez également remplacer la valeur de ces paramètres, même si nous ne le recommandons pas. Le scraping avec un client HTTP basique et des proxys de centre de données conduit généralement le site web ciblé à détecter l'activité de scraping et à bloquer l'accès.
Nous allons maintenant aborder les paramètres optionnels. Comme nous avons répertorié tous les paramètres dans notre documentation, nous ne traiterons pour l'instant que les paramètres les plus utilisés :
- Paramètre : render_js Description : en activant ce paramètre, vous accéderez à l'URL ciblée via un navigateur réel. Cela présente l'avantage de rendre les fichiers JavaScript. C'est un excellent choix pour le scraping de sites riches en JavaScript (comme ceux construits avec ReactJS, par exemple). Documentation : [ici ]
- Paramètre : proxy_type Description : Utilisé pour accéder à l'URL ciblée via une adresse IP résidentielle ou celle d'un centre de données. Documentation : [ici ]
- Paramètre : stealth_mode Description : Le web scraping n'est pas une activité illégale. Cependant, certains sites web ont tendance à bloquer l'accès aux logiciels automatisés (y compris les web scrapers). Notre équipe a conçu un ensemble d'outils qui rend presque impossible la détection de notre web scraper par les systèmes anti-bot. Vous pouvez activer ces fonctionnalités en utilisant le paramètre stealth_mode=1. Documentation : [ici ]
- Paramètre : country Description : Utilisé pour accéder à votre cible depuis une géolocalisation spécifique. Consultez la liste des pays pris en charge [ici]. Documentation : [ici ]
- Paramètre : timeout Description : Par défaut, nous mettons fin à une requête (et ne facturons pas en cas d'échec) après 10 secondes. Avec certaines cibles, vous pouvez souhaiter augmenter cette valeur jusqu'à 60 secondes. Documentation : [ici ]
- Paramètre : device Description : Vous pouvez l'utiliser pour faire en sorte que votre scraper ressemble à un « ordinateur de bureau », une « tablette » ou un « mobile ». Documentation : [ici ]
- Paramètre : wait_until Description : En termes simples, une fois l'URL cible atteinte, le scraper est mis en attente jusqu'à ce qu'un certain événement se produise. Le concept que nous suivons est décrit en détail [ici]. Documentation : [ici ]
- Paramètre : wait_for Description : Ce paramètre bloque le scraper pendant une durée spécifiée (qui ne peut dépasser 60 secondes). Documentation : [ici ]
- Paramètre : wait_for_css Description : Gèle le scraper jusqu'à ce qu'un certain sélecteur CSS (c'est-à-dire une classe ou un ID) soit visible sur la page. Documentation : [ici ]
- Paramètre : session Description : Vous permet d'utiliser le même proxy (adresse IP) pour plusieurs requêtes. Documentation : [ici ]