Guide de démarrage rapide de l'API Web Scraping

Mihnea-Octavian Manolache le 14 Jul 2023

WebScrapingAPI propose une suite de solutions de scraping web. Notre produit principal est un scraper web à usage général, conçu pour collecter des données en temps réel à partir de n'importe quel site web. Comme vous le découvrirez tout au long de ce guide, l'outil est doté de nombreuses fonctionnalités qui lui permettent de ne pas être détecté par les systèmes anti-bots. Ce guide est conçu pour vous aider à commencer à utiliser l'API Web Scraping. Voici quelques-uns des détails que nous allons aborder :

Travailler avec le tableau de bord frontal
Comprendre les paramètres et les fonctionnalités de l'API
Envoi de requêtes de base à l'API
Mise en place d'un scraper web complexe à l'aide des SDK

Pourquoi s'inscrire à Web Scraping API

Il existe d'innombrables raisons d'utiliser Web Scraping API plutôt qu'un scraper classique. Cependant, nous nous appuyons sur les retours d'expérience pour décider ce qui fait de nous le meilleur choix. Voici quelques-unes des raisons pour lesquelles nos clients nous ont choisis :

Assistance professionnelle - Notre assistance est assurée par de véritables ingénieurs logiciels qui travaillent sur le terrain avec l'API. Ainsi, lorsque vous nous demandez de l'aide, nous nous assurons que vous obtenez les meilleures réponses possibles. De plus, si vous rencontrez un problème, l'ingénieur qui vous parle sera probablement en mesure de le résoudre en peu de temps et de le mettre en production.
Facilité d'utilisation - La création d'un scraper web peut s'avérer difficile. Il faut tenir compte de divers proxys, évasions, captchas, navigateurs, etc. Avec Web Scraping API, vous obtenez tout cela (et bien plus encore) d'un simple "clic de bouton".
Évolutivité - Lorsque nous avons conçu notre produit, l'une de nos premières priorités était de nous assurer que nous obtenions des résultats quel que soit le nombre total de demandes que nous recevions. Lorsque vous vous inscrivez à Web Scraping API, vous vous inscrivez à l'ensemble de notre infrastructure. Cela inclut les proxys, les navigateurs, les clients HTTP et bien plus encore.

S'inscrire à un scraper gratuit basé sur l'informatique en nuage

Pour s'inscrire à Web Scraping API, il suffit de fournir une adresse électronique valide. De plus, chaque utilisateur a droit à un essai gratuit de 7 jours avec un accès complet aux fonctionnalités de l'API, limité à 1000 crédits API. Après ces 7 jours, vous aurez toujours accès à un niveau gratuit, qui vous offre 1000 crédits API par mois, mais avec des fonctionnalités API limitées. Si vous souhaitez continuer à utiliser la version complète de notre scraper web basé sur le cloud, nous vous proposons des plans de tarification flexibles. Vous pouvez consulter la page de tarification pour obtenir des informations actualisées sur les prix. Pour finir, nous offrons :

un plan Starter, avec jusqu'à 100 000 crédits API et 20 appels simultanés
un plan Grow, avec jusqu'à 1 000 000 de crédits API et 50 appels simultanés
un plan d'affaires, avec jusqu'à 3 000 000 de crédits API et 100 appels simultanés
un plan Pro, avec jusqu'à 10 000 000 de crédits API et 500 appels simultanés
un plan d'entreprise sur mesure à discuter en fonction de vos besoins particuliers

Pour commencer, visitez notre page SigUp ici et créez simplement un compte gratuit.

Comprendre le tableau de bord

L'inscription à notre tableau de bord ne vous donne pas implicitement accès à nos produits. Comme vous le verrez, la barre latérale de gauche affiche quelques options associées à nos produits. Puisque ce guide se réfère à un scraper web à usage général, afin de créer un abonnement pour ce service, naviguez vers Web Scraping API et cliquez sur le bouton "Get Free Trial" (Obtenir un essai gratuit). Une fois l'abonnement créé, vous recevrez une clé API. Veillez à la conserver précieusement, car elle constituera votre identifiant unique dans nos systèmes. Vous pourrez alors accéder à la page des statistiques et à l'aire de jeu.

Les bases de notre API de scraper Web

Il existe trois façons d'interagir avec notre scraper web, deux d'entre elles étant dites "programmatiques" et la troisième étant plus "conviviale pour les débutants". Les deux premières impliquent l'accès à l'API via des clients HTTP ou via nos SDK. La troisième consiste à utiliser le terrain de jeu fourni dans le tableau de bord. Nous y reviendrons bientôt, mais avant cela, il est important de comprendre le fonctionnement de l'API. Ce n'est qu'ensuite que vous serez en mesure d'utiliser toute la puissance de l'API Web Scraping. Commençons donc par les bases :

Authentification des demandes

La façon dont nous authentifions les requêtes provenant d'utilisateurs enregistrés est en activant le paramètre URL `api_key`. La clé API unique est liée à votre compte et contient des informations sur les autorisations, l'utilisation, etc.

Veuillez noter qu'une clé API unique est associée à chaque produit pour lequel vous vous inscrivez. Par exemple, vous ne pouvez pas utiliser la clé API de votre scraper web généraliste sur l'API SERP et vice versa.

Ceci étant dit, afin de récupérer une URL en tant qu'utilisateur authentifié, vous devrez accéder à la ressource suivante :

https://api.webscrapingapi.com/v1?api_key=<YOUR_UNIQUE_API_KEY>

Paramètres de l'API

Dans notre API, les paramètres de requête sont utilisés pour personnaliser le scraper en fonction de vos besoins. Comprendre le fonctionnement de chaque paramètre nous permettra d'utiliser toute la puissance de notre API de scraper web. Nous tenons à jour une documentation sur les paramètres de l'API ici. Cependant, nous allons également nous y plonger ici, afin de mieux comprendre comment les paramètres de requête fonctionnent avec l'API de grattage Web. Ceci étant dit, il existe trois types de paramètres : obligatoires, par défaut et facultatifs. Les paramètres obligatoires sont assez simples :

Le paramètre `api_key` dont nous avons parlé plus haut
Le paramètre `url`, qui représente l'URL que vous voulez récupérer.

Veuillez noter que la valeur du paramètre `url` doit être une URL valide, pas un nom de domaine, et doit idéalement être encodée en URL. (i.e. https%3A%2F%2Fwebscrapingapi.com)

En ce qui concerne les paramètres par défaut, nous avons utilisé des données historiques pour augmenter le taux de réussite de notre API (et implicitement de votre projet). Les données internes montrent que la meilleure configuration pour le web scraping est l'utilisation d'un navigateur web réel associé à une adresse IP résidentielle. C'est pourquoi les paramètres par défaut de notre API sont les suivants :

`render_js=1`- pour lancer un véritable navigateur (et non un client HTTP de base)
`proxy_type=residential`- pour accéder à la cible via une adresse IP résidentielle (activé seulement si votre plan actuel supporte les proxies résidentiels)

Bien entendu, vous pouvez également écraser la valeur de ces paramètres, mais nous ne vous encourageons pas à le faire. Le scraping à l'aide d'un client HTTP de base et de proxys de centre de données conduit généralement le site web ciblé à détecter l'activité de scraping et à en bloquer l'accès.

Nous allons maintenant aborder les paramètres optionnels. Étant donné que nous avons documenté tous les paramètres dans notre documentation, nous ne parlerons pour l'instant que des paramètres les plus utilisés :

Paramètre : render_js
Description : En activant ce paramètre, vous accéderez à l'URL ciblée via un véritable navigateur. Il présente l'avantage de rendre les fichiers JavaScript. C'est un excellent choix pour le scraping de sites à forte composante JavaScript (comme ceux construits avec ReactJS, par exemple).
Documentation :[ici]
Paramètre : proxy_type
Description : Utilisé pour accéder à l'URL ciblée via une adresse IP résidentielle ou de centre de données.
Documentation :[ici]
Paramètre : stealth_mode
Description : Le web scraping n'est pas une activité illégale. Cependant, certains sites web ont tendance à bloquer l'accès aux logiciels automatisés (y compris les scrapeurs web). Notre équipe a conçu un ensemble d'outils qui rendent presque impossible la détection de notre scraper par les systèmes anti-bots. Vous pouvez activer ces fonctionnalités en utilisant le paramètre stealth_mode=1.
Documentation :[ici]
Paramètre : country
Description : Utilisé pour accéder à votre cible à partir d'une géolocalisation spécifique. Consultez les pays pris en charge [ici].
Documentation :[ici]
Paramètre : timeout
Description : Par défaut, nous mettons fin à une requête (et ne facturons pas en cas d'échec) au bout de 10 secondes. Avec certaines cibles, vous pouvez augmenter cette valeur jusqu'à 60 secondes.
Documentation :[ici]
Paramètre : device
Description : Vous pouvez utiliser ce paramètre pour que votre scraper ressemble à un "desktop", une "tablette" ou un "mobile".
Documentation :[ici]
Paramètre : wait_until
Description : En termes simples, une fois qu'il atteint l'URL ciblée, il gèle le scraper jusqu'à ce qu'un certain événement se produise. Le concept que nous suivons est mieux décrit [ici].
Documentation :[ici]
Paramètre : wait_for
Description : Ce paramètre fige le scraper pendant une durée déterminée (qui ne peut excéder 60s).
Documentation :[ici]
Paramètre : wait_for_css
Description : Gèle le scraper jusqu'à ce qu'un certain sélecteur CSS (i.e., classe ou ID) soit visible sur la page.
Documentation :[ici]
Paramètre : session
Description : Permet d'utiliser le même proxy (adresse IP) pour plusieurs requêtes.
Documentation :[ici]

Codes de réponse

L'un des aspects les plus importants que vous devez connaître à propos des codes de réponse est que nous ne facturons que les réponses positives. Par conséquent, si votre demande aboutit à un code de statut autre que 200, vous ne serez pas facturé. Par ailleurs, les erreurs de l'API sont documentées ici et, comme vous le verrez, elles suivent les codes d'état HTTP habituels. En voici quelques-unes :

400 : Bad Request - Lorsque vous envoyez des paramètres non valides, par exemple
401 : Unauthorized - Lorsque vous n'envoyez pas de `api_key` ou que la clé de l'API n'est pas valide
422 : Unprocessable Entity - Lorsque l'API ne parvient pas à répondre à la demande (par exemple, lorsque le sélecteur CSS attendu n'est pas visible sur la page).

Interagir avec l'API Web Scraper

Comme nous l'avons dit, il existe principalement trois façons d'interagir avec l'API de scraper web. Tout d'abord, l'utilisation des SDK ou l'accès à l'API via des clients HTTP dépendent davantage du langage (ou de la technologie) et nécessitent un certain bagage technique. Une interface plus conviviale pour les débutants est disponible dans notre tableau de bord, sous API Playground. Ce premier outil vous permettra de jouer avec notre scraper web, de le tester et de comprendre comment utiliser les paramètres à votre avantage, avant de vous lancer dans des implémentations programmatiques ou des fonctionnalités avancées. Voici quelques aspects clés de l'aire de jeu :

Il corrige automatiquement les incompatibilités de paramètres (par exemple, `stealth_mode=1` est incompatible avec `render_js=0`).
Il fournit des exemples de code réels pour différents langages de programmation que vous pouvez utiliser pour votre projet.
Il affiche les paramètres recommandés, basés sur nos tests internes et les données historiques des demandes précédentes, afin que vous puissiez augmenter le taux de réussite de votre projet.

Fonctionnalités avancées de Web Scraping

Pour les utilisateurs avancés, notre API est dotée de nombreuses fonctionnalités qui la rendent personnalisable et prête pour n'importe quel projet de scraping. Là encore, notre documentation officielle constitue une bonne source d'informations. Cependant, voici quelques-uns des aspects qu'il convient de souligner :

POST, PUT et PATCH

Avec l'API de scraping web, vous n'êtes pas obligé d'utiliser uniquement des requêtes GET. Si votre projet de scraping doit créer, remplacer ou mettre à jour des ressources, vous pouvez utiliser nos requêtes POST, PUT ou PATCH. Un aspect clé de ces requêtes est que vous pouvez également utiliser `render_js=1`, ce qui signifie un véritable navigateur web, et non un simple client HTTP. Voici un exemple de requête POST :

curl --request POST --url "https://api.webscrapingapi.com/v1?api_key=<YOUR_API_KEY>&url=https%3A%2F%2Fhttpbin.org%2Fpost" --data "{
  "foo": "bar"
}"

Mode Proxy

Vous pouvez également utiliser notre API en tant que proxy pour récupérer votre URL ciblée. Pour accéder à l'API en tant que proxy, vous devez tenir compte des éléments suivants :

Le nom d'utilisateur pour s'authentifier avec le proxy est toujours `webscrapingapi`, suivi par les paramètres que vous voulez activer, séparés par des points.
Le mot de passe est toujours votre clé API personnelle

Voici un exemple d'url que vous pouvez utiliser pour accéder au web scraper via notre mode Proxy:

https://webscrapingapi.<parameter_1.parameter_2.parameter_n>:<YOUR_API_KEY>@proxy.webscrapingapi.com:8000

Conclusions

Web Scraping API offre une suite d'outils de scraping puissants, soutenus par une équipe d'ingénieurs et prêts à l'emploi. Elle est dotée de dizaines de fonctionnalités qui en font une solution de web scraping personnalisable. De plus, vous pouvez intégrer le cloud web scraper généraliste avec n'importe quel langage de programmation ou technologie, car il renvoie soit du HTML brut, soit des JSON analysés. De plus, notre documentation complète et nos dépôts GitHub publics devraient vous aider à démarrer votre projet en un rien de temps.

Nous espérons que ce guide constituera un bon point de départ pour vous et nous vous rappelons que notre service d'assistance est toujours à votre disposition si vous avez des questions. Nous nous réjouissons d'être votre partenaire dans la réussite !

Nouvelles et mises à jour

Restez au courant des derniers guides et nouvelles sur le web scraping en vous inscrivant à notre lettre d'information.

Nous nous soucions de la protection de vos données. Lisez notre politique de confidentialité.

Articles connexes

Guides Amazon Scraping API - Guide de démarrage

Scrapez Amazon efficacement grâce à la solution rentable de Web Scraping API. Accédez à des données en temps réel, des produits aux profils des vendeurs. Inscrivez-vous dès maintenant !

WebscrapingAPI

22 août 20238 minutes de lecture

Guides SERP Scraping API - Guide de démarrage

Collectez sans effort des données en temps réel à partir des moteurs de recherche à l'aide de l'API SERP Scraping. Améliorez vos analyses de marché, votre référencement et vos recherches thématiques en toute simplicité. Commencez dès aujourd'hui !

WebscrapingAPI

22 août 20237 minutes de lecture

Cas d'utilisation L'utilisation du Web Scraping pour les données alternatives en finance : Un guide complet pour les investisseurs

Explorez le pouvoir de transformation du web scraping dans le secteur financier. Des données sur les produits à l'analyse des sentiments, ce guide donne un aperçu des différents types de données web disponibles pour les décisions d'investissement.

Mihnea-Octavian Manolache

10 août 202313 minutes de lecture