Retour au blog
Guides
Mihnea-Octavian ManolacheLast updated on Apr 22, 202610 min read

Guide de démarrage rapide de l'API de web scraping

Guide de démarrage rapide de l'API de web scraping

WebScrapingAPI propose une gamme de solutions de web scraping. Notre produit phare est un outil de web scraping polyvalent, conçu pour collecter des données en temps réel sur n'importe quel site web. Comme vous le découvrirez tout au long de ce guide, cet outil regorge de fonctionnalités diverses qui lui permettent de passer inaperçu face aux systèmes anti-bots. Compte tenu de l'étendue de ses fonctionnalités, ce guide a pour but de vous aider à vous familiariser avec WebScrapingAPI. Voici quelques-uns des points que nous aborderons :

  • Utilisation du tableau de bord
  • Comprendre les paramètres et les fonctionnalités de l'API
  • Envoi de requêtes de base à l'API
  • Configurer un scraper web complexe à l'aide des SDK

Pourquoi s'inscrire à l'API Web Scraping

Il existe d'innombrables raisons d'utiliser Web Scraping API plutôt qu'un scraper classique. Cependant, nous nous appuyons sur les retours d'expérience pour déterminer ce qui fait de nous le meilleur choix. Voici quelques-unes des raisons pour lesquelles nos clients nous ont choisis :

  • Assistance professionnelle - Notre assistance est assurée par de véritables ingénieurs logiciels qui travaillent directement avec l'API. Ainsi, lorsque vous nous contactez pour obtenir de l'aide, nous veillons à ce que vous receviez les meilleures réponses possibles. De plus, si vous rencontrez un problème, l'ingénieur qui vous répondra sera très probablement en mesure de le résoudre en un rien de temps et de déployer la correction en production.
  • Facilité d'utilisation - Créer un outil de web scraping peut s'avérer complexe. Il faut tenir compte de divers proxys, mécanismes d'évasion, captchas, navigateurs, etc. Avec l'API de Web Scraping, vous bénéficiez de tout cela (et bien plus encore) d'un simple « clic ».
  • Évolutivité - Lorsque nous avons développé notre produit, l'une de nos principales priorités était de garantir des résultats quel que soit le nombre total de requêtes reçues. En vous inscrivant à Web Scraping API, vous accédez à l'ensemble de notre infrastructure. Cela inclut les proxys, les navigateurs, les clients HTTP et bien plus encore.

S'inscrire à un scraper gratuit basé sur le cloud

Pour vous inscrire à l'API Web Scraping, il vous suffit d'une adresse e-mail valide. De plus, chaque utilisateur a droit à un essai gratuit de 7 jours avec un accès complet aux fonctionnalités de l'API, limité à 1 000 crédits API. Au terme de ces 7 jours, vous continuerez à bénéficier d'un niveau gratuit, qui vous offre 1 000 crédits API par mois, mais avec des fonctionnalités API limitées. Si vous souhaitez continuer à utiliser la version complète de notre scraper web basé sur le cloud, nous vous proposons des formules tarifaires flexibles. Vous pouvez consulter la page Tarifs pour obtenir des informations à jour sur les tarifs. Pour finir sur une note positive, nous proposons :

  • une formule Starter, avec jusqu'à 100 000 crédits API et 20 appels simultanés
  • une formule Grow, avec jusqu'à 1 000 000 de crédits API et 50 appels simultanés
  • une formule Business, avec jusqu'à 3 000 000 de crédits API et 100 appels simultanés
  • une formule Pro, avec jusqu'à 10 000 000 de crédits API et 500 appels simultanés
  • une formule « Enterprise » sur mesure, à définir en fonction de vos besoins spécifiques

Pour commencer, rendez-vous sur notre page d'inscription ici et créez simplement un compte gratuit.

Comprendre le tableau de bord

L'inscription sur notre tableau de bord ne vous donne pas automatiquement accès à nos produits. Comme vous le verrez, la barre latérale gauche affiche plusieurs options associées à nos produits. Étant donné que ce guide concerne le scraper web polyvalent, pour souscrire à ce service, rendez-vous sur Web Scraping API et cliquez sur le bouton « Obtenir un essai gratuit ». Une fois l'abonnement créé, une clé API vous sera fournie. Veillez à la conserver en lieu sûr, car il s'agit de votre identifiant unique dans nos systèmes. Vous pourrez alors également accéder à la page des statistiques et au Playground.

Les bases de notre API de scraping Web

Il existe trois façons d'interagir avec notre scraper web, dont deux sont, disons, « programmatiques » et une qui est plus « accessible aux débutants ». Les deux premières impliquent d'accéder à l'API via des clients HTTP ou via nos SDK. La troisième consiste à utiliser le Playground fourni dans le tableau de bord. Nous y reviendrons sous peu, mais avant cela, il est important de comprendre comment fonctionne l'API. Ce n’est qu’alors que vous pourrez exploiter toute la puissance de l’API de scraping Web. Commençons donc par les bases :

Authentification des requêtes

Nous authentifions les requêtes provenant d'utilisateurs enregistrés en activant le paramètre URL `api_key`. La clé API unique est liée à votre compte et contient des informations sur les autorisations, l'utilisation, etc.

Veuillez noter que chaque produit auquel vous vous inscrivez est associé à une clé API unique. Par exemple, vous ne pouvez pas utiliser la clé API de votre outil de web scraping polyvalent sur l'API SERP, ni l'inverse.

Cela étant dit, pour scraper une URL en tant qu'utilisateur authentifié, vous devrez accéder à la ressource suivante :

https://api.webscrapingapi.com/v1?api_key=<YOUR_UNIQUE_API_KEY>

Paramètres de l'API

Au sein de notre API, les paramètres de requête sont utilisés pour personnaliser le scraper en fonction de vos besoins. Comprendre le fonctionnement de chaque paramètre nous permettra d'exploiter pleinement la puissance de notre API de scraping Web. Nous tenons à jour une documentation sur les paramètres de l'API ici. Cependant, nous allons également les examiner en détail ici, afin de mieux comprendre comment les paramètres de requête fonctionnent avec l'API de scraping Web. Cela étant dit, il existe trois types de paramètres : obligatoires, par défaut et facultatifs. Les paramètres obligatoires sont assez simples :

  • Le paramètre `api_key` dont nous avons parlé plus haut
  • Le paramètre `url`, qui représente l'URL que vous souhaitez scraper

Veuillez noter que la valeur du paramètre `url` doit être une URL valide, et non un nom de domaine, et qu’elle doit idéalement être encodée en URL (par exemple : https%3A%2F%2Fwebscrapingapi.com)

En ce qui concerne les paramètres par défaut, nous avons utilisé des données historiques pour augmenter le taux de réussite de notre API (et implicitement celui de votre projet). Nos données internes montrent que la meilleure configuration pour le web scraping consiste à utiliser un véritable navigateur web associé à une adresse IP résidentielle. Par conséquent, les paramètres par défaut de notre API sont :

  • `render_js=1` - pour lancer un véritable navigateur (et non un simple client HTTP)
  • `proxy_type=residential` - pour accéder à la cible via une adresse IP résidentielle (activé uniquement si votre forfait actuel prend en charge les proxys résidentiels)

Bien sûr, vous pouvez également remplacer la valeur de ces paramètres, même si nous ne le recommandons pas. Le scraping avec un client HTTP basique et des proxys de centre de données conduit généralement le site web ciblé à détecter l'activité de scraping et à bloquer l'accès.

Nous allons maintenant aborder les paramètres optionnels. Comme nous avons répertorié tous les paramètres dans notre documentation, nous ne traiterons pour l'instant que les paramètres les plus utilisés :

  • Paramètre : render_js Description : en activant ce paramètre, vous accéderez à l'URL ciblée via un navigateur réel. Cela présente l'avantage de rendre les fichiers JavaScript. C'est un excellent choix pour le scraping de sites riches en JavaScript (comme ceux construits avec ReactJS, par exemple). Documentation : [ici ]
  • Paramètre : proxy_type Description : Utilisé pour accéder à l'URL ciblée via une adresse IP résidentielle ou celle d'un centre de données. Documentation : [ici ]
  • Paramètre : stealth_mode Description : Le web scraping n'est pas une activité illégale. Cependant, certains sites web ont tendance à bloquer l'accès aux logiciels automatisés (y compris les web scrapers). Notre équipe a conçu un ensemble d'outils qui rend presque impossible la détection de notre web scraper par les systèmes anti-bot. Vous pouvez activer ces fonctionnalités en utilisant le paramètre stealth_mode=1. Documentation : [ici ]
  • Paramètre : country Description : Utilisé pour accéder à votre cible depuis une géolocalisation spécifique. Consultez la liste des pays pris en charge [ici]. Documentation : [ici ]
  • Paramètre : timeout Description : Par défaut, nous mettons fin à une requête (et ne facturons pas en cas d'échec) après 10 secondes. Avec certaines cibles, vous pouvez souhaiter augmenter cette valeur jusqu'à 60 secondes. Documentation : [ici ]
  • Paramètre : device Description : Vous pouvez l'utiliser pour faire en sorte que votre scraper ressemble à un « ordinateur de bureau », une « tablette » ou un « mobile ». Documentation : [ici ]
  • Paramètre : wait_until Description : En termes simples, une fois l'URL cible atteinte, le scraper est mis en attente jusqu'à ce qu'un certain événement se produise. Le concept que nous suivons est décrit en détail [ici]. Documentation : [ici ]
  • Paramètre : wait_for Description : Ce paramètre bloque le scraper pendant une durée spécifiée (qui ne peut dépasser 60 secondes). Documentation : [ici ]
  • Paramètre : wait_for_css Description : Gèle le scraper jusqu'à ce qu'un certain sélecteur CSS (c'est-à-dire une classe ou un ID) soit visible sur la page. Documentation : [ici ]
  • Paramètre : session Description : Vous permet d'utiliser le même proxy (adresse IP) pour plusieurs requêtes. Documentation : [ici ]

Codes de réponse

L'un des aspects les plus importants à connaître concernant les codes de réponse est que nous ne facturons que les réponses réussies. Ainsi, si votre requête aboutit à un code de statut autre que 200, vous ne serez pas facturé. Par ailleurs, les erreurs de l'API sont documentées ici et, comme vous le verrez, elles suivent les codes de statut HTTP habituels. Pour n'en citer que quelques-unes :

  • 400 : Bad Request - Lorsque vous envoyez des paramètres invalides, par exemple
  • 401 : Non autorisé - Lorsque vous n'envoyez pas de `api_key` ou que la clé API est invalide
  • 422 : Entité non traitable - Lorsque l'API ne parvient pas à répondre à la requête (par exemple lorsque le sélecteur CSS que vous attendiez n'est pas visible sur la page)

Interagir avec l'API Web Scraper

Comme indiqué, il existe principalement trois façons d'interagir avec l'API Web Scraper. Tout d'abord, l'utilisation des SDK ou l'accès à l'API via des clients HTTP dépend davantage du langage (ou de la technologie) et nécessite certaines connaissances techniques. Une interface plus conviviale pour les débutants est disponible dans notre tableau de bord, sous la rubrique « API Playground ». Cet outil vous permettra de vous familiariser avec notre Web Scraper, de le tester et de comprendre comment utiliser les paramètres à votre avantage, avant de vous lancer dans des implémentations programmatiques ou des fonctionnalités avancées. Voici quelques aspects clés de l'API Playground :

  • Il corrige automatiquement les incompatibilités entre paramètres (par exemple, `stealth_mode=1` est incompatible avec `render_js=0`)
  • Il fournit des exemples de code concrets pour divers langages de programmation que vous pouvez utiliser pour votre projet
  • Il affiche les paramètres recommandés, basés sur nos tests internes et les données historiques des requêtes précédentes, afin que vous puissiez augmenter le taux de réussite de votre projet

Fonctionnalités avancées de web scraping

Pour les utilisateurs avancés, notre API regorge de fonctionnalités diverses qui la rendent personnalisable et prête pour tout projet de scraping. Là encore, notre documentation officielle constitue une bonne source d'informations. Cependant, voici quelques aspects qu'il convient de souligner :

POST, PUT et PATCH

Avec l'API de web scraping, vous n'êtes pas limité aux requêtes GET. Si votre projet de scraping nécessite de créer, remplacer ou mettre à jour des ressources, vous pouvez utiliser nos requêtes POST, PUT ou PATCH. Un aspect clé de ces requêtes est que vous pouvez également utiliser `render_js=1`, ce qui signifie un véritable navigateur web, et non un simple client HTTP. Voici un exemple de requête POST :

curl --request POST --url "https://api.webscrapingapi.com/v1?api_key=<YOUR_API_KEY>&url=https%3A%2F%2Fhttpbin.org%2Fpost" --data "{
  "foo": "bar"
}"

Mode proxy

Vous pouvez également utiliser notre API comme proxy pour scraper l'URL de votre choix. Pour accéder à l'API en tant que proxy, vous devez tenir compte des éléments suivants :

  • Le nom d'utilisateur pour s'authentifier auprès du proxy est toujours défini sur `webscrapingapi`, suivi des paramètres que vous souhaitez activer, séparés par des points.
  • Le mot de passe est toujours votre clé API personnelle

Voici un exemple d'URL que vous pouvez utiliser pour accéder au scraper Web via notre mode proxy :

https://webscrapingapi.<parameter_1.parameter_2.parameter_n>:<YOUR_API_KEY>@proxy.webscrapingapi.com:8000

Conclusions

L'API de scraping Web offre une suite d'outils de scraping puissants, soutenus par une équipe d'ingénieurs et prêts à l'emploi. Elle regorge de dizaines de fonctionnalités, ce qui en fait une solution de scraping Web personnalisable. De plus, vous pouvez intégrer ce scraper web cloud polyvalent à n'importe quel langage de programmation ou technologie, car il renvoie soit du HTML brut, soit des JSON parsemés. Par ailleurs, notre documentation complète et nos dépôts GitHub publics devraient vous aider à démarrer votre projet en un rien de temps.

Nous espérons que ce guide constituera un bon point de départ pour vous et n'hésitez pas à contacter notre service d'assistance si vous avez des questions. Nous sommes impatients de vous accompagner vers le succès !

À propos de l'auteur
Mihnea-Octavian Manolache, Développeur Full Stack @ WebScrapingAPI
Mihnea-Octavian ManolacheDéveloppeur Full Stack

Mihnea-Octavian Manolache est ingénieur Full Stack et DevOps chez WebScrapingAPI, où il développe des fonctionnalités pour les produits et assure la maintenance de l'infrastructure qui garantit le bon fonctionnement de la plateforme.

Commencez à créer

Prêt à faire évoluer votre système de collecte de données ?

Rejoignez plus de 2 000 entreprises qui utilisent WebScrapingAPI pour extraire des données Web à l'échelle de l'entreprise, sans aucun coût d'infrastructure.