Comment utiliser WebScrapingAPI pour récupérer n'importe quel site web

Robert Munceanu le 07 avril 2021

Si vous êtes intéressé par les web scrapers et que vous souhaitez une solution capable d'extraire diverses données d'Internet, vous êtes au bon endroit !

Dans cet article, nous allons vous montrer à quel point il est facile d'utiliser WebScrapingAPI pour obtenir les informations dont vous avez besoin en quelques instants et manipuler les données comme vous le souhaitez.

Il est possible de créer son propre scraper pour extraire des données sur le web, mais il faut beaucoup de temps et d'efforts pour le développer, car il y a des défis à relever en cours de route. Et le temps est un facteur essentiel.

Sans plus attendre, voyons comment vous pouvez extraire des données de n'importe quel site web à l'aide de WebScrapingAPI. Cependant, nous allons d'abord voir pourquoi les web scrapers sont si précieux et comment ils peuvent vous aider, vous ou votre entreprise, à atteindre vos objectifs de croissance.

Comment le web scraping peut vous aider

Le web scraping peut être utile à diverses fins. Les entreprises utilisent des outils d'extraction de données pour développer leurs activités. Les chercheurs peuvent utiliser les données pour créer des statistiques ou aider à la rédaction de leur thèse. Voyons comment :

Optimisation des prix : Une meilleure connaissance de la concurrence peut contribuer à la croissance de votre entreprise. Vous savez ainsi comment les prix fluctuent dans le secteur et comment cela peut influencer votre entreprise. Même si vous êtes à la recherche d'un article à acheter, cela peut vous aider à comparer les prix de différents fournisseurs et à trouver la meilleure offre.
Recherche : Il s'agit d'un moyen efficace de recueillir des informations pour votre projet de recherche. Les statistiques et les rapports de données sont importants pour l'authenticité de vos rapports. L'utilisation d'un outil de web scraping permet d'accélérer le processus.
Apprentissage automatique : Pour entraîner votre IA, vous avez besoin d'une grande quantité de données, et leur extraction manuelle peut prendre beaucoup de temps. Par exemple, si vous voulez que votre IA détecte des chiens sur des photos, vous aurez besoin d'un grand nombre de chiots.

La liste est longue, mais ce qu'il faut retenir, c'est que le web scraping est un outil très important car il a de nombreuses utilisations, comme un couteau suisse ! Si vous êtes curieux de savoir si le web scraping peut être la réponse à vos problèmes, pourquoi ne pas y jeter un coup d'œil ?

Dans la suite, vous verrez quelques fonctionnalités et comment WebScrapingAPI peut vous aider à scraper le web et à extraire des données comme personne ne le fait !

Ce que WebScrapingAPI apporte à la table

Vous avez probablement pensé à créer votre propre outil de web scraping plutôt que d'utiliser un outil préétabli, mais il y a de nombreux éléments à prendre en compte, et ceux-ci peuvent prendre beaucoup de temps et d'efforts.

Tous les sites web n'acceptent pas d'être scannés et développent donc des contre-mesures pour détecter et empêcher le robot de faire votre travail. Ils peuvent utiliser différentes méthodes, telles que les CAPTCHA, la limitation du débit et l'empreinte digitale du navigateur. S'ils trouvent votre adresse IP un peu suspecte, il y a de fortes chances que vous ne puissiez pas faire du scraping très longtemps.

Certains sites web ne peuvent être consultés que dans certaines régions du monde, c'est pourquoi vous devez utiliser un proxy pour accéder à leur contenu. Mais la gestion d'un pool de proxy n'est pas non plus une tâche facile, car vous devez constamment effectuer une rotation pour ne pas être détecté et utiliser des adresses IP spécifiques pour les contenus soumis à des restrictions géographiques.

Malgré tous ces problèmes, WebScrapingAPI vous soulage et résout les problèmes avec facilité, faisant du scraping un jeu d'enfant. Vous pouvez jeter un coup d'œil et voir par vous-même quels sont les obstacles qui peuvent apparaître dans le scraping web!

Maintenant que nous savons comment WebScrapingAPI peut nous aider, voyons comment l'utiliser, et rassurez-vous, c'est assez facile !

Comment utiliser WebScrapingAPI ?

Clé d'accès à l'API et authentification

Tout d'abord, nous avons besoin d'une clé d'accès pour utiliser WebScrapingAPI. Pour l'obtenir, vous devez créer un compte. Le processus est assez simple, et vous n'avez rien à payer, puisqu'il existe aussi un plan d'abonnement gratuit !

Après vous être connecté, vous serez redirigé vers le tableau de bord, où vous pourrez voir votre clé d'accès unique. Veillez à la garder secrète, et si vous pensez que votre clé unique a été compromise, vous pouvez toujours utiliser le bouton "Réinitialiser la clé API" pour en obtenir une nouvelle.

Après avoir obtenu votre clé, nous pouvons passer à l'étape suivante et voir comment nous pouvons l'utiliser.

Documentation

Il est essentiel de connaître les fonctionnalités de WebScrapingAPI pour nous aider dans notre aventure de web scraping. Toutes ces informations peuvent être trouvées dans la documentation présentée de manière détaillée, avec des exemples de code dans différents langages de programmation. La requête la plus basique que vous pouvez faire à l'API est de définir les paramètres api_key et url avec votre clé d'accès et l'URL du site web que vous voulez scraper, respectivement. Voici un exemple rapide en Python :

import http.client
conn = http.client.HTTPSConnection("api.webscrapingapi.com")
conn.request("GET", "/v1 ?api_key=XXXXX&url=http%3A%2F%2Fhttpbin.org%2Fip")
res = conn.getresponse()
data = res.read()
print(data.decode("utf-8"))

WebScrapingAPI possède d'autres fonctionnalités qui peuvent être utilisées pour le scraping. Certaines d'entre elles peuvent être exploitées simplement en définissant quelques paramètres supplémentaires, et d'autres sont déjà implémentées dans l'API, dont nous avons parlé précédemment.

Voyons quelques autres paramètres que nous pouvons définir et pourquoi ils sont utiles pour notre extraction de données :

render_js : Certains sites web peuvent rendre des éléments essentiels de la page à l'aide de JavaScript, ce qui signifie que certains contenus ne seront pas affichés lors du chargement initial de la page et ne pourront pas être récupérés. En utilisant un navigateur sans tête, WSA est capable de rendre ce contenu et de le récupérer pour que vous puissiez l'utiliser. Il suffit de définir render_js=1, et le tour est joué !
proxy_type : Vous pouvez choisir le type de proxy à utiliser. Voici pourquoi les proxys sont si importants et comment le type de proxy peut avoir un impact sur votre web scraping.
pays : La géolocalisation est utile lorsque vous souhaitez récupérer des données à partir de différents endroits, car le contenu d'un site web peut être différent, voire exclusif, en fonction de la région. Vous définissez ici le code pays à deux lettres pris en charge par WSA.

Terrain de jeu de l'API

Si vous souhaitez voir l'interface WebScrapingAPI en action avant de l'intégrer dans votre projet, vous pouvez utiliser le terrain de jeu pour tester quelques résultats. L'interface est conviviale et facile à utiliser. Il vous suffit de sélectionner les paramètres en fonction du type de scraping que vous souhaitez effectuer et d'envoyer la requête.

Dans la section des résultats, vous verrez la sortie après le scraping et l'exemple de code de cette requête dans différents langages de programmation pour une intégration plus facile.

Intégration de l'API

Comment pouvons-nous utiliser WSA dans notre projet ? Jetons un coup d'œil à cet exemple rapide où nous scrappons Amazon pour trouver la carte graphique la plus chère sur une page. Cet exemple est écrit en JavaScript, mais vous pouvez le faire dans n'importe quel langage de programmation avec lequel vous vous sentez à l'aise.

Tout d'abord, nous devons installer quelques paquets pour nous aider avec la requête HTTP(got) et l'analyse du résultat(jsdom) en utilisant cette ligne de commande dans le terminal du projet :

npm install got jsdom

L'étape suivante consiste à définir les paramètres nécessaires pour effectuer notre demande :

const params = {
   api_key: "XXXXXX",
   url: "https://www.amazon.com/s?k=graphic+card"
}

C'est ainsi que nous préparons la requête à WebScrapingAPI pour qu'elle scrape le site web pour nous :

const response = await got('https://api.webscrapingapi.com/v1', {searchParams: params})

Nous devons maintenant voir où se trouve chaque élément de carte graphique dans le code HTML. En utilisant l'outil de développement, nous avons découvert que la classe s-result-item contient tous les détails du produit, mais nous n'avons besoin que de son prix.

À l'intérieur de l'élément, nous pouvons voir qu'il y a un conteneur de prix avec la classe a-price et la sous-classe a-offscreen où nous allons extraire le texte représentant son prix.

WebScrapingAPI renverra la page au format HTML, nous devons donc l'analyser. JSDOM fera l'affaire.

const {document} = new JSDOM(response.body).window

Après avoir envoyé la requête et analysé la réponse reçue de l'ASM, nous devons filtrer le résultat et n'extraire que ce qui est important pour nous. Grâce à l'étape précédente, nous savons que les détails de chaque produit se trouvent dans la classe s-result-item, nous itérons donc sur eux. À l'intérieur de chaque élément, nous vérifions si la classe de conteneur de prix a-price existe, et si c'est le cas, nous extrayons le prix de l'élément a-offscreen à l'intérieur et nous le poussons dans un tableau.

Trouver le produit le plus cher devrait être un jeu d'enfant. Il suffit de parcourir le tableau et de comparer les prix entre eux.

En terminant par une fonction asynchrone, le code final devrait ressembler à ceci :

const {JSDOM} = require("jsdom");
const got = require("got");
(async () => {
   const params = {
       api_key: "XXX",
       url: "https://www.amazon.com/s?k=graphic+card"
   }
   const response = await got('https://api.webscrapingapi.com/v1', {searchParams: params})
   const {document} = new JSDOM(response.body).window
   const products = document.querySelectorAll('.s-result-item')
   const prices = []
   products.forEach(el => {
       if (el) {
           const priceContainer = el.querySelector('.a-price')
           if (priceContainer)               prices.push(priceContainer.querySelector('.a-offscreen').innerHTML)
       }
   })
   let most_expensive = 0
   prices.forEach((price) => {
       if(most_expensive < parseFloat(price.substring(1))) 
most_expensive = parseFloat(price.substring(1))
   })
     console.log("The most expensive item is: ", most_expensive)
})();

Dernières réflexions

Nous espérons que cet article vous a montré à quel point un outil de web scraping prêt à l'emploi peut être utile et à quel point il est facile de l'utiliser dans le cadre de votre projet. Il prend en charge les obstacles posés par les sites web, vous aide à scraper sur Internet de manière furtive, et peut également vous faire gagner beaucoup de temps.

Pourquoi ne pas essayer WebScrapingAPI ? Constatez par vous-même son utilité si vous ne l'avez pas encore fait. La création d'un compte est gratuite et 1000 appels d'API peuvent vous aider à démarrer votre aventure de web scraping.

Commencez dès maintenant !

Nouvelles et mises à jour

Restez au courant des derniers guides et nouvelles sur le web scraping en vous inscrivant à notre lettre d'information.

Nous nous soucions de la protection de vos données. Lisez notre politique de confidentialité.

Articles connexes

Guides Comment récupérer les données des produits Amazon : Un guide complet des meilleures pratiques et des outils

Explorez les complexités du scraping des données de produits Amazon avec notre guide approfondi. Des meilleures pratiques aux outils tels que l'API Amazon Scraper, en passant par les considérations juridiques, apprenez à relever les défis, à contourner les CAPTCHA et à extraire efficacement des informations précieuses.

Suciu Dan

10 août 202315 minutes de lecture

Guides Apprendre à contourner la détection de Cloudflare avec le meilleur navigateur Selenium

Apprenez quel est le meilleur navigateur pour contourner les systèmes de détection de Cloudflare lorsque vous faites du web scraping avec Selenium.

Mihnea-Octavian Manolache

02 mai 20239 minutes de lecture

La science du Web Scraping Le Web Scraping en toute simplicité : l'importance de l'analyse des données

Découvrez comment extraire et organiser efficacement des données pour le web scraping et l'analyse de données grâce à l'analyse de données, aux bibliothèques d'analyse HTML et aux métadonnées schema.org.

Suciu Dan

26 avril 202312 minutes de lecture