Retour au blog
Les techniques de web scraping
Raluca Penciuc8 janvier 202320 min de lecture

Proxys rotatifs : tout ce qu'il faut savoir

Proxys rotatifs : tout ce qu'il faut savoir

Que sont les proxys rotatifs ?

Par « proxys rotatifs », nous entendons le processus consistant à passer automatiquement d’une adresse IP à une autre à chaque requête envoyée. En théorie, cela peut se faire manuellement, mais cela signifierait que vous ne pourriez pas mettre en file d’attente une liste d’URL à scraper. Au lieu de cela, vous devriez attribuer un proxy, envoyer une requête, attribuer un autre proxy, envoyer une autre requête, et ainsi de suite. J’espère que vous voyez à quel point cela serait inefficace.

Pour la rotation automatique des proxys, vous aurez besoin d’un nouvel intermédiaire, un proxy pour votre proxy, si vous voulez. Ce nouvel intermédiaire est un serveur qui a accès à l’ensemble de votre pool de proxys. Ainsi, au lieu de parcourir vous-même la liste d’adresses IP, c’est le serveur qui s’en charge pour vous. Il vous suffit de lui donner la commande.

Voici le déroulement étape par étape du processus de scraping avec un programme qui fait tourner les proxys :

  • L'utilisateur envoie une requête au serveur de gestion des proxys.
  • Le serveur choisit un proxy au hasard (sauf indication contraire) et lui envoie la requête.
  • Le proxy envoie ensuite la requête à la cible finale, la page web contenant les données à extraire.
  • La réponse emprunte le même chemin pour revenir à l'utilisateur.

Ces quatre étapes sont répétées jusqu’à ce que l’utilisateur dispose de toutes les informations souhaitées. Chaque requête passe par un nouveau proxy, simulant ainsi les actions de nombreux utilisateurs différents se connectant à un site web.

En substance, la rotation des proxys ne vous demande donc aucun effort supplémentaire. C'est là tout l'intérêt. Il s'agit d'une automatisation accrue pour un outil déjà conçu pour collecter des tonnes d'informations sans effort de la part de l'utilisateur.

Bien sûr, pour la rotation d'IP, vous avez avant tout besoin d'un pool de proxys. Cependant, comme tous les proxys ne se valent pas, vous devez également sélectionner les bonnes adresses IP. Voici les deux principaux types :

Centre de données vs résidentiel

Il existe plusieurs façons de classer les proxys. Vous pouvez vous baser sur l'anonymat, l'accès ou l'origine. Ce dernier facteur est le plus important pour les projets de web scraping. En ce sens, les proxys sont généralement soit de type centre de données, soit résidentiels. Examinons chacun d'entre eux.

Diagram comparing residential proxies and datacenter proxies with device and server icons

Proxys de centre de données en rotation

Les centres de données tirent leur nom de leur capacité inégalée à stocker et à partager des informations en ligne. L'expression « stocké dans le cloud » est simplement une façon plus concise de dire « stocké dans un centre de données, et vous pouvez y accéder tant que vous disposez d'une connexion Internet ». La version abrégée est bien plus facile à prononcer.

Les centres de données sont essentiellement d’énormes réseaux de serveurs interconnectés dotés d’une capacité de stockage combinée colossale et de l’infrastructure nécessaire à leur fonctionnement. Les proxys de centre de données, comme vous l’avez sans doute deviné, sont hébergés par ces structures. Pour obtenir des proxys, il faut créer un serveur virtuel, y installer un système d’exploitation, puis installer un logiciel spécialisé pour configurer les adresses IP en tant que proxys.

La clé de l'efficacité des proxys de centre de données réside dans le juste équilibre entre serveurs et adresses IP. Un serveur peut héberger plusieurs adresses IP, mais chacune d'entre elles génère davantage de charge. À un certain moment, le rendement du serveur diminuera et vous devrez en créer un nouveau. La gestion des serveurs et des adresses IP demande beaucoup de travail, c'est pourquoi la plupart des développeurs préfèrent simplement louer ou acheter ces proxys auprès d'entreprises spécialisées.

Les adresses IP ne sont pas associées à un fournisseur d'accès Internet. Vous traitez plutôt avec les propriétaires de centres de données ou un tiers qui utilise de l'espace de stockage pour configurer des proxys et les distribuer aux clients.

Elles constituent un choix populaire pour les web scrapers car :

  • Elles sont peu coûteuses par rapport aux adresses IP résidentielles en raison de leur configuration en masse ;
  • Leur vitesse supérieure vous permet de collecter plus de données en moins de temps ;
  • Elles sont très fiables grâce à l'infrastructure solide des centres de données ;
  • Il est facile de les acheter ou de les louer en gros auprès de la même ferme de serveurs.

Bien sûr, tout a ses inconvénients. Pour les proxys de centre de données, ceux-ci sont les suivants :

  • Leurs adresses IP sont plus faciles à repérer par les sites web vigilants ;
  • Tous les proxys d'un même centre de données partagent un identifiant de sous-réseau, ce qui les rend plus exposés à des interdictions générales.
  • Il est plus difficile de constituer un pool de proxys avec des adresses IP de tous les pays, car les centres de données sont peu nombreux.

En utilisant des proxys de centre de données rotatifs, vous pouvez accéder et extraire avec succès la plupart des sites web. Comme chaque nouvelle requête provient d'une adresse IP différente, il est relativement difficile de suivre et de bloquer le scraper.

Les sites web avancés et populaires, c'est une autre histoire. Amazon, Google et d'autres grands noms sont confrontés quotidiennement à des scrapers et autres bots. Par conséquent, vous risquez beaucoup plus d'être repéré. De plus, les proxys de centre de données courent toujours le risque d'être déjà bannis, car toutes les adresses IP d'un même centre de données partagent un sous-réseau.

Ce qui importe le plus, c'est le choix de votre fournisseur de services de proxy et la manière dont il gère ses adresses IP. Par exemple, les proxys de centre de données de WebScrapingAPI sont privés et garantissent un risque de mise sur liste noire faible, voire nul.

Proxys résidentiels rotatifs

Si les centres de données constituent la nouvelle alternative high-tech, les adresses IP résidentielles restent l'option éprouvée. Les adresses IP résidentielles correspondent à de véritables appareils connectés au Web via un FAI. Ces proxys sont pratiquement impossibles à distinguer des utilisateurs normaux car, en un sens, c'est exactement ce qu'ils sont.

La mise en place d'un pool de proxys de centre de données nécessite des connaissances en informatique, de l'argent et le logiciel adéquat. En revanche, rassembler des adresses IP résidentielles est bien plus compliqué. Tout d'abord, il faudrait convaincre des personnes de vous laisser installer un logiciel spécialisé sur leur appareil pour vous permettre d'y accéder à distance. Ensuite, elles devraient laisser leurs machines allumées en permanence. Sinon, le proxy serait parfois inutilisable.

En raison de ces inconvénients et du niveau de confiance requis, il est nettement plus simple pour les développeurs de louer des proxys résidentiels auprès de fournisseurs de services spécialisés.

Par rapport aux proxys de centre de données, les adresses IP résidentielles présentent plusieurs avantages clés :

  • Les adresses IP résidentielles sont fournies par des FAI et apparaissent comme des visiteurs normaux lors de la navigation sur le Web, ce qui rend le scraper plus difficile à détecter ;
  • Chaque adresse IP est unique, donc même si un proxy est identifié et bloqué, tous les autres restent utilisables ;
  • Il est plus facile de constituer un pool de proxys à partir d'un large éventail d'emplacements, ce qui garantit un accès plus aisé aux contenus soumis à des restrictions géographiques.

Malgré ces avantages substantiels qui font des proxys résidentiels les meilleurs en termes d'efficacité, ils présentent également quelques inconvénients :

  • Ils sont généralement plus coûteux ;
  • En raison de l'emplacement et de la connexion Internet de l'appareil, la vitesse de requête varie d'une adresse IP à l'autre et est généralement plus lente que celle des proxys de centre de données ;
  • Vous devez choisir avec soin un fournisseur de proxys résidentiels, en vous assurant qu'il propose un nombre suffisant d'adresses IP et qu'il dispose de proxys dans les pays dont vous avez besoin pour votre projet.

Les proxys résidentiels, associés à un système de rotation d'IP et à un script qui fait tourner les en-têtes de requête (en particulier l'agent utilisateur), offrent la meilleure couverture. Grâce à eux, votre scraper web peut collecter des données sans se heurter à des obstacles, tels que les blocages d'IP ou les CAPTCHA.

En raison de leur authenticité, les proxys résidentiels sont souvent utilisés pour scraper des sites web plus complexes, comme les moteurs de recherche, les grands sites de commerce électronique ou les plateformes de réseaux sociaux. Cependant, si vous vous connectez à ces sites, désactivez la rotation des proxys afin que toutes les requêtes proviennent de la même adresse IP. Sinon, cela donnera l'impression qu'un même utilisateur envoie des requêtes depuis les quatre coins du monde en quelques secondes, ce qui prouvera qu'il s'agit d'un bot.

Pourquoi utiliser des proxys rotatifs pour le web scraping

Certains sites web ont tendance à être des cibles privilégiées pour les scrapers. On pense notamment à Google, Amazon et Facebook. Ces plateformes s'attendent à la présence de bots, elles mettent donc en place des méthodes pour les ralentir et les bloquer. Avec la popularité croissante des scrapers, ces contre-mesures sont utilisées par de plus en plus de sites web.

Dans ce contexte, il devient de plus en plus essentiel de faire tourner vos adresses IP. Sinon, vous risquez de vous heurter à des blocages d'IP constants, à des captchas, et votre pool de proxys deviendra peu à peu inefficace.

Infographic listing benefits of rotating proxies with four icon cards, including bypass throttling and avoid detection

Contourner la limitation des requêtes

La limitation des requêtes est une technique par laquelle les sites web réduisent la vitesse à laquelle les bots peuvent naviguer. En termes simples, elle limite le nombre de requêtes qu'un visiteur peut effectuer dans un laps de temps donné.

Une fois la limite atteinte, le bot est redirigé vers une page CAPTCHA. Si votre outil de web scraping ne dispose pas de capacités de résolution de CAPTCHA ou si celles-ci ne fonctionnent pas, l'adresse IP ne peut pas continuer à extraire des données sur ce site web.

Le point essentiel à retenir ici est que les sites web surveillent le nombre de requêtes envoyées depuis chaque adresse IP. Si vos requêtes sont envoyées depuis plusieurs adresses, la charge est répartie entre elles. Voici un exemple :

Si un site web est configuré de telle sorte qu'après 10 requêtes, la 11e déclenche un CAPTCHA, cela signifie que vous pouvez extraire 10 pages avant de devoir vous arrêter et changer manuellement d'adresse IP. Si vous collectez des données sur les prix, cela peut représenter une goutte d'eau dans l'océan par rapport au nombre total de pages que vous souhaitez extraire.

En faisant tourner vos proxys, vous éliminez le besoin d'intervenir manuellement. Vous pourrez scraper dix fois le nombre de proxys dont vous disposez. La seule limite est alors la taille du pool de proxys, chaque adresse IP étant utilisée à son plein potentiel.

Le plus intéressant, c'est que la limitation des requêtes restreint le nombre de visites sur une période donnée. Avec un pool de proxys suffisamment grand, le délai d'attente des proxys que vous avez déjà utilisés expirera avant que vous ne deviez les réutiliser, ce qui vous offre des capacités de scraping pratiquement illimitées.

Répartissez uniformément les requêtes dans le pool de proxys

Selon la même logique que le point précédent, la rotation des proxys garantit que vous ne surutilisez pas les mêmes adresses IP tandis que d’autres restent inutilisées. En termes simples, vous utilisez vos ressources aussi efficacement que possible. Résultat : vous pouvez obtenir les mêmes résultats avec un nombre réduit d’adresses IP.

Sans rotation des proxys, vous utilisez la même adresse IP jusqu’à ce qu’elle soit bloquée, tandis que tous les autres proxys restent inutilisés. Lorsqu’un proxy cesse de fonctionner, vous passez au suivant. Cette méthode donne l’impression que les proxys sont une ressource limitée qui s’épuise au fur et à mesure de la collecte de données. Ce n’est pas nécessaire.

Avec une bonne répartition géographique et une distribution entre centres de données et adresses résidentielles, un pool de proxys correct peut fonctionner indéfiniment si vous faites tourner les adresses IP. Il vous suffit de vous assurer qu’aucun proxy ne se démarque et ne risque d’être bloqué.

Dans le même ordre d'idées, la rotation des proxys peut accélérer de manière exponentielle le processus de scraping. La clé ici réside dans les requêtes simultanées. La plupart des API de web scraping peuvent envoyer plusieurs requêtes en même temps, leur nombre dépendant du forfait que vous avez choisi.

Envoyer 50 requêtes en même temps vers le même site web ne manquera pas de déclencher des signaux d'alerte. En fait, cela s'éloigne tellement du comportement normal d'un utilisateur que vous serez très probablement bloqué immédiatement. Vous devinez sans doute où cela mène. La rotation de vos proxys est indispensable, car elle vous permet de pousser le scraper à ses limites sans être bloqué.

Aidez le scraper à éviter la détection

Toujours au sujet du blocage, l'un des principaux avantages de la rotation des proxys est l'anonymat qu'elle garantit. Expliquons-nous !

Les sites web n'apprécient guère d'être visités par des bots. Ils peuvent chercher à vous empêcher de collecter des données ou simplement s'assurer qu'aucun programme malveillant ne tente de faire planter leurs serveurs. C'est pourquoi ils mettent en place plusieurs contre-mesures pour détecter et bloquer les bots. Comme les scrapers surfer sur Internet plus rapidement que les utilisateurs lambda, ils se font remarquer. Repensez à l'exemple des 50 requêtes simultanées. Selon le rapport « Digital Experience Benchmark 2020 » de ContentSquare, l'utilisateur moyen passe 62 secondes sur une seule page. La différence de comportement est flagrante.

Avec les proxys rotatifs, vous alternez constamment entre les adresses IP et évitez d'envoyer de nombreuses requêtes à partir d'une seule adresse. Résultat : le site web considère le trafic que vous générez comme un groupe de visiteurs distincts sans aucun lien entre eux.

Accédez à du contenu soumis à des restrictions géographiques

Un rotateur de proxys ne doit pas se contenter de changer d'adresse IP au hasard. Bien sûr, cela suffit parfois, mais une fonctionnalité plus avancée que vous devriez rechercher est la possibilité de faire tourner les proxys d'une région spécifique.

Cette fonctionnalité est essentielle lorsque vous essayez de collecter des informations relatives à une seule région. En fonction de la provenance géographique d'une requête, certains sites web peuvent :

  • Afficher des données spécifiques à l'origine de l'adresse IP
  • Restreindre l'accès parce que la requête provient d'un pays bloqué

Ainsi, en faisant tourner un pool de proxys diversifié, vous pouvez à la fois atténuer les inconvénients tout en tirant parti des avantages. Appliqué aux points précédents, cela signifie :

  • Obtenir une meilleure vue d'ensemble des marchés étrangers en recueillant des données spécifiques à plusieurs pays ;
  • D'extraire des informations qui seraient autrement inaccessibles en raison du blocage de certains pays par le site web.

Il est important de rester vigilant et de remarquer quand les sites web personnalisent leur contenu en fonction de l'origine de la requête. Ces sites ont le potentiel d'offrir des informations précieuses sur les données d'un pays. Cependant, si vous ne savez pas que vous recevez des informations personnalisées, vous risquez de vous retrouver avec des inexactitudes importantes dans vos données.

Comment utiliser les proxys rotatifs

Tout comme pour les web scrapers, vous pouvez créer, gérer et utiliser un rotateur de proxys par vous-même. Pour cela, vous aurez besoin de connaissances en programmation (Python est idéal car il dispose de nombreux frameworks utiles et d’une communauté active), de quelques connaissances générales en informatique, d’une liste de proxys et de beaucoup de patience.

La forme la plus basique serait un script qui reçoit une variable contenant votre liste de proxys et attribue des adresses IP aléatoires à chaque requête. Par exemple, vous pourriez utiliser la fonction random.sample() pour choisir une adresse IP de manière totalement aléatoire à chaque fois, mais cela signifie que le même proxy pourrait être utilisé plusieurs fois de suite. Dans ce cas, vous pourriez faire en sorte qu'une fois qu'une adresse IP a été utilisée, elle soit retirée de la liste de proxys, afin qu'elle ne soit plus utilisée tant que toutes les autres adresses n'ont pas été utilisées elles aussi.

Voici un petit exemple en Python :

import random
import requests

proxy_pool = ["191.5.0.79:53281", "202.166.202.29:58794", "51.210.106.217:443", "5103.240.161.109:6666"]
URL = 'https://httpbin.org/get'

while len(proxy_pool) >0:
	random_proxy_list = random.sample(proxy_pool, k=1)
	random_proxy = {
		'http': 'http://' + random_proxy_list[0],
	}
	response = requests.get(URL, proxies=random_proxy)
	print(response.json())
	proxy_pool.remove(random_proxy_list[0])

Le code ne parcourt le pool de proxys qu'une seule fois et ne le fait que pour une seule URL, mais cela devrait bien illustrer la logique. J'ai d'ailleurs récupéré les adresses IP sur https://free-proxy-list.net/. Sans surprise, elles n'ont pas fonctionné.

C'est en fait le problème lorsque l'on crée son propre rotateur. Vous aurez toujours besoin de bonnes adresses IP dédiées ou, au moins, partagées. Une fois que vous en êtes à acheter des proxys, autant chercher une solution qui gère la rotation des adresses IP pour vous. De cette façon, vous ne perdez pas de temps à le créer ni d'argent à l'externaliser. De plus, vous bénéficiez d'autres avantages tels que :

  • Une option rapide pour faire tourner uniquement les adresses IP d'une région spécifique ;
  • La possibilité de choisir les types de proxys à faire tourner (datacenter ou résidentiels ; fixes ou mobiles ; etc.)
  • La configuration d'adresses IP statiques lorsque vous effectuez du scraping derrière un écran de connexion ;
  • Des tentatives automatiques avec de nouvelles adresses IP en cas d'échec d'une requête.

Prenons WebScrapingAPI comme exemple pour montrer à quel point il est facile de scraper une page avec des proxys en rotation. Le code suivant est tiré directement de la documentation, où l'on trouve de nombreux autres extraits similaires :

import requests

url = "https://api.webscrapingapi.com/v1"

params = {
	"api_key":"XXXXXX",
	"url":"https://httpbin.org/get",
	"proxy_type":"datacenter",
	"country":"us"
}

response = requests.request("GET", url, params=params)

print(response.text)

C'est tout le code dont vous avez besoin pour scraper une URL en utilisant des proxys de centre de données situés aux États-Unis. Notez qu'il n'y a pas de liste d'adresses IP à faire tourner, ni même de paramètre pour cela. En effet, l'API change de proxy par défaut. Si vous souhaitez utiliser la même adresse IP pour plusieurs sessions, il suffit d'ajouter un nouveau paramètre :

import requests

url = "https://api.webscrapingapi.com/v1"

params = {
 "api_key":"XXXXXX",
 "url":"https://httpbin.org/get",
 "proxy_type":"datacenter",
 "country":"us",
 "session":"100"
}

response = requests.request("GET", url, params=params)

print(response.text)

Il suffit d'utiliser le même nombre entier pour le paramètre « session » afin d'utiliser la même adresse IP statique pour n'importe quelle URL.

Les meilleurs fournisseurs de proxys rotatifs

Maintenant que vous savez comment les proxys rotatifs peuvent optimiser le processus de scraping Web, la prochaine étape consiste à choisir un fournisseur de proxys adapté à vos besoins et à vos ressources. J'ai compilé une liste de mes préférés en me basant sur plusieurs facteurs : les tarifs, les emplacements des proxys et le nombre de proxys de datacenter et résidentiels.

1. WebScrapingAPI

Graphic showing a laptop mockup with the WebScrapingAPI landing page, used in a proxy service comparison

Laissez-moi vous poser une question : quoi de mieux que de disposer de proxys rapides, efficaces et abordables pour connecter votre outil de web scraping ?

La réponse : disposer d’une API de web scraping rapide, efficace et abordable qui s’occupe de tout à votre place. Je pourrais m’étendre longuement sur les fonctionnalités d’extraction de données de WebScrapingAPI, mais concentrons-nous pour l’instant sur les adresses IP. Le pool de proxys total compte plus de 100 millions d’adresses IP réparties dans le monde entier.

Au lieu de mesurer l’utilisation de la bande passante, vous pouvez choisir un forfait comprenant un certain nombre d’appels API. Chaque appel API correspond à une page scrapée, chacune via une adresse IP différente puisque, comme je l’ai mentionné, la rotation des proxys est activée par défaut.

Vous avez le choix entre cinq forfaits, dont une option gratuite qui vous offre 1 000 appels API par mois (en plus de l'essai gratuit) pour vous faire une opinion sur le produit. Le prix commence à 20 $ pour 200 000 appels API, et les tarifs sont plus avantageux pour les forfaits plus importants. Pour des cas d'utilisation spécifiques, nous pouvons élaborer un plan sur mesure qui répond à vos besoins.

Si vous souhaitez extraire des données via des proxys depuis un emplacement spécifique, plusieurs options s’offrent à vous. Le pool de proxys de centres de données est réparti sur 7 pays, tandis que les adresses IP résidentielles peuvent être choisies parmi 40 zones différentes. Si cela ne suffit pas, vous pouvez opter pour un forfait sur mesure avec la possibilité d’ajouter 195 autres emplacements à votre liste.

2. Oxylabs

Graphic showing a laptop mockup with the Oxylabs proxy solutions landing page

Oxylabs a adopté une approche intéressante en matière de rotation d'adresses IP. En général, lorsque vous choisissez un forfait, vous devez effectuer la rotation des adresses IP vous-même, mais vous avez la possibilité d'acheter leur rotateur de proxys en tant que module complémentaire.

Si certains cas d'utilisation ne dépendent pas beaucoup de la rotation des proxys, celle-ci est indispensable pour l'extraction de données. Si vous choisissez les proxys Oxylabs, optez donc également pour le rotateur.

La société propose des forfaits distincts pour les proxys résidentiels et les proxys de centre de données. L'utilisation des adresses IP résidentielles est facturée en fonction de la bande passante consommée, le forfait le plus bas commençant à 300 $ par mois pour 20 Go de trafic. Les proxys de centre de données offrent une bande passante illimitée, et les forfaits diffèrent selon le nombre d'adresses IP dont vous disposez. Ceux-ci commencent à 160 $ par mois, et vous devez choisir entre 100 adresses IP américaines ou 60 adresses IP non américaines.

Au total, ils disposent de plus de 100 millions de proxys résidentiels et de 2 millions de proxys de centre de données. Vous risquez donc peu de manquer d’adresses IP.

Le pool de proxys s'étend sur une zone impressionnante : 186 emplacements différents. Bien que tous ces pays disposent d'adresses IP résidentielles, ne vous attendez pas à ce qu'ils aient tous également des proxys de centre de données.

3. Shifter

Graphic showing a laptop mockup with the Shifter proxy network landing page

Shifter exploite pleinement l’infrastructure de pointe qui sous-tend les proxys de centre de données. Par conséquent, ils proposent également des proxys de centre de données partagés en plus de l’option d’IP dédiée à laquelle vous vous attendez.

Ce que nous apprécions chez Shifter, c'est le grand nombre de forfaits proposés. Par exemple, le forfait de proxy partagé le plus basique commence à 30 $ par mois pour accéder à 10 proxys partagés. À l'autre extrémité de la gamme, vous pouvez obtenir 1 000 proxys partagés pour 2 000 $. En bref, vous avez le choix.

Comme on peut s’y attendre, les proxys de centre de données dédiés sont plus chers, le forfait le moins cher commençant à 25 $ pour 5 adresses IP auxquelles vous seul avez accès.

Si vous êtes intéressé par les adresses IP résidentielles, les prix commencent à 250 $ par mois pour 10 proxys backconnect spéciaux, ce qui signifie qu’un serveur gère la rotation des proxys, vous évitant ainsi d’avoir à vous en occuper.

Leur pool de proxys contient plus de 31 millions d'adresses IP, et les utilisateurs peuvent voir le nombre exact dans leur panneau de contrôle.

Le ciblage géographique est disponible pour tous les pays du monde, mais il y a une restriction : vous ne pouvez l'utiliser qu'avec des adresses IP résidentielles.

4. SmartProxy

Graphic showing a laptop mockup with the Smartproxy landing page and a world map connection graphic

Outre son impressionnant pool de proxys, SmartProxy propose une belle sélection d'outils. Il s'agit d'un générateur d'adresses proxy, d'extensions pour Chrome et Firefox, et d'un programme qui vous aide à surfer sur le net à partir de plusieurs navigateurs simultanément.

Mais revenons aux proxys. SmartProxy offre à ses utilisateurs l'accès à plus de 40 millions d'adresses IP résidentielles ainsi qu'à 40 000 proxys de centres de données. En plus de cela, ils fournissent également des proxys résidentiels uniques conçus pour le scraping des moteurs de recherche. Contrairement aux deux autres options, dont le prix dépend de la bande passante utilisée, les forfaits de proxys pour moteurs de recherche ont un nombre fixe de requêtes.

Si la plupart des adresses IP proviennent des États-Unis, du Royaume-Uni, du Canada, d’Allemagne, d’Inde et du Japon, ils disposent de plus d’une centaine d’emplacements avec au moins 50 adresses IP.

Côté prix, les forfaits commencent à 50 $ pour 100 Go de trafic via des proxys de centres de données ou à 75 $ pour 5 Go avec des proxys résidentiels. Comme on peut s'y attendre, les forfaits plus complets offrent des conditions plus avantageuses.

5. Bright Data

Graphic showing a laptop mockup with the Bright Data data collection infrastructure landing page

Bright Data propose un impressionnant pool de proxys composé de proxys de centre de données, résidentiels et mobiles. En chiffres, cela se présente ainsi :

  • Plus de 700 000 adresses IP de centres de données
  • Plus de 72 000 000 d'adresses IP résidentielles
  • Plus de 85 000 adresses IP résidentielles statiques
  • Plus de 7 500 000 adresses IP mobiles

Des chiffres impressionnants, c'est certain. L'inconvénient, c'est que les prix sont également assez élevés. Bien qu'il existe certains forfaits à prix fixes, il est préférable d'utiliser le calculateur de prix pour créer un forfait sur mesure. Grâce à ce calculateur, vous définissez le nombre d'adresses IP souhaité et une bande passante maximale par mois, et vous obtenez le prix exact.

En matière de géolocalisation, Bright Data dispose d'adresses IP dans pratiquement tous les pays du monde. Une page de leur site web vous permet de vérifier les emplacements. Si vous avez besoin de certains types de proxys dans des zones spécifiques, cette page vous sera très utile.

Comment choisir un fournisseur de services de proxy

L'un des principaux avantages du web scraping et des proxys en général réside dans la multitude d'options disponibles.

Comme la plupart des particuliers ou des entreprises ont un objectif précis en tête, il n'est pas rare de choisir un fournisseur et de se rendre compte par la suite qu'il ne correspond pas à vos besoins. Ce n'est pas l'idéal, mais cela arrive. Heureusement, la plupart des entreprises proposent une période d'essai, une offre gratuite ou au moins une politique de remboursement.

C'est pourquoi le meilleur conseil que je puisse vous donner est d'explorer vos options, de comparer les offres, et vous trouverez forcément celle qui vous convient.

Outre les proxys, vous aurez également besoin d'un outil de web scraping, n'est-ce pas ? Eh bien, parmi toutes les alternatives, voici 10 produits d'extraction de données qui méritent votre attention.

Si vous n'avez pas le temps, voici une recommandation en bref, rien que pour vous : commencez votre essai gratuit de WebScrapingAPI, et vous n'aurez pas besoin d'essayer d'autres scrapers !

À propos de l'auteur
Raluca Penciuc, Développeur full-stack @ WebScrapingAPI
Raluca PenciucDéveloppeur full-stack

Raluca Penciuc est développeuse Full Stack chez WebScrapingAPI ; elle conçoit des robots de collecte de données, améliore les techniques de contournement et recherche des moyens fiables de réduire le risque de détection sur les sites cibles.

Commencez à créer

Prêt à faire évoluer votre système de collecte de données ?

Rejoignez plus de 2 000 entreprises qui utilisent WebScrapingAPI pour extraire des données Web à l'échelle de l'entreprise, sans aucun coût d'infrastructure.