Les meilleurs types de proxy pour le scraping web en 2026

Q: Comment puis-je vérifier si un fournisseur de proxys prend en charge HTTP/2 et les sessions persistantes ?

Pour HTTP/2, envoyez curl --http2 -v https://www.cloudflare.com via le proxy et vérifiez la ligne de protocole négocié ; un repli vers HTTP/1.1 signifie que le proxy ne prend pas en charge HTTP/2. Pour les sessions persistantes, récupérez https://api.ipify.org dix fois avec le même ID de session et vérifiez qu’une seule adresse IP est renvoyée à chaque fois, puis attendez au-delà de la fenêtre de persistance documentée et refaites le test.

En bref : les proxys de web scraping s'intercalent entre votre outil de scraping et le site cible, masquent votre adresse IP et vous permettent de contourner les limitations de débit, les restrictions géographiques et les mesures anti-bot. Le type approprié (datacenter, résidentiel, FAI ou mobile) et le protocole adapté (HTTP/HTTPS ou SOCKS5, IPv4 ou IPv6) dépendent des défenses de la cible, de vos besoins géographiques et du poids de chaque page. Ce guide passe en revue les compromis et se termine par une liste de contrôle indépendante des fournisseurs.

Si votre scraper accède au même site plusieurs centaines de fois par heure depuis une seule adresse IP, vous n'avez que quelques minutes avant que quelque chose de l'autre côté ne s'en aperçoive. Les limites de débit s'appliquent en premier, puis les 403 temporaires, ensuite les CAPTCHA, et enfin une interdiction définitive. Les proxys de web scraping sont le levier sur lequel vous pouvez agir pour maintenir le flux de ces requêtes.

Un serveur proxy est un intermédiaire qui se place entre votre client et l'hôte cible. Son rôle principal dans le scraping est de masquer l'adresse IP d'origine, de répartir la charge sur de nombreuses adresses et de faire en sorte que le trafic ressemble davantage à celui d'un utilisateur normal. Cela vous permet de maintenir le débit, d'acheminer le trafic via des pays spécifiques et de contourner la plupart des défenses anti-bot grossières sans avoir à repenser votre scraper.

Ce guide s'adresse aux ingénieurs qui savent déjà qu'ils ont besoin de proxys de web scraping, mais qui en ont assez qu'on leur vende le « meilleur » type. Nous comparons les pools de centres de données, résidentiels, FAI et mobiles en termes de coût et de fiabilité, nous approfondissons les choix de protocole que la plupart des articles négligent, nous mettons en correspondance le choix du proxy avec les scénarios de scraping, et nous terminons par une liste de contrôle que vous pouvez appliquer à l'essai gratuit de n'importe quel fournisseur.

Pourquoi les proxys sont indispensables pour le web scraping à grande échelle

Lorsqu'une seule adresse IP envoie des centaines de requêtes vers le même domaine, les défenses de la cible détectent un schéma d'automatisation évident. L'escalade standard : limitation de débit, puis 403 Forbidden, puis bannissement permanent. Les barrières géographiques ajoutent une couche supplémentaire, bloquant des plages d'adresses entières à partir de catalogues, de résultats de recherche ou de pages de tarification spécifiques à une région. Les CAPTCHA viennent s'ajouter à cela, ralentissant chaque nouvelle tentative à la vitesse d'un humain.

Les proxys de web scraping résolvent ce problème en répartissant la même charge de travail sur de nombreuses adresses IP, réseaux et pays. Ils font en sorte que votre scraper ressemble moins à un bot impatient et davantage à une flotte d'utilisateurs normaux.

Comment un proxy sert réellement d'intermédiaire pour une requête de scraping

Un proxy prend votre requête sortante, la transmet à la cible en indiquant sa propre adresse IP dans le champ source, puis vous renvoie la réponse. La cible voit l'adresse, les en-têtes et l'empreinte TLS du proxy, jamais les vôtres. Ce qui est intéressant, c'est ce que le proxy conserve : la plupart des proxys de scraping laissent vos User-Agent, Accept-Languageet vos cookies intacts, ce qui signifie que la propreté de vos en-têtes reste importante. Si ceux-ci semblent automatisés, le simple fait de changer d'adresse IP ne vous sauvera pas.

IPv4 vs IPv6 : le choix de protocole que la plupart des guides négligent

Le pool d'adresses IPv4 plafonne à environ 4 milliards d'adresses, et les registres régionaux ont effectivement épuisé les blocs disponibles il y a des années, ce qui explique pourquoi une adresse IPv4 propre provenant d'un centre de données coûte encore cher. IPv6 dispose de billions d'adresses et est nettement moins cher à se procurer, mais c'est un piège pour les scrapers : la plupart des sites commerciaux négocient encore exclusivement IPv4 au niveau de la périphérie du CDN. Testez avant de vous engager. Exécutez curl -6 https://target.example à partir d'un hôte exclusivement IPv6. Si le résultat est un 200, les proxys IPv6 sont sûrs pour cette cible. Sinon, restez sur IPv4.

HTTP, HTTPS et SOCKS5 : quel protocole de proxy convient à votre scraper

La plupart des bibliothèques de scraping utilisent par défaut des proxys HTTP et HTTPS, ce qui convient dans la grande majorité des cas. Ils gèrent le trafic web, s'intègrent parfaitement avec requests, httpx, axioset le middleware de téléchargement de Scrapy, et la plupart des fournisseurs les proposent par défaut. SOCKS5, défini dans la RFC 1928, est indépendant du protocole et tend à être légèrement plus rapide et plus sécurisé pour le trafic non-HTTP, mais la prise en charge par les bibliothèques et les fournisseurs est plus limitée. Optez pour HTTP/HTTPS sauf si vous avez une raison spécifique, comme le routage avec des outils non-Web.

Les quatre principaux proxys de web scraping en bref

Centre de données, résidentiel, FAI et mobile sont les quatre origines IP parmi lesquelles vous aurez le choix. Elles présentent des compromis clairs en termes de prix, de vitesse, de fiabilité anti-bot et de concurrence. Les quatre sections suivantes examinent en détail dans quels cas chacune d'entre elles est la plus avantageuse.

Type	Prix indicatif	Vitesse	Fiabilité	Idéal pour
Centre de données	Le plus bas	Le plus rapide	Faible	Contenu public, défenses légères
Résidentiel	Élevé	Moyen	Élevé	Ciblage géographique, cibles anti-bot
FAI / statique	Moyen	Rapide	Élevé	Basées sur le compte, sessions longues
Mobile	Très élevé	Le plus lent	Très élevé	Défenses les plus lourdes

Proxys de centres de données : quand la vitesse et le coût l'emportent

Les adresses IP de centres de données sont attribuées commercialement par des fournisseurs de cloud et d'hébergement, sans affiliation à un FAI grand public. Cela les rend bon marché, abondantes et reposant sur une infrastructure de niveau backbone, ce qui explique pourquoi elles affichent la latence la plus faible de tous les types de proxys. L'inconvénient est le reflet de l'avantage : les systèmes anti-bot connaissent déjà AWS, OVH, Hetzner et les plages similaires, et traitent par défaut le trafic provenant de ces sources comme de l'automatisation.

Optez pour les proxys de centre de données lorsque les défenses sont légères (portails d'actualités publics, données gouvernementales, forums) ou lorsque vous pouvez privilégier le débit au détriment du taux de blocage. Deux options s'offrent à vous : les proxys dédiés pour la fiabilité et les proxys partagés pour le coût. À l'heure où nous écrivons ces lignes, les prix indicatifs se situent entre 1 et 3 dollars par IP et par mois, ou entre 50 et 150 dollars pour des pools de 50 à 100 IP.

Proxys résidentiels : des scores de confiance élevés à un prix plus élevé

Les adresses IP résidentielles sont attribuées par les FAI grand public à de véritables réseaux domestiques ; le trafic provenant de ces adresses ressemble donc à celui d'un particulier sur une connexion haut débit classique. Les systèmes anti-bot accordent une grande importance à ce signal, ce qui explique pourquoi les pools résidentiels parviennent à accéder aux sites protégés qui bloquent les plages d'adresses des centres de données. La tarification reflète cette prime de confiance : les fournisseurs facturent généralement au gigaoctet plutôt qu'à l'adresse IP, avec des tarifs indicatifs d'environ 5 à 15 dollars par Go au moment de la rédaction de cet article, assortis de remises importantes sur les volumes.

La rotation est le principal levier. Un pool rotatif vous attribue une nouvelle adresse IP à chaque requête, ce qui est idéal pour l'exploration parallèle mais interrompt les sessions basées sur les cookies. Les sessions persistantes conservent une même adresse IP pendant quelques minutes, ce qui est ce qu'il vous faut pour les flux de type « recherche puis pagination ». Il est utile de lire un guide spécialisé sur les proxys rotatifs avant de régler les délais d'expiration.

Proxys ISP (résidentiels statiques) : le juste milieu hybride

Les proxys ISP, également appelés résidentiels statiques, hébergent des adresses IP résidentielles sur une infrastructure de niveau centre de données. Vous bénéficiez du score de confiance d’une allocation ISP grand public réelle, avec la disponibilité et la marge de bande passante d’un rack de serveurs. Cet hybride est idéal pour deux cas de figure : les sessions de longue durée sur un seul compte où les changements d’IP déclencheraient des contrôles de session, et le scraping basé sur les comptes sur des plateformes (sites d’avis, places de marché, billetterie) qui associent les sessions à l’IP sur laquelle elles ont été créées. Le prix se situe généralement entre celui des proxys de centre de données et celui des proxys résidentiels, souvent entre 2 et 5 dollars par IP et par mois au moment de la rédaction de cet article. Un article plus approfondi sur les proxys ISP pour le scraping web mérite d'être ajouté à vos favoris.

Proxys mobiles : discrétion sur les réseaux 4G et 5G

Les proxys mobiles acheminent le trafic via des adresses IP 4G ou 5G attribuées par les réseaux des opérateurs. Le NAT de niveau opérateur regroupe des milliers d'utilisateurs derrière la même adresse ; bloquer une adresse IP mobile risque donc de bloquer des téléphones légitimes, et les systèmes anti-bot ne se déclenchent que rarement dans ce cas. Le score de confiance est le plus élevé que l'on puisse obtenir. Le compromis est réel : les adresses IP mobiles sont plus lentes, moins stables et plus difficiles à associer à un point d'accès unique en raison de la rotation forcée des opérateurs. Les tarifs indicatifs varient entre 10 et 20 dollars par Go ou entre 50 et 200 dollars par adresse IP dédiée par mois au moment de la rédaction de cet article. Réservez-les pour les défenses les plus robustes. Lorsque vous présélectionnez des services de proxys mobiles pour le web scraping, évaluez la stabilité, la diversité des opérateurs et la capacité de concurrence avant de vous intéresser au prix.

Adaptez le proxy à votre scénario de scraping

Cessez de comparer les types de manière abstraite. Commencez par le profil cible, puis remontez vers le proxy.

Forteresse anti-bot très puissante (Amazon, LinkedIn, Instagram, billetterie) : proxys résidentiels ou FAI, associés à une protection anti-empreinte digitale et au rendu JavaScript. Les pools de centres de données épuiseront vos tentatives de reconnexion et votre budget.
Contenu public à grande échelle (actualités, annuaires ouverts, données gouvernementales) : les proxys de centre de données conviennent généralement. Ne payez pour la fiabilité que si le taux de blocage dépasse 5 %.
SERP géociblées, tarification locale, catalogues régionaux : proxys résidentiels ou FAI dans le pays exact, idéalement dans la ville exacte. Les données géographiques des centres de données sont souvent imprécises au niveau métropolitain, ce qui nuit au référencement local et au travail de veille tarifaire.
Sessions longues sur un compte (surveillance des avis, tableaux de bord de places de marché) : proxys FAI, car la stabilité des adresses IP prime sur la rotation.
Scraping riche en images ou rendu par le navigateur : tous les types conviennent, mais surveillez la bande passante (section suivante).

Budgétisation de la bande passante et modèles de tarification qui pénalisent les scrapers

Trois modèles de tarification dominent le marché des proxys de scraping web : par IP et par mois (centres de données et FAI), par Go (résidentiels et mobiles), et par crédit ou par requête (souvent regroupés dans des API de déblocage). Choisissez le modèle qui correspond à votre profil de trafic, et non la référence préférée du fournisseur.

C'est avec la tarification au Go que le calcul de la bande passante fait le plus mal. Une page HTML de 16 à 50 Ko vous permet de récupérer environ 20 000 à 60 000 URL par gigaoctet. Affichez la même page dans un navigateur sans interface graphique et chaque requête grimpe à 1 à 4 Mo, réduisant le budget à 250 à 2 000 pages par gigaoctet. À elles seules, les pages de produits Amazon pèsent entre 200 Ko et 2 à 4 Mo une fois les images chargées. Bloquez les polices et les images dans votre navigateur sans interface avant de passer à l'échelle.

Proxys de web scraping gratuits vs payants : la véritable comparaison des coûts

Les listes de proxys gratuits semblent attrayantes jusqu’à ce que vous les évaluiez. Les pools publics annoncent des milliers d’adresses IP, mais affichent des taux de réussite compris entre 5 et 15 % à tout moment, et le sous-ensemble fonctionnel change constamment. La maintenance d’un pool gratuit utilisable coûte généralement environ 10 heures de travail d’ingénierie par mois, ce qui suffit à faire passer le coût salarial bien au-dessus d’un forfait payant une fois pris en compte (ces deux chiffres sont indicatifs et méritent d’être recoupés avec vos propres données). Les proxys gratuits présentent également un risque réel pour la sécurité, car le trafic peut être inspecté en amont. Utilisez les listes de proxys gratuits sélectionnées avec soin uniquement pour des tests ponctuels. En production, optez pour des proxys de web scraping payants.

Comment évaluer un fournisseur de proxys de web scraping

Les affirmations des fournisseurs concernant une disponibilité de plus de 95 % sont faciles à publier et difficiles à vérifier ; par conséquent, testez-les et ne vous fiez pas aveuglément à leurs promesses. Effectuez un essai gratuit sur vos cibles réelles et évaluez les aspects suivants avant de souscrire à des proxys de web scraping :

Taux de réussite par zone géographique, et non moyenne mondiale : taux de réussite par rapport aux pays spécifiques et aux sites cibles que vous visitez réellement.
Granularité géographique : pays, région et ville, avec une précision vérifiée par une recherche inversée sur un échantillon de 50 adresses IP.
Limites de connexions simultanées : limite de connexions pour votre niveau de forfait, confirmée par écrit.
Durée de la session persistante : durées minimale et maximale, et si la persistance est maintenue en cas de réponse 4xx.
Transparence de la facturation : au Go, par IP ou sur la base d'un crédit, avec des reçus détaillés.
Politique de remboursement et de crédit : modalités de remboursement des requêtes échouées et des pannes.

Pièges courants liés aux proxys et comment les contourner

Quelques problèmes opérationnels peuvent discrètement mettre à mal les scrapers fonctionnant sur des piles de proxys par ailleurs solides :

Prise en charge de HTTP/2 et HTTP/3 : de nombreux réseaux de proxys continuent de tunneler HTTP/1.1, ce qui constitue en soi une empreinte digitale sur les cibles modernes. Vérifiez la négociation de protocole avant de passer à l'échelle.
Limites de concurrence : les fournisseurs imposent des plafonds de connexion inférieurs à ce que supposent les scrapers. Vérifiez les conditions du forfait, pas le texte marketing.
Retry-with-backoff sur 403 : lorsqu'une cible renvoie un 403 Forbidden, reculez de manière exponentielle et passez à une nouvelle IP avant de réessayer. Des boucles de réessai trop serrées sur la même IP renforcent le blocage.
Hygiène des en-têtes et du TLS : alternez User-Agent, Accept-Languageet autres indices client. Des en-têtes non concordants trahissent l'automatisation, quelle que soit la propreté de votre IP.

La gestion des proxys pour le web scraping devient une discipline à part entière dès qu'il y a plus d'une cible.

Conclusion : construire une pile de proxys évolutive

Choisissez en fonction de la cible, pas de la liste des fonctionnalités. Centre de données pour les sites tolérants, résidentiel pour les cibles anti-bot, FAI pour les sessions persistantes, mobile pour les défenses les plus robustes. Intégrez une logique de réessai, une hygiène des en-têtes et des contrôles de bande passante afin que la facture au Go ne dépasse pas le volume de données que vous collectez. Investissez tôt dans la surveillance, car les tableaux de bord de taux de blocage par zone géographique et par cible constituent l'assurance la moins chère que vous puissiez acheter.

Points clés

Adaptez le type de proxy à la cible : centre de données pour le contenu public, résidentiel pour les sites anti-bot, FAI pour les sessions longues, mobile pour les défenses les plus lourdes.
Vérifiez également au niveau de la couche protocole. La plupart des cibles utilisent encore exclusivement IPv4, et la prise en charge de HTTP/2 varie considérablement d'un réseau de proxy à l'autre.
Les modèles de tarification importent autant que le type. La facturation au Go favorise les scrapers HTML légers et pénalise les tâches rendues par le navigateur, à moins que vous ne bloquiez les polices et les images.
Les proxys gratuits conviennent pour les tests mais présentent des risques en production, avec des taux de réussite compris entre 5 et 15 % environ et des frais de maintenance récurrents.
Mettez les fournisseurs à l'épreuve en leur demandant leur taux de réussite par zone géographique, leurs limites de connexions simultanées et la durée des sessions persistantes avant de vous engager sur un forfait.

FAQ

De combien de proxys ai-je réellement besoin pour un projet de web scraping ?

Faites une estimation en fonction du volume de requêtes et des limites de débit cibles, et non du nombre brut d'adresses IP. Si un site tolère une requête par IP toutes les 5 secondes et que vous avez besoin de 10 000 pages par heure, vous aurez besoin d'au moins 14 adresses IP opérationnelles, plus une marge de sécurité de 2 à 3 fois supérieure pour les tentatives de réessai et le renouvellement des adresses. Pour les forfaits résidentiels au Go, la question porte sur la bande passante, et non sur le nombre d'adresses IP.

Dois-je utiliser un VPN ou un proxy pour le web scraping ?

Utilisez un proxy. Les adresses IP des VPN sont généralement partagées entre de nombreux abonnés, ce qui leur confère de faibles scores de confiance, et elles n'exposent qu'une seule adresse IP de sortie à la fois. Les services de proxy vous offrent un pool que vous pouvez faire tourner, cibler géographiquement au niveau du pays ou de la ville, et intégrer directement dans votre client HTTP. Les VPN sont conçus pour la confidentialité personnelle. Les proxys sont conçus pour le trafic automatisé à grande échelle.

Les proxys résidentiels fonctionnent-ils mieux que les proxys de centre de données pour Google ou Amazon ?

Oui. Google et Amazon recourent massivement à l'empreinte digitale et signalent les plages d'adresses des centres de données presque dès qu'elles apparaissent, en particulier lorsque le volume de requêtes est important. Les adresses IP résidentielles et celles des FAI passent ces contrôles car elles ressemblent à de véritables connexions de consommateurs. Associez-les à des empreintes de navigateur réalistes, au rendu JavaScript lorsque cela est nécessaire, et à un rythme de requêtes adapté. Les taux de réussite de base passent de quelques pourcents à environ 80 % pour la plupart des requêtes.

Comment puis-je vérifier si un fournisseur de proxys prend en charge HTTP/2 et les sessions persistantes ?

Pour HTTP/2, envoyez curl --http2 -v https://www.cloudflare.com via le proxy et vérifiez la ligne de protocole négocié ; un repli vers HTTP/1.1 signifie que le proxy ne prend pas en charge HTTP/2. Pour les sessions persistantes, récupérez https://api.ipify.org dix fois avec le même ID de session et vérifiez qu’une seule adresse IP est renvoyée à chaque fois, puis attendez au-delà de la fenêtre de persistance documentée et refaites le test.

Les proxys gratuits sont-ils sûrs pour le scraping en production ?

En pratique, non. Les listes de proxys gratuits présentent de faibles taux de réussite, des temps d'arrêt fréquents et un risque réel que le trafic soit inspecté ou modifié par la personne qui gère le nœud de sortie. Ils sont utiles pour des scripts ponctuels et pour tester la gestion des échecs d'un scraper. Pour tout ce qui touche aux identifiants, aux données clients ou aux plannings de production, le temps d'ingénierie passé à les entretenir coûte plus cher qu'un abonnement payant.

Conclusion

Le choix de proxys pour le web scraping ne consiste pas tant à trouver le « meilleur » type qu’à faire correspondre le coût, la fiabilité et la capacité de traitement simultané aux sites de votre feuille de route. Les pools de centres de données l’emportent en termes de vitesse et de prix pour les cibles tolérantes. Les réseaux résidentiels et FAI justifient leur coût plus élevé sur les sites anti-bots et les tâches géolocalisées. Le mobile est le dernier recours pour les défenses les plus tenaces. Associez à tout cela des mécanismes de réessai avec délai de réinitialisation, une gestion rigoureuse des en-têtes et des contrôles de bande passante, et votre scraper continuera de fonctionner bien après que la première vague de 403 aurait dû le mettre hors service.

Testez chaque fournisseur sur vos cibles réelles avant de vous engager. Utilisez la liste de contrôle de ce guide : taux de réussite par zone géographique, limites de concurrence, durée des sessions persistantes, transparence de la facturation et politique de remboursement.

Si vous préférez éviter complètement le travail d'infrastructure, notre équipe chez WebScrapingAPI regroupe des pools de centres de données, résidentiels, FAI et mobiles avec une couche de déblocage gérée derrière un seul point de terminaison, afin que vous puissiez déployer le scraper et cesser de déboguer les schémas de blocage.