À la base, les proxys sont conçus pour masquer votre véritable adresse IP. De plus, ils sont essentiels pour accéder à des contenus soumis à des restrictions géographiques, car les sites web pensent que vos requêtes proviennent de différentes régions. Les sites de streaming en sont l’exemple le plus connu. La série The Office, par exemple, n’est disponible sur Netflix qu’au Royaume-Uni et en Irlande, mais si vous obtenez un proxy britannique, vous pouvez regarder la série depuis n’importe où.
En matière de web scraping, le pool de proxys est l'un des éléments les plus critiques. Ils sont utilisés pour donner l'impression que les requêtes du bot proviennent de différents endroits et à différents moments. C'est votre première ligne de défense contre les blocages d'IP. De plus, en cas d'échec, votre véritable adresse IP ne sera pas bloquée et pourra toujours accéder au site web.
Les scrapers Web, et les bots en général, peuvent envoyer des tonnes de requêtes très rapidement. C'est ce qui les rend si intéressants pour la collecte de données. Mais cette vitesse est souvent leur talon d'Achille. Les sites Web peuvent déterminer si les requêtes proviennent d'une personne légitime ou d'un bot en fonction de leur comportement. Par exemple, un humain ne demandera jamais 25 pages en moins d'une seconde.
Ajoutez un proxy au milieu, ou mieux encore, tout un pool de proxys, et vous disposez soudainement de plus d'options. En répartissant les requêtes sur une poignée de proxys, vous modifiez ce que voit le site web. Concrètement, au lieu d'une seule adresse IP envoyant 100 requêtes à la fois, ce sont désormais 10 adresses IP qui envoient chacune 10 requêtes. Idéalement, vous envoyez chaque requête via un proxy différent.
Vous pensez peut-être que changer constamment d'adresse IP est une tâche fastidieuse, et vous avez raison. C'est pourquoi les fournisseurs de services de proxy ont mis au point la rotation de proxys : un système automatisé qui change d'adresse IP à votre place. La rotation des proxys est le meilleur moyen de vous assurer que vous exploitez pleinement le potentiel de toutes vos adresses IP.
En fait, le scraping à grande échelle est pratiquement impossible sans un vaste pool de proxys en rotation. Il est important de doser vos efforts, et prêter attention au nombre de requêtes que vous êtes autorisé à envoyer dans un laps de temps donné peut faire toute la différence dans vos progrès. Plus votre pool de proxys est vaste, plus vous pouvez envoyer de requêtes sans éveiller les soupçons. Le résultat est clair : vous risquez beaucoup moins d'être bloqué.