Avant d'entrer dans les détails du web scraping, passons en revue quelques concepts clés.
La plupart du contenu écrit que vous trouverez sur un site web est stocké dans un langage de balisage textuel, le plus souvent le HTML. Pour faciliter le traitement et l’affichage sur tous les navigateurs et appareils, le HTML suit quelques règles générales que tous les sites web respectent.
Lorsqu’un utilisateur accède à une page web, il voit le résultat de ce code HTML. Mais les robots, tels que les robots d’indexation de Google, examinent le code. Considérez qu’il s’agit des mêmes informations, mais sous des formes différentes.
Si une personne souhaite copier toutes les informations d’une page web, elle doit sélectionner manuellement tout le contenu (en récupérant probablement aussi des éléments superflus), cliquer sur « copier », puis coller le tout dans un fichier local. Cela ne semble pas si terrible, mais imaginez devoir faire cela deux cents fois, plusieurs fois par semaine. Cela deviendrait une corvée incroyable, et trier toutes ces données serait tout aussi cauchemardesque.
Certains sites web compliquent la tâche des utilisateurs qui souhaitent sélectionner et copier du contenu. Bien que ces sites ne soient pas très répandus, ils peuvent être la cerise sur le gâteau.
Un outil de web scraping est un bot qui extrait le code HTML des pages web. Il existe deux différences significatives par rapport à la copie manuelle : le bot fait le travail à votre place, et il le fait bien plus rapidement. L'extraction du code HTML d'une seule page peut être instantanée. Le facteur déterminant est votre vitesse de connexion Internet, qui peut également vous ralentir lors de la copie manuelle.
Mais c'est lorsqu'il s'agit d'extraire des données de plusieurs sources que les scrapers brillent vraiment. Pour un scraper web puissant, il y a peu de différence entre une page web et un millier. Tant que vous lui fournissez une liste d'URL des pages que vous souhaitez scraper, le bot se mettra au travail pour collecter les données.