En bref : le web scraping consiste à collecter des données brutes à partir de pages web publiques. L'exploration de données (data mining) analyse des données structurées pour mettre en évidence des tendances, des prévisions et des segments. Il s'agit de différentes étapes d'un même cycle de vie, et la plupart des systèmes de production les combinent dans un pipeline « extraction, puis normalisation, puis exploration ».
Si vous avez déjà assisté à une réunion de planification où quelqu'un a dit « nous devons faire de l'exploration de données sur les données des concurrents » et où quelqu'un d'autre a entendu « nous devons extraire les données des concurrents », vous avez déjà constaté le coût de la confusion entre le web scraping et l'exploration de données. Ces deux termes sont si souvent utilisés de manière interchangeable qu'ils entraînent de réelles erreurs de périmètre : choix d'outils inappropriés, attribution de responsables inadaptés, définition de métriques de réussite erronées.
La confusion entre le web scraping et l’exploration de données est l’une des plus tenaces dans le domaine des données, et la manière la plus claire de la dissiper est d’examiner ce que chacun fait réellement, de bout en bout. Ce guide couvre les définitions pratiques, les pipelines sous-jacents à chacun, les outils qui se recoupent à peine, les limites juridiques qui s’appliquent différemment à la collecte et à l’analyse, ainsi qu’un questionnaire de décision en cinq questions que vous pouvez remplir en moins d’une minute. Ce guide s'adresse aux professionnels qui définissent la portée d'un projet concret, et non aux étudiants rédigeant une entrée de glossaire.




