Perspectives et ingénierie

Une analyse approfondie de l'infrastructure des données Web, des techniques d'extraction et de l'avenir des données structurées à grande échelle.

Derniers articles

Comment récupérer des données sur Idealista : Un guide pour 2026

TL;DR : Idealista est la plus grande place de marché immobilière d'Espagne, d'Italie et du Portugal, mais elle se trouve derrière une pile anti-bot sérieuse qui bloque rapidement les scrapers naïfs. Ce guide vous explique comment récupérer les données d'Idealista de bout en bout en Python, en couvrant la cartographie du site, Selenium avec undetected-chromedriver, la gestion de DataDome, la rotation de proxy, et des exportations propres, avec le durcissement de la production que les concurrents ignorent habituellement.

Raluca Penciuc17 min read
May 8, 2026

Comment gratter Yelp avec Python : Critiques, listes et pipelines de données prêts pour le LLM

TL;DR : Ce guide vous accompagne dans la construction d'un scraper Yelp complet en Python, couvrant les résultats de recherche, les détails de l'entreprise et les commentaires avec un code fonctionnel. Vous apprendrez également à gérer les protections anti-bot, à exporter les données au format CSV ou JSON, et à intégrer les commentaires dans un LLM pour l'analyse des sentiments, ce qu'aucun autre tutoriel sur le scraping Yelp ne couvre.

Raluca Penciuc16 min read
Apr 28, 2026

10 questions sur le scraping auxquelles toute équipe de données devrait répondre avant d'écrire un scraper

TL;DR : Un projet de web scraping échoue au niveau de la planification bien avant d'échouer au niveau du code. Ces dix questions sur le scraping vous guident à travers la légalité, les alternatives d'API, les défenses anti-bots, le coût, la cadence de rafraîchissement, la qualité des données et la gouvernance, afin que vous puissiez évaluer le travail, choisir la bonne pile et éviter les modes d'échec qui tuent discrètement les scrappeurs en production.

Mihai Maxim13 min read
May 8, 2026