Perspectives et ingénierie

Une analyse approfondie de l'infrastructure des données Web, des techniques d'extraction et de l'avenir des données structurées à grande échelle.

Derniers articles

Comment récupérer des tableaux HTML en Golang avec Colly : Guide de bout en bout

TL;DR : Ce guide montre comment récupérer des tableaux HTML dans Golang de bout en bout : choisir entre Colly, goquery, et golang.org/x/net/html, cibler le bon <tbody>, modéliser les lignes comme une structure typée, et exporter du JSON et du CSV propre. Vous bénéficiez également de la pagination, de l'anti-blocage et de modèles de tableaux rendus par JavaScript.

Andrei Ogiolan12 min read
May 7, 2026

Playwright Web Scraping : Le guide complet pour Python et Node.js

TL;DR : Playwright vous offre une automatisation complète du navigateur pour le scraping de sites à forte composante JavaScript, avec un support de premier ordre pour Python et Node.js. Ce guide vous accompagne dans l'installation, l'extraction d'éléments, la configuration du proxy, l'anti-détection, la pagination, le téléchargement d'images et l'exportation de données au format CSV ou JSON, le tout avec des exemples de code côte à côte dans les deux langages.

Mihnea-Octavian Manolache17 min read
Apr 28, 2026

Comment récupérer des avis sur Google Maps : Un guide pratique en Python

TL;DR : La recherche d'avis sur Google Maps se résume à trois méthodes : un scraper Selenium bricolé derrière un proxy rotatif, une API de scraping avec des instructions de rendu, ou une API Maps Reviews structurée qui renvoie du JSON analysé. Ce guide présente les trois méthodes en Python avec du code à copier-coller, des modèles de pagination, des tactiques anti-blocage et une étape finale de nettoyage qui transforme les avis bruts en quelque chose qu'une entreprise peut réellement utiliser.

Andrei Ogiolan18 min read
May 7, 2026

Comment utiliser les proxy avec les requêtes Python : De la base à la production

TL;DR : Ce guide explique comment utiliser les proxies avec Python Requests de bout en bout : un dict de proxies fonctionnel, des URLs authentifiées, des variables d'environnement, la réutilisation des sessions, SOCKS5 sans fuites DNS, et un pool de rotation avec des tentatives et un coupe-circuit. A la fin, vous saurez quand une API gérée gagne sa place par rapport à un pool bricolé.

Ștefan Răcilă12 min read
May 7, 2026