Perspectives et ingénierie

Une analyse approfondie de l'infrastructure des données Web, des techniques d'extraction et de l'avenir des données structurées à grande échelle.

Derniers articles

7 meilleures API SERP en 2026 : Comparaison des prix et des fonctionnalités

TL;DR : Il n'existe pas d'API SERP officielle de Google, c'est pourquoi des fournisseurs tiers comblent cette lacune. Les prix varient entre 0,30 $ et 15 $ par millier de recherches, et le bon choix dépend de votre volume, de votre budget et des fonctionnalités SERP que vous souhaitez extraire. Ce guide compare les principaux fournisseurs côte à côte, décompose le coût réel à l'échelle et vous donne un cadre de décision pour sélectionner la meilleure API SERP pour votre projet.

Andrei Ogiolan22 min read
May 1, 2026

Sélecteurs XPath et CSS : Choisir le bon

TL;DR : XPath et les sélecteurs CSS localisent tous deux des éléments du DOM, mais ils résolvent des problèmes différents. Les sélecteurs CSS sont plus rapides et plus lisibles pour les sélections simples. XPath l'emporte lorsque vous devez parcourir le DOM dans n'importe quelle direction, faire correspondre du contenu textuel ou gérer une logique conditionnelle complexe. La plupart des projets de production bénéficient de l'utilisation des deux stratégies.

Mihai Maxim16 min read
May 1, 2026

Comment configurer le proxy Axios dans Node.js : Auth, Rotation, SOCKS5

TL;DR : Axios achemine les requêtes à travers un proxy en acceptant un objet proxy avec un hôte, un port et des champs d'authentification optionnels. Ce guide explique comment mettre en place une configuration de proxy Axios à partir de zéro : le câblage de base, les proxys authentifiés, le tunneling HTTPS, un système de rotation utilisant des intercepteurs, SOCKS5 via socks-proxy-agent, et le diagnostic des erreurs les plus courantes. Chaque extrait est du code Node.js à copier-coller.

Suciu Dan12 min read
May 1, 2026

Fichier de téléchargement Puppeteer : 4 méthodes pour Node.js

TL;DR : Un workflow de téléchargement de fichier Puppeteer peut prendre quatre formes : cliquer sur un bouton et laisser Chrome écrire dans un dossier que vous contrôlez, exécuter fetch() dans la page et renvoyer base64 à Node, piloter le protocole Chrome DevTools avec des événements de progression du téléchargement, ou ignorer le navigateur et extraire l'URL avec Axios en utilisant les cookies récoltés lors de la session Puppeteer. Choisissez en fonction de la taille du fichier, de l'authentification et de la façon dont le site expose le lien.

Mihnea-Octavian Manolache42 min read
May 2, 2026

Comment utiliser un proxy dans Node-Fetch : Un guide pratique

TL;DR : Node-Fetch n'a pas de commutateur proxy intégré, vous devez donc connecter un agent HTTP, HTTPS ou SOCKS5 à la requête via son option agent. Ce guide explique comment utiliser un proxy dans Node-Fetch de bout en bout : proxy HTTP et HTTPS authentifiés, SOCKS5, rotation, tentatives, cas limites de TLS, dépannage, et la route moderne undici pour Node 18+ native fetch.

Mihnea-Octavian Manolache13 min read
May 1, 2026

Web Scraping JavaScript Tables in Python : Des API cachées à Playwright

TL;DR : Le scraping de tables JavaScript en Python nécessite rarement un navigateur sans tête. Ouvrez DevTools, trouvez le point de terminaison JSON qui hydrate la grille, rejouez-le avec des requêtes, paginez-le, et ne revenez à Playwright que lorsque l'appel réseau est signé, crypté ou autrement scellé.

Andrei Ogiolan13 min read
May 7, 2026