En bref : voici un guide complet et subjectif sur le web scraping avec Scrapy en 2026. Vous apprendrez à installer Scrapy, à créer des prototypes de sélecteurs dans le terminal, à développer un robot d'exploration pour un site e-commerce multipages, à nettoyer les éléments avec des chargements d'éléments (Item Loaders), à enregistrer les données dans une base de données, à renforcer les paramètres pour éviter les bannissements, et à intégrer Scrapy-Playwright pour les pages rendues en JavaScript.
Scrapy est la colonne vertébrale du crawling Python sérieux depuis plus d’une décennie, et malgré l’arrivée d’une vague de nouvelles bibliothèques asynchrones, il reste toujours d’actualité. Si vous pratiquez le web scraping avec Scrapy aujourd’hui, vous disposez d’un framework bien pensé qui résout les aspects fastidieux (planification des requêtes, déduplication, tentatives de reconnexion, pipelines d’éléments) afin que vous puissiez vous concentrer sur les éléments qui posent réellement problème : les sélecteurs, l’anti-bot et le stockage.
Ce guide s’articule autour du cycle de vie des requêtes et des réponses plutôt que d’une progression chronologique. Chaque section correspond à un composant Scrapy que vous utiliserez en production, depuis le moteur et les middlewares de téléchargement jusqu’aux chargeurs d’éléments et aux exportations de flux. Nous utilisons une seule cible tout au long du guide, le site d’entraînement public books.toscrape.com, de sorte que chaque bloc de code s'intègre dans un modèle mental unique.
À la fin, vous disposerez d’un spider fonctionnel capable de paginer un catalogue, de valider et de nettoyer les éléments, d’écrire à la fois dans JSON Lines et SQLite, de réessayer en cas de 429 en cas de pannes, et se rabat sur un véritable navigateur lorsqu’une page nécessite du JavaScript. Nous signalerons également les parties du framework que les débutants utilisent systématiquement de manière erronée, avec des corrections à copier.




