En bref : Jsoup est la bibliothèque par défaut pour l'analyse HTML en Java. Ce guide couvre l'ensemble du cycle de vie (configuration Maven, chargement d'un document, sélecteurs CSS, exploration du DOM, extraction, modification et sérialisation), ainsi qu'un projet de scraping fonctionnel, la gestion des erreurs, la pagination et les limites qui vous poussent à opter pour un navigateur sans interface graphique ou une API de scraping.
Si vous devez extraire ou réécrire du code HTML au sein d’un service JVM, plusieurs options s’offrent à vous, mais pour la plupart des cas concrets, l’analyse HTML en Java commence et se termine toujours avec Jsoup. Le web scraping consiste à extraire automatiquement des données à partir du code source HTML d’un site, et Jsoup est la bibliothèque open source qui transforme ce code source en un DOM navigable que vous pouvez interroger à l’aide de sélecteurs CSS et modifier directement.
Ce tutoriel Jsoup s'adresse aux développeurs Java de niveau intermédiaire (ingénieurs backend, ingénieurs de données, spécialistes du référencement et de l'assurance qualité, toute personne effectuant des migrations de contenu) qui souhaitent un guide pratique plutôt qu'une présentation marketing. Nous abordons la configuration de Maven, le chargement d'un Document à partir d’un String, Fileou d’une URL, la configuration de la requête HTTP, la gestion des erreurs, la traversée et la sélection d’éléments, l’extraction de texte et d’attributs, la modification de nœuds et la sérialisation du résultat en HTML propre. Un projet de scraping complet et exécutable conclut l’article, avec des notes sur la pagination et la limitation de débit.
Nous sommes également honnêtes quant à ses limites : Jsoup n'exécute pas de JavaScript, ne change pas d'adresse IP et ne contourne pas les défenses anti-bot. La section finale indique où ses capacités s'arrêtent et vers quoi se tourner ensuite.




