En bref : ce guide explique comment extraire des données de tableaux HTML en Go de A à Z : choisissez entre Colly, goquery etgolang.org/x/net/html, cibler les bonnes<tbody>, modéliser les lignes sous forme de struct typée et exporter des fichiers JSON et CSV propres. Vous bénéficierez également de la pagination, de la protection anti-blocage et de modèles de tableaux rendus en JavaScript.
Si vous avez déjà essayé d'importer du code HTML <table> dans un entrepôt Postgres ou un fichier CSV destiné aux analystes, les données sont bien présentes dans le DOM, mais les extraire de manière fiable est un petit projet en soi. Ce guide explique comment extraire des tableaux HTML en Golang d’une manière qui fonctionne sur de vraies pages, et pas seulement sur des tutoriels épurés.
Un tableau HTML est une grille structurée de lignes (<tr>) et de cellules (<td> ou <th>). L'extraire signifie analyser le balisage, parcourir ces éléments et transformer chaque ligne en un enregistrement typé que votre code peut utiliser en aval. En Go, vous disposez de trois options sérieuses : Colly, goquery et le golang.org/x/net/html. Nous verrons dans quels cas chacune d'entre elles est adaptée, puis nous construirons un scraper fonctionnel autour de Colly v2.
Vous apprendrez à inspecter une page dans DevTools, à écrire un sélecteur CSS précis, à modéliser les lignes sous forme de structure, à exporter à la fois au format JSON et CSV, et à gérer la pagination, le rendu JavaScript et les blocages anti-bot. À la fin, vous disposerez d’un modèle prêt à copier-coller pour extraire des tableaux HTML en Golang.




