Un outil en ligne de commande pour extraire des données depuis du HTML

korsb4182 janvier 31, 2023

Par le passé, j’ai déjà évoqué la commande jq au détour d’un article. Pour rappel, jq permet de transformer des données textuelles provenant de commandes ou de scripts en données structurées de type JSON.

Et aujourd’hui, j’aimerais vous parler de htmlq qui reprend le principe de fonctionnement de jq sauf que là, on bosse sur de la donnée structurée en HTML. L’outil permet ainsi de sélectionner et extraire des éléments d’un fichier HTML en utilisant des sélecteurs CSS.

Histoire que vous captiez mieux, voici un exemple permettant de récupérer le HTML contenu dans un élément dont la classe est .post :

curl --silent https://korben.info/ | htmlq '.post'

Par exemple pour sortir tous les liens d’une page :

curl https://korben.info/ | htmlq --attribute href a

Ou encore pour récupérer uniquement un format textuel (sans les balises HTML) :

curl --silent https://korben.info | htmlq  --text .post

Cela permet de faire beaucoup de choses assez facilement sans forcément avoir à coder un truc pour jouer avec les XPath.

Maintenant pour install htmlq, ça dépend de votre OS :

Cargo :

cargo install htmlq

FreeBSD :

pkg install htmlq

Homebrew (macOS) :

brew install htmlq

Scoop (Windows) :

scoop install htmlq

Pour tous les détails, je vous invite à lire la doc sur Github.

Korben

korbens

Ticker

Un outil en ligne de commande pour extraire des données depuis du HTML

Enregistrer un commentaire

0 Commentaires

Subscribe Us

Popular Posts

Windows 11 : les mises à jour KB5083769 et KB5082052 peuvent forcer la récupération BitLocker

GRUB : modifier les options de démarrage Linux

Zorin OS 18.1 Lite : comment installer cette distribution Linux légère sur un vieux PC

Mixxx : un logiciel DJ gratuit et open source pour Windows, macOS et Linux

Télécharger les anciennes versions de Windows 10 (ISO)

Windows 11 : activer/désactiver l’accès à la caméra pour les applications

Audio Linux : 10 commandes Linux à connaître avec des exemples

YouTube : comment désactiver les Shorts sur Android et iOS

Windows : des failles zero-day Microsoft Defender exposées, déjà exploitées dans des attaques

Résoudre les problèmes de TPM (TPM 2.0, Intel PTT, AMD fTPM) sur Windows 11/10

Random Posts

Recent in Sports

Popular Posts

Windows 11 : les mises à jour KB5083769 et KB5082052 peuvent forcer la récupération BitLocker

GRUB : modifier les options de démarrage Linux

Zorin OS 18.1 Lite : comment installer cette distribution Linux légère sur un vieux PC

Footer Menu Widget

Ticker

Ad Code

Un outil en ligne de commande pour extraire des données depuis du HTML

Ces posts pourraient vous intéresser

Enregistrer un commentaire

0 Commentaires

Social Plugin

Subscribe Us

Popular Posts

Random Posts

Recent in Sports

Popular Posts

Footer Menu Widget