[Nalae] encoding pour décharger comme un texte

J’ai essayé les deux manières qui sont mentionnés dans le cours derniers : 1) lynx et 2) iconv

Je peux afficher le page html avec l’encodage UTF-8 sur le terminal.

Par contre, si je demande enregistrer avec l’encodage UTF-8, le texte n’est pas encodagé par UTF-8, et les caractères sont abimés.

J’ai mis la commande ci-dessous dans le script, mais le résultat était comme ci-dessus. On ne même pas ouvrir le texte avec double click, car il n’est pas appliqué par UTF-8.

Alors, j’ai essayé la commande iconv et celui est marché.

Malheureusement, avec iconv, on peut pas utiliser -dump et -nolist qui font éviter de stocker des textes que l’on ne veut pas utiliser comme le corpus. En analysant le xpath, peut-être je peux trouver la solution plus efficace.

Partager :

Articles similaires

Laisser un commentaire Annuler la réponse.