J’ai essayé les deux manières qui sont mentionnés dans le cours derniers : 1) lynx et 2) iconv
Je peux afficher le page html avec l’encodage UTF-8 sur le terminal.
Par contre, si je demande enregistrer avec l’encodage UTF-8, le texte n’est pas encodagé par UTF-8, et les caractères sont abimés.
J’ai mis la commande ci-dessous dans le script, mais le résultat était comme ci-dessus. On ne même pas ouvrir le texte avec double click, car il n’est pas appliqué par UTF-8.
Alors, j’ai essayé la commande iconv et celui est marché.
Malheureusement, avec iconv, on peut pas utiliser -dump et -nolist qui font éviter de stocker des textes que l’on ne veut pas utiliser comme le corpus. En analysant le xpath, peut-être je peux trouver la solution plus efficace.