Page Web de travail de Nalae et Yimei

  • [YUE Yimei] Phase 2 : Création des nuages de mots

    décembre 20, 2019 par

    Grâce aux blogs des étudiants des années précédentes, j’ai trouvé le site WordItOut (https://worditout.com) capable de créer les nuages de mots dans nos langues traitées (français, coréen et chinois). Cet article va donner les exemples en français et en chinois.   Tout d’abord, j’ai utilisé les textes que j’ai créés pour les analyses dans l’iTrameur.… Lire la suite

  • [YUE Yimei] Fin de phase 1 – régler le problème de segmentation en chinois via Python

    décembre 14, 2019 par

    Puisque les URLs en chinois se sont écrits d’une façon différente de ceux en français, surtout dans le domaine d’encodage. Dans ma liste d’URLs, il y a certains URLs sont créés  en encodage de « GB2312 ». D’ailleurs, l’encodage de certaines pages web que je récupère en utilisant {content_type} est « TEXT/HTML ». À ce titre, j’ai traité les… Lire la suite

  • [YUE Yimei] Segmentation de chinois

    décembre 11, 2019 par

    J’ai utilisé l’outil Jieba pour faire la segmentation du chinois, et c’est mon script de python3. J’ai changé quelques commandes dans le script pour réaliser le filtrage du chinois. C’est mon script HTML pour traiter la liste URL chinoise. Mais il y a encore des points à améliorer, j’ai encore des problèmes de segmenter les… Lire la suite

  • [YUE Yimei] Exercices 7 – Quelques idées sur la résolutions des problèmes d’encodage – le 17 novembre

    novembre 17, 2019 par

    Dans mon tableau, l’encodage de la liste chinoise est « TEXT/HTML » qui n’est pas reconnu par la commande « iconv ». À ce titre, je vais essayer de régler ce problème d’encodage dans mon tableau. Puisque ce problème apparaît principalement dans les URLs de même site, je commence par voir la page site de cette site. On peut… Lire la suite

  • [Nalae] Encoding Problème

    novembre 14, 2019 par

    Il n’y a pas d’information de l’encodage à Content Pour récupérer l’information de l’encodage, je utilise la commande suivante : encodage=$(curl -sIL -o tmp.txt -w %{content_type} « $ligne » | cut -f2 -d »= » | tr ‘[a-z]’ ‘[A-Z]’ | tr -d ‘\r’); %{content_type}, option de curl, nous donne l’information de média type dans le ressource de url. Mais… Lire la suite

  • [YUE Yimei] Exercice 5 – Séance 5 et 6 – le 30 octobre 2019

    octobre 30, 2019 par

    Je commence aujourd’hui avec le tableau créé de mon exercice dernier (le tableau avec deux colonnes), et dans les exercices suivants, je vais ajouter dans ce tableau quatre autres colonnes montrant le code de retour, l’encodage et le fichier de html et le texte pour chaque URL. 1er étape :  Ajouter des ligne de commandes… Lire la suite

  • [Nalae] encoding pour décharger comme un texte

    octobre 24, 2019 par

    J’ai essayé les deux manières qui sont mentionnés dans le cours derniers : 1) lynx et 2) iconv Je peux afficher le page html avec l’encodage UTF-8 sur le terminal. Par contre, si je demande enregistrer avec l’encodage UTF-8, le texte n’est pas encodagé par UTF-8, et les caractères sont abimés. J’ai mis la commande… Lire la suite

Voir tous les articles

Exercices

Discussion

Projet MASCULINITÉ


Concevoir un site comme celui-ci avec WordPress.com
Commencer