[YUE Yimei] Phase 2 : Création des nuages de mots

Grâce aux blogs des étudiants des années précédentes, j’ai trouvé le site WordItOut (https://worditout.com) capable de créer les nuages de mots dans nos langues traitées (français, coréen et chinois). Cet article va donner les exemples en français et en chinois.   Tout d’abord, j’ai utilisé les textes que j’ai créés pour les analyses dans l’iTrameur.Lire la suite « [YUE Yimei] Phase 2 : Création des nuages de mots »

[YUE Yimei] Phase 2 : Utilisation de iTrameur

Afin d’analyser notre corpus concernant le terme « masculinité » en français, en coréen et en chinois, nous avons un outil développé par notre enseignant : iTrameur. Le lien de iTrameur : http://www.tal.univ-paris3.fr/trameur/iTrameur/ Cet outil peut nous aider à analyser les corpus en ligne. Dans cet article, je vais vous montrer comment j’utilise iTrameur pour analyser leLire la suite « [YUE Yimei] Phase 2 : Utilisation de iTrameur »

[YUE Yimei] Fin de phase 1 – régler le problème de segmentation en chinois via Python

Puisque les URLs en chinois se sont écrits d’une façon différente de ceux en français, surtout dans le domaine d’encodage. Dans ma liste d’URLs, il y a certains URLs sont créés  en encodage de « GB2312 ». D’ailleurs, l’encodage de certaines pages web que je récupère en utilisant {content_type} est « TEXT/HTML ». À ce titre, j’ai traité lesLire la suite « [YUE Yimei] Fin de phase 1 – régler le problème de segmentation en chinois via Python »

[YUE Yimei] Segmentation de chinois

J’ai utilisé l’outil Jieba pour faire la segmentation du chinois, et c’est mon script de python3. J’ai changé quelques commandes dans le script pour réaliser le filtrage du chinois. C’est mon script HTML pour traiter la liste URL chinoise. Mais il y a encore des points à améliorer, j’ai encore des problèmes de segmenter lesLire la suite « [YUE Yimei] Segmentation de chinois »

[YUE Yimei] Exercices 7 – Quelques idées sur la résolutions des problèmes d’encodage – le 17 novembre

Dans mon tableau, l’encodage de la liste chinoise est « TEXT/HTML » qui n’est pas reconnu par la commande « iconv ». À ce titre, je vais essayer de régler ce problème d’encodage dans mon tableau. Puisque ce problème apparaît principalement dans les URLs de même site, je commence par voir la page site de cette site. On peutLire la suite « [YUE Yimei] Exercices 7 – Quelques idées sur la résolutions des problèmes d’encodage – le 17 novembre »

[Nalae] Encoding Problème

Il n’y a pas d’information de l’encodage à Content Pour récupérer l’information de l’encodage, je utilise la commande suivante : encodage=$(curl -sIL -o tmp.txt -w %{content_type} « $ligne » | cut -f2 -d »= » | tr ‘[a-z]’ ‘[A-Z]’ | tr -d ‘\r’); %{content_type}, option de curl, nous donne l’information de média type dans le ressource de url. MaisLire la suite « [Nalae] Encoding Problème »

[YUE Yimei]Exercice 6 – Essai d’améliorer le travail de Séance 6 – le 3 novembre 2019

Les devoirs de séance 6 est de compléter la situation où le code de retour est bon (égale à 200), mais l’encodage n’est pas UTF-8. Il y a une nouvelle commande « iconv », je voit d’abord cette commande par « man iconv ».   Et on peut voir sur tous les encodages connus par « iconv » en utilisant leLire la suite « [YUE Yimei]Exercice 6 – Essai d’améliorer le travail de Séance 6 – le 3 novembre 2019 »

[YUE Yimei] Exercice 5 – Séance 5 et 6 – le 30 octobre 2019

Je commence aujourd’hui avec le tableau créé de mon exercice dernier (le tableau avec deux colonnes), et dans les exercices suivants, je vais ajouter dans ce tableau quatre autres colonnes montrant le code de retour, l’encodage et le fichier de html et le texte pour chaque URL. 1er étape :  Ajouter des ligne de commandesLire la suite « [YUE Yimei] Exercice 5 – Séance 5 et 6 – le 30 octobre 2019 »

[Nalae] encoding pour décharger comme un texte

J’ai essayé les deux manières qui sont mentionnés dans le cours derniers : 1) lynx et 2) iconv Je peux afficher le page html avec l’encodage UTF-8 sur le terminal. Par contre, si je demande enregistrer avec l’encodage UTF-8, le texte n’est pas encodagé par UTF-8, et les caractères sont abimés. J’ai mis la commandeLire la suite « [Nalae] encoding pour décharger comme un texte »

[Nalae] Pour accepter plusieurs code de retour

Mon corpus est venu de trois sites : http://www.hani.co.kr, http://www.joins.co.kr, http://www.liberation.fr. Et il y a trois réponse de HTTP aussi : 200, 301, 302. Le 200 est une réponse parfaite, mais 301 et 302 signifie seulement un retour d’adresse, alors on peut recevoir le bon résultat. Alors, je veux accepter les trois réponse dans uneLire la suite « [Nalae] Pour accepter plusieurs code de retour »

Concevoir un site comme celui-ci avec WordPress.com
Commencer