Projet par Yimei et Nalae

[YUE Yimei] Phase 2 : Création des nuages de mots

décembre 20, 2019 par 岳怡美

Grâce aux blogs des étudiants des années précédentes, j’ai trouvé le site WordItOut (https://worditout.com) capable de créer les nuages de mots dans nos langues traitées (français, coréen et chinois). Cet article va donner les exemples en français et en chinois. Tout d’abord, j’ai utilisé les textes que j’ai créés pour les analyses dans l’iTrameur.… Lire la suite
[YUE Yimei] Phase 2 : Utilisation de iTrameur

décembre 20, 2019 par 岳怡美

Afin d’analyser notre corpus concernant le terme « masculinité » en français, en coréen et en chinois, nous avons un outil développé par notre enseignant : iTrameur. Le lien de iTrameur : http://www.tal.univ-paris3.fr/trameur/iTrameur/ Cet outil peut nous aider à analyser les corpus en ligne. Dans cet article, je vais vous montrer comment j’utilise iTrameur pour analyser le… Lire la suite
[YUE Yimei] Fin de phase 1 – régler le problème de segmentation en chinois via Python

décembre 14, 2019 par 岳怡美

Puisque les URLs en chinois se sont écrits d’une façon différente de ceux en français, surtout dans le domaine d’encodage. Dans ma liste d’URLs, il y a certains URLs sont créés en encodage de « GB2312 ». D’ailleurs, l’encodage de certaines pages web que je récupère en utilisant {content_type} est « TEXT/HTML ». À ce titre, j’ai traité les… Lire la suite
[YUE Yimei] Segmentation de chinois

décembre 11, 2019 par 岳怡美

J’ai utilisé l’outil Jieba pour faire la segmentation du chinois, et c’est mon script de python3. J’ai changé quelques commandes dans le script pour réaliser le filtrage du chinois. C’est mon script HTML pour traiter la liste URL chinoise. Mais il y a encore des points à améliorer, j’ai encore des problèmes de segmenter les… Lire la suite
[YUE Yimei] Exercices 7 – Quelques idées sur la résolutions des problèmes d’encodage – le 17 novembre

novembre 17, 2019 par 岳怡美

Dans mon tableau, l’encodage de la liste chinoise est « TEXT/HTML » qui n’est pas reconnu par la commande « iconv ». À ce titre, je vais essayer de régler ce problème d’encodage dans mon tableau. Puisque ce problème apparaît principalement dans les URLs de même site, je commence par voir la page site de cette site. On peut… Lire la suite
[Nalae] Encoding Problème

novembre 14, 2019 par 岳怡美

Il n’y a pas d’information de l’encodage à Content Pour récupérer l’information de l’encodage, je utilise la commande suivante : encodage=$(curl -sIL -o tmp.txt -w %{content_type} « $ligne » | cut -f2 -d »= » | tr ‘[a-z]’ ‘[A-Z]’ | tr -d ‘\r’); %{content_type}, option de curl, nous donne l’information de média type dans le ressource de url. Mais… Lire la suite
[YUE Yimei]Exercice 6 – Essai d’améliorer le travail de Séance 6 – le 3 novembre 2019

novembre 3, 2019 par 岳怡美

Les devoirs de séance 6 est de compléter la situation où le code de retour est bon (égale à 200), mais l’encodage n’est pas UTF-8. Il y a une nouvelle commande « iconv », je voit d’abord cette commande par « man iconv ». Et on peut voir sur tous les encodages connus par « iconv » en utilisant le… Lire la suite
[YUE Yimei] Exercice 5 – Séance 5 et 6 – le 30 octobre 2019

octobre 30, 2019 par 岳怡美

Je commence aujourd’hui avec le tableau créé de mon exercice dernier (le tableau avec deux colonnes), et dans les exercices suivants, je vais ajouter dans ce tableau quatre autres colonnes montrant le code de retour, l’encodage et le fichier de html et le texte pour chaque URL. 1er étape : Ajouter des ligne de commandes… Lire la suite
[Nalae] encoding pour décharger comme un texte

octobre 24, 2019 par 岳怡美

J’ai essayé les deux manières qui sont mentionnés dans le cours derniers : 1) lynx et 2) iconv Je peux afficher le page html avec l’encodage UTF-8 sur le terminal. Par contre, si je demande enregistrer avec l’encodage UTF-8, le texte n’est pas encodagé par UTF-8, et les caractères sont abimés. J’ai mis la commande… Lire la suite
[Nalae] Pour accepter plusieurs code de retour

octobre 24, 2019 par 岳怡美

Mon corpus est venu de trois sites : http://www.hani.co.kr, http://www.joins.co.kr, http://www.liberation.fr. Et il y a trois réponse de HTTP aussi : 200, 301, 302. Le 200 est une réponse parfaite, mais 301 et 302 signifie seulement un retour d’adresse, alors on peut recevoir le bon résultat. Alors, je veux accepter les trois réponse dans une… Lire la suite

Voir tous les articles

Page Web de travail de Nalae et Yimei

[YUE Yimei] Phase 2 : Création des nuages de mots

[YUE Yimei] Phase 2 : Utilisation de iTrameur

[YUE Yimei] Fin de phase 1 – régler le problème de segmentation en chinois via Python

[YUE Yimei] Segmentation de chinois

[YUE Yimei] Exercices 7 – Quelques idées sur la résolutions des problèmes d’encodage – le 17 novembre

[Nalae] Encoding Problème

[YUE Yimei]Exercice 6 – Essai d’améliorer le travail de Séance 6 – le 3 novembre 2019

[YUE Yimei] Exercice 5 – Séance 5 et 6 – le 30 octobre 2019

[Nalae] encoding pour décharger comme un texte

[Nalae] Pour accepter plusieurs code de retour

Exercices

Discussion

Projet MASCULINITÉ

Exercices

Discussion

Projet MASCULINITÉ

Partager :