[YUE Yimei] Phase 2 : Création des nuages de mots

Grâce aux blogs des étudiants des années précédentes, j’ai trouvé le site WordItOut (https://worditout.com) capable de créer les nuages de mots dans nos langues traitées (français, coréen et chinois).

Cet article va donner les exemples en français et en chinois.  

Tout d’abord, j’ai utilisé les textes que j’ai créés pour les analyses dans l’iTrameur. Voici les résultat en chinois et en français.

Nous pouvons voir de ces deux nuages de mots, il y a beaucoup de mots bruits, c’est-à-dire qu’il y a des mots vides en français, tels que « le, de, et, en … » et des lettres alphabets parmi le chinois. Donc, il faut nettoyer le corpus avant de commencer les analyses.

1- Pour le corpus chinois : 

Je fais d’abord un gros fichier à partir de tous les fichiers Dump Texte (les fichiers avec les contenus chinois segmentés de chaque URL).  

2- Pour le corpus français : 

Afin de créer des nuages de mots bien propre, j’ai envie de supprimer tous les mots vides et les mots bruits affichés (tels que, Facebook, BUTTON, être, avoir …) dans le nuage fait.

Laisser un commentaire

Concevoir un site comme celui-ci avec WordPress.com
Commencer