[YUE Yimei] Segmentation de chinois

岳怡美décembre 11, 2019Uncategorized

J’ai utilisé l’outil Jieba pour faire la segmentation du chinois, et c’est mon script de python3.

J’ai changé quelques commandes dans le script pour réaliser le filtrage du chinois. C’est mon script HTML pour traiter la liste URL chinoise. Mais il y a encore des points à améliorer, j’ai encore des problèmes de segmenter les mots chinois avec quelques page d’URL.

J’ai transmis l’encodage de fichier en UTF-8, mais il reste quelques pages que je ne peux pas segmenter sous UTF-8, ici est le signal de faute.