[YUE Yimei] Segmentation de chinois

J’ai utilisé l’outil Jieba pour faire la segmentation du chinois, et c’est mon script de python3.

J’ai changé quelques commandes dans le script pour réaliser le filtrage du chinois. C’est mon script HTML pour traiter la liste URL chinoise. Mais il y a encore des points à améliorer, j’ai encore des problèmes de segmenter les mots chinois avec quelques page d’URL.

J’ai transmis l’encodage de fichier en UTF-8, mais il reste quelques pages que je ne peux pas segmenter sous UTF-8, ici est le signal de faute.

Je mets ici mon script et mon résultat du tableau.

Laisser un commentaire

Concevoir un site comme celui-ci avec WordPress.com
Commencer