Python jieba分词添加自定义词和去除不需要长尾词的操作方法
2023-03-02 11:06:25 来源:易采站长站 作者:
目录一、添加自定义词二、去除不需要长尾词总结Pythonjieba分词如何添加自定义词和去除不需要长尾词通过如下代码,读取一个txt的高频词汇:#找到高频词汇...
目录
一、添加自定义词二、去除不需要长尾词
总结
python jieba分词如何添加自定义词和去除不需要长尾词
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ZbGUd57b-1677564707180)(2007.assets/1-1677564619771.png)]](https://www.easck.com/d/file/p/2023/03-02/b97395b7e23ca4e808c2c3721033ef55.jpg)
通过如下代码,读取一个txt的高频词汇:
# 找到高频词汇
tmp_content = self.getContent(tmp_path)
keyword_list = tmp_content.split('\n')
word_count = dict()
for keyword in keyword_list:
for word,flag in jp.cut(keyword):
if word in word_count:
word_count[word] = word_count[word] +1
else:
word_count[word] =1
for word, count in word_count.items():
print('%s\t%s' % (word,count))
很多情况下 jieba它不知道一些词汇,比如说获得的词汇如下
建立 和 可视化 是2个独立的单词
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hGFRlmcz-1677564707182)(2007.assets/image-20230228140647773.png)]](https://www.easck.com/d/file/p/2023/03-02/5d42048760480b79d82280486fffa0e2.jpg)
一、添加自定义词
通过添加自定义词
import jieba import jieba.posseg as jp jieba.load_userdict(r'jieba_dict.txt')
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ljn92rgA-1677564707182)(2007.assets/image-20230228140134068.png)]](https://www.easck.com/d/file/p/2023/03-02/8469a71a499dd6579fe21b5c3cb6f814.jpg)
就可以看到,统计出来的词是这个自定义词
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uphMFIPd-1677564707182)(2007.assets/image-20230228140339267.png)]](https://www.easck.com/d/file/p/2023/03-02/1ab972b4e19fc133f25ff1c9cfcda2a2.jpg)
二、去除不需要长尾词
有时 统计出来的某些词汇jieba认为是一个词汇 但是此时 我想让他变为多个词汇 ,可以通过如下代码实现:
import jieba
import jieba.posseg as jp
jieba.del_word('创建活动')
此时 jieba 就会不认定 创建活动 是一个词,它会将它们分开统计
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QX0aqeZ8-1677564707183)(2007.assets/image-20230228140926854.png)]](https://www.easck.com/d/file/p/2023/03-02/b1d537beba78c0fad210a1a184da1df7.jpg)
总结
本文主要介绍jieba的基础用法。到此这篇关于Python jieba分词如何添加自定义词和去除不需要长尾词的文章就介绍到这了,更多相关Python jieba分词内容请搜索我们以前的文章或继续浏览下面的相关文章希望android大家以后多多支持我们!
暂时禁止评论













闽公网安备 35020302000061号