本文共 777 字,大约阅读时间需要 2 分钟。
中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词。其基本实现原理有三点:
安装(Linux环境)
下载,解压后进入目录下,运行:python setup.py install
模式
接口
实例
#! -*- coding:utf-8 -*-import jiebaseg_list = jieba.cut("我来到北京清华大学", cut_all = True)print "Full Mode:", ' '.join(seg_list)seg_list = jieba.cut("我来到北京清华大学")print "Default Mode:", ' '.join(seg_list)
结果
实现原理
1.
本文转自jihite博客园博客,原文链接:http://www.cnblogs.com/kaituorensheng/p/3595879.html,如需转载请自行联系原作者