pymmseg-cpp is a Python port of the rmmseg-cpp PRoject. rmmseg-cpp is a MMSEG Chinese Word segmenting algorithm implemented in C++ with a Ruby interface.
下載地址:http://code.google.com/p/pymmseg-cpp/
windows下用戶可以下載 pymmseg-cpp-win32-1.0.1.tar.gz,安裝方法如下:
1.將壓縮包解壓
2.安裝vs2008,使用VS2008的命令行窗口來編譯程序,位置在 工具/visual studio 2008 command prompt
從這個命令行窗口進入pymmseg/mmseg-cpp文件夾。輸入python build.py,回車
編寫程序如下
#coding:UTF-8from pymmseg import mmsegmmseg.dict_load_defaults()text = '今天我真的好開心'algor = mmseg.Algorithm(text)for tok in algor: print '%s [%d..%d]'%(tok.text,tok.start,tok.end)
運行后會出現亂碼,這是因為mmseg支持的是utf8, windows的本地默認編碼是cp936,也就是gbk編碼
將代碼改寫如下即可
# coding: UTF-8from pymmseg import mmseg mmseg.dict_load_defaults() text = '今天我真的好開心' algor = mmseg.Algorithm(text) for tok in algor: print '%s [%d..%d]' % (tok.text.decode('UTF-8').encode('GBK'), tok.start, tok.end)
新聞熱點
疑難解答