1、StopAnalyzer
StopAnalyzer能過濾詞匯中的特定字符串和詞匯,并且完成大寫轉小寫的功能。
2、StandardAnalyzer
StandardAnalyzer根據空格和符號來完成分詞,還可以完成數字、字母、E-mail地址、IP地址以及中文字符的分析處理,還可以支持過濾詞表,用來代替StopAnalyzer能夠實現的過濾功能。
3、SimpleAnalyzer
SimpleAnalyzer具備基本西文字符詞匯分析的分詞器,處理詞匯單元時,以非字母字符作為分割符號。分詞器不能做詞匯的過濾,之進行詞匯的分析和分割。輸出地詞匯單元完成小寫字符轉換,去掉標點符號等分割符。
在全文檢索系統開發中,通常用來支持西文符號的處理,不支持中文。由于不完成單詞過濾功能,所以不需要過濾詞庫支持。詞匯分割策略上簡單,使用非英文字符作為分割符,不需要分詞詞庫的支持。
4、WhitespaceAnalyzer
WhitespaceAnalyzer使用空格作為間隔符的詞匯分割分詞器。處理詞匯單元的時候,以空格字符作為分割符號。分詞器不做詞匯過濾,也不進行小寫字符轉換。
實際中可以用來支持特定環境下的西文符號的處理。由于不完成單詞過濾和小寫字符轉換功能,也不需要過濾詞庫支持。詞匯分割策略上簡單使用非英文字符作為分割符,不需要分詞詞庫支持。
5、KeywordAnalyzer
KeywordAnalyzer把整個輸入作為一個單獨詞匯單元,方便特殊類型的文本進行索引和檢索。針對郵政編碼,地址等文本信息使用關鍵詞分詞器進行索引項建立非常方便。
6、CJKAnalyzer
CJKAnalyzer內部調用CJKTokenizer分詞器,對中文進行分詞,同時使用StopFilter過濾器完成過濾功能,可以實現中文的多元切分和停用詞過濾。在Lucene3.0版本中已經棄用。
7、ChineseAnalyzer
ChineseAnalyzer功能與StandardAnalyzer分析器在處理中文是基本一致,都是切分成單個的雙字節中文字符。在Lucene3.0版本中已經棄用。
8、PerFieldAnalyzerWrapper
PerFieldAnalyzerWrapper功能主要用在針對不同的Field采用不同的Analyzer的場合。比如對于文件名,需要使用KeywordAnalyzer,而對于文件內容只使用StandardAnalyzer就可以了。通過addAnalyzer()可以添加分類器。
9、IKAnalyzer
實現了以詞典為基礎的正反向全切分,以及正反向最大匹配切分兩種方法。IKAnalyzer是第三方實現的分詞器,繼承自Lucene的Analyzer類,針對中文文本進行處理。
10、JE-Analysis
JE-Analysis是Lucene的中文分詞組件,需要下載。
11、ICTCLAS4J
ictclas4j中文分詞系統是sinboy在中科院張華平和劉群老師的研制的FreeICTCLAS的基礎上完成的一個java開源分詞項目,簡化了原分詞程序的復雜度,旨在為廣大的中文分詞愛好者一個更好的學習機會。
12、Imdict-Chinese-Analyzer
imdict-chinese-analyzer 是 imdict智能詞典 的智能中文分詞模塊,算法基于隱馬爾科夫模型(Hidden Markov Model, HMM),是中國科學院計算技術研究所的ictclas中文分詞程序的重新實現(基于Java),可以直接為lucene搜索引擎提供簡體中文分詞支持。
13、Paoding Analysis
Paoding Analysis中文分詞具有極 高效率 和 高擴展性。引入隱喻,采用完全的面向對象設計,構思先進。其效率比較高,在PIII 1G內存個人機器上,1秒可準確分詞100萬漢字。采用基于不限制個數的詞典文件對文章進行有效切分,使能夠將對詞匯分類定義。能夠對未知的詞匯進行合理解析。
14、MMSeg4J
mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/ )實現的中文分詞器,并實現 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。 MMSeg 算法有兩種分詞方法:Simple和Complex,都是基于正向最大匹配。Complex 加了四個規則過慮。官方說:詞語的正確識別率達到了 98.41%。mmseg4j 已經實現了這兩種分詞算法
新聞熱點
疑難解答