推薦幾種Apache Lucene 分詞系統

2024-08-27 18:22:07

字體：大中小

來源：轉載

供稿：網友

1、StopAnalyzer

StopAnalyzer能過濾詞匯中的特定字符串和詞匯，并且完成大寫轉小寫的功能。

2、StandardAnalyzer

StandardAnalyzer根據空格和符號來完成分詞，還可以完成數字、字母、E-mail地址、IP地址以及中文字符的分析處理，還可以支持過濾詞表，用來代替StopAnalyzer能夠實現的過濾功能。

3、SimpleAnalyzer

SimpleAnalyzer具備基本西文字符詞匯分析的分詞器，處理詞匯單元時，以非字母字符作為分割符號。分詞器不能做詞匯的過濾，之進行詞匯的分析和分割。輸出地詞匯單元完成小寫字符轉換，去掉標點符號等分割符。

在全文檢索系統開發中，通常用來支持西文符號的處理，不支持中文。由于不完成單詞過濾功能，所以不需要過濾詞庫支持。詞匯分割策略上簡單，使用非英文字符作為分割符，不需要分詞詞庫的支持。

4、WhitespaceAnalyzer

WhitespaceAnalyzer使用空格作為間隔符的詞匯分割分詞器。處理詞匯單元的時候，以空格字符作為分割符號。分詞器不做詞匯過濾，也不進行小寫字符轉換。

實際中可以用來支持特定環境下的西文符號的處理。由于不完成單詞過濾和小寫字符轉換功能，也不需要過濾詞庫支持。詞匯分割策略上簡單使用非英文字符作為分割符，不需要分詞詞庫支持。

5、KeywordAnalyzer

KeywordAnalyzer把整個輸入作為一個單獨詞匯單元，方便特殊類型的文本進行索引和檢索。針對郵政編碼，地址等文本信息使用關鍵詞分詞器進行索引項建立非常方便。

6、CJKAnalyzer

CJKAnalyzer內部調用CJKTokenizer分詞器，對中文進行分詞，同時使用StopFilter過濾器完成過濾功能，可以實現中文的多元切分和停用詞過濾。在Lucene3.0版本中已經棄用。

7、ChineseAnalyzer

ChineseAnalyzer功能與StandardAnalyzer分析器在處理中文是基本一致，都是切分成單個的雙字節中文字符。在Lucene3.0版本中已經棄用。

8、PerFieldAnalyzerWrapper

PerFieldAnalyzerWrapper功能主要用在針對不同的Field采用不同的Analyzer的場合。比如對于文件名，需要使用KeywordAnalyzer，而對于文件內容只使用StandardAnalyzer就可以了。通過addAnalyzer()可以添加分類器。

9、IKAnalyzer

實現了以詞典為基礎的正反向全切分，以及正反向最大匹配切分兩種方法。IKAnalyzer是第三方實現的分詞器，繼承自Lucene的Analyzer類，針對中文文本進行處理。

10、JE-Analysis

JE-Analysis是Lucene的中文分詞組件，需要下載。

11、ICTCLAS4J

ictclas4j中文分詞系統是sinboy在中科院張華平和劉群老師的研制的FreeICTCLAS的基礎上完成的一個java開源分詞項目，簡化了原分詞程序的復雜度，旨在為廣大的中文分詞愛好者一個更好的學習機會。

12、Imdict-Chinese-Analyzer

imdict-chinese-analyzer 是 imdict智能詞典的智能中文分詞模塊，算法基于隱馬爾科夫模型(Hidden Markov Model, HMM)，是中國科學院計算技術研究所的ictclas中文分詞程序的重新實現（基于Java），可以直接為lucene搜索引擎提供簡體中文分詞支持。

13、Paoding Analysis

Paoding Analysis中文分詞具有極高效率和高擴展性。引入隱喻，采用完全的面向對象設計，構思先進。其效率比較高，在PIII 1G內存個人機器上，1秒可準確分詞100萬漢字。采用基于不限制個數的詞典文件對文章進行有效切分，使能夠將對詞匯分類定義。能夠對未知的詞匯進行合理解析。

14、MMSeg4J

mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/ )實現的中文分詞器，并實現 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。 MMSeg 算法有兩種分詞方法：Simple和Complex，都是基于正向最大匹配。Complex 加了四個規則過慮。官方說：詞語的正確識別率達到了 98.41%。mmseg4j 已經實現了這兩種分詞算法

上一篇：apache 防盜鏈配置方法

下一篇：apache 開啟gzip壓縮和mod_deflate過期時間