麻豆小视频在线观看_中文黄色一级片_久久久成人精品_成片免费观看视频大全_午夜精品久久久久久久99热浪潮_成人一区二区三区四区

首頁(yè) > 學(xué)院 > 開發(fā)設(shè)計(jì) > 正文

在應(yīng)用中加入全文檢索功能——基于Java的全文索引引擎Lucene簡(jiǎn)介

2019-11-18 13:35:08
字體:
供稿:網(wǎng)友

內(nèi)容摘要:

LUCene是一個(gè)基于java的全文索引工具包。

基于Java的全文索引引擎Lucene簡(jiǎn)介:關(guān)于作者和Lucene的歷史
全文檢索的實(shí)現(xiàn):Luene全文索引和數(shù)據(jù)庫(kù)索引的比較
中文切分詞機(jī)制簡(jiǎn)介:基于詞庫(kù)和自動(dòng)切分詞算法的比較
具體的安裝和使用簡(jiǎn)介:系統(tǒng)結(jié)構(gòu)介紹和演示
Hacking Lucene:簡(jiǎn)化的查詢分析器,刪除的實(shí)現(xiàn),定制的排序,應(yīng)用接口的擴(kuò)展
從Lucene我們還可以學(xué)到什么
基于Java的全文索引/檢索引擎——Lucene

Lucene不是一個(gè)完整的全文索引應(yīng)用,而是是一個(gè)用Java寫的全文索引引擎工具包,它可以方便的嵌入到各種應(yīng)用中實(shí)現(xiàn)針對(duì)應(yīng)用的全文索引/檢索功能。

Lucene 的作者:Lucene的貢獻(xiàn)者DougCutting是一位資深全文索引/檢索專家,曾經(jīng)是V-Twin搜索引擎(Apple的Copland操作系統(tǒng)的成就之一)的主要開發(fā)者,后在Excite擔(dān)任高級(jí)系統(tǒng)架構(gòu)設(shè)計(jì)師,目前從事于一些INTERNET底層架構(gòu)的研究。他貢獻(xiàn)出的Lucene的目標(biāo)是為各種中小型應(yīng)用程序加入全文檢索功能。

Lucene的發(fā)展歷程:早先發(fā)布在作者自己的www.lucene.com,后來發(fā)布在SourceForge,2001年年底成為APACHE基金會(huì)jakarta的一個(gè)子項(xiàng)目:http://jakarta.apache.org/lucene/

已經(jīng)有很多Java項(xiàng)目都使用了Lucene作為其后臺(tái)的全文索引引擎,比較聞名的有:

Jive:WEB論壇系統(tǒng);
Eyebrows:郵件列表Html歸檔/瀏覽/查詢系統(tǒng),本文的主要參考文檔“TheLucene search engine: Powerful, flexible, and free”作者就是EyeBrows系統(tǒng)的主要開發(fā)者之一,而EyeBrows已經(jīng)成為目前APACHE項(xiàng)目的主要郵件列表歸檔系統(tǒng)。
Cocoon:基于xml的web發(fā)布框架,全文檢索部分使用了Lucene
Eclipse:基于Java的開放開發(fā)平臺(tái),幫助部分的全文索引使用了Lucene

對(duì)于中文用戶來說,最關(guān)心的問題是其是否支持中文的全文檢索。但通過后面對(duì)于Lucene的結(jié)構(gòu)的介紹,你會(huì)了解到由于Lucene良好架構(gòu)設(shè)計(jì),對(duì)中文的支持只需對(duì)其語(yǔ)言詞法分析接口進(jìn)行擴(kuò)展就能實(shí)現(xiàn)對(duì)中文檢索的支持。

全文檢索的實(shí)現(xiàn)機(jī)制

Lucene的API接口設(shè)計(jì)的比較通用,輸入輸出結(jié)構(gòu)都很像數(shù)據(jù)庫(kù)的表==>記錄==>字段,所以很多傳統(tǒng)的應(yīng)用的文件、數(shù)據(jù)庫(kù)等都可以比較方便的映射到Lucene的存儲(chǔ)結(jié)構(gòu)/接口中。總體上看:可以先把Lucene當(dāng)成一個(gè)支持全文索引的數(shù)據(jù)庫(kù)系統(tǒng)。

比較一下Lucene和數(shù)據(jù)庫(kù):

Lucene 數(shù)據(jù)庫(kù)
索引數(shù)據(jù)源:doc(field1,field2...) doc(field1,field2...) / indexer / _____________ Lucene Index -------------- / searcher / 結(jié)果輸出:Hits(doc(field1,field2) doc(field1...))
索引數(shù)據(jù)源:record(field1,field2...) record(field1..) / SQL: insert/ _____________ DB Index ------------- / SQL: select /結(jié)果輸出:results(record(field1,field2..) record(field1...))

Document:一個(gè)需要進(jìn)行索引的“單元”
一個(gè)Document由多個(gè)字段組成 Record:記錄,包含多個(gè)字段
Field:字段 Field:字段
Hits:查詢結(jié)果集,由匹配的Document組成 RecordSet:查詢結(jié)果集,由多個(gè)Record組成

全文檢索 ≠ like "%keyWord%"

通常比較厚的書籍后面經(jīng)常附要害詞索引表(比如:北京:12, 34頁(yè),上海:3,77頁(yè)……),它能夠幫助讀者比較快地找到相關(guān)內(nèi)容的頁(yè)碼。而數(shù)據(jù)庫(kù)索引能夠大大提高查詢的速度原理也是一樣,想像一下通過書后面的索引查找的速度要比一頁(yè)一頁(yè)地翻內(nèi)容高多少倍……而索引之所以效率高,另外一個(gè)原因是它是排好序的。對(duì)于檢索系統(tǒng)來說核心是一個(gè)排序問題。

發(fā)表評(píng)論 共有條評(píng)論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 制服丝袜成人动漫 | 一区二区三区欧美日韩 | 草草视频免费 | 黄色网址在线播放 | 九九热精品在线视频 | 最新av网址在线观看 | 国产视频在线观看一区二区三区 | 国内精品久久久久影院不卡 | 日本娇小18xxxⅹhd | 日本中文字幕高清 | 男男啪羞羞视频网站 | 国产草草视频 | 午夜人体| 国产一级在线看 | 久久成人动漫 | 天天干天天碰 | av在线浏览| 国产精品亚洲综合一区二区三区 | 黄色电影免费网址 | 视频久久免费 | 黄色网址免费入口 | 中文有码一区二区 | 欧美国产一区二区三区激情无套 | 精品久久久久久久久亚洲 | 91精品一区二区综合在线 | 成人在线视频精品 | 国产精品视频导航 | 黄色大片在线观看 | 午夜视频大全 | 韩国三级日本三级香港三级黄 | 一级国产精品一级国产精品片 | 精品在线视频观看 | 午夜视频在线观看免费视频 | 视频一区二区三区视频 | 久久久国产精品免费观看 | 亚洲亚色 | 久久精品一区二区三区四区五区 | 欧美中文字幕一区二区 | 91丨九色丨国产在线观看 | 香蕉久久久久久 | 婷婷亚洲一区二区三区 |