lucene工具包_全文檢索工具有哪些

㈠ java如何用lucene+nutch搭建分布式搜索引擎

1.可以用lucene,lucene現在已經發展到1.9.1版了,相當穩定,網上中英文資源很豐富,甚至關於這個工具包的書(lucene in action)都有了.如果只是做站內搜索,可以直接從讀資料庫中讀數據,調用lucene做索引.再寫一個前台查詢界面,調用lucene查詢索引並在前台顯示結果.

想一點程序都不寫的話可以參考下面2個方案

2.用heritrix + nutchwax,heritrix也是一個很成熟的crawler,他將網頁下載並壓縮保存到arc格式的文件中,一個arc文件一般100兆左右,heritrix不解析提取網頁的內容,nutchwax負責解析網頁,提取內容並建索引,nutchwax提供檢索界面.缺點是nutchwax的安裝很麻煩.

3.用nutch,一個超強的開源軟體,作者就是lucene的作者,該軟體的目標是做到和Google一樣強大,nutch的很多分布式實現的思想來源於Google,目前已實現分布式crawler,和分布式檢索,已經有人用他抓了幾億的網頁,nutch功能包括了下載網頁,解析網頁,計算網頁重要度,建索引,前台搜索等一個搜索引擎需要的絕大部分功能,用他來做站內搜索也很方便.該軟體支持中文. nutch目前穩定的版本是0.7.2 用該軟體的缺點是網上的中文資料不多.你要習慣看英文資料

㈡ lucene-3.6.0.tgz和lucene-3.6.0-src.tgz是啥啊，怎麼有兩個類似的文件包呢；

已經有答案了,很簡單.看到tgz結尾的就是linux相關操作系統使用的壓縮包,就想Windows系統下的zip 和rar結尾的壓縮包一樣.

.asc格式的程序文件,是壓縮過的Concept的程序文件,需要用Concept里的轉換Convert功能,而且,只能是低版本向高版本轉.

詳細一點說明,我給你找了一點資料

後綴為asp asa asc的文件都是ASP文件
Active Server Page（ASP，活動伺服器頁面）就是一個編程環境，在其中，可以混合使用HTML、腳本語言以及組件來創建伺服器端功能強大的Internet應用程序。
ASP的工作原理：

當在Web站點中融入ASP功能後，將發生以下事情：

1、用戶調出站點內容，默認頁面的擴展名是.asp。

2、瀏覽器從伺服器上請求ASP文件。

3、伺服器端腳本開始運行ASP。

4、ASP文件按照從上到下的順序開始處理，執行腳本命令，執行HTML頁面內容。

5、頁面信息發送到瀏覽器。

因為腳本是在伺服器端運行的，所以Web伺服器完成所有處理後，將標準的HTML頁面送往瀏覽器。這意味著，ASP只能在可以支持的伺服器（WINNT系列伺服器）上運行。讓腳本駐留在伺服器端的另外一個益處是：用戶不可能看到原始腳本程序的代碼，用戶看到的，僅僅是最終產生的HTML內容。計算過程在伺服器上進行，返回Html腳本，而不需要客戶端進行運算。WIN2003中使用的是ASP3.0版本，將較長使用的頁面存放在硬碟中（而不僅僅是在內存中），這意味著緩存了更多的原來需要重新編譯的內容，極大的提高了性能。

可以利用任何支持文本的編輯器或網頁設計器修改
利用IIS可以運行

㈢ lucene 功能強大嗎相比百度谷歌差多遠

一點都不難，我們畢業設計就用lucene做的，寫一個簡單的搜索引擎，幾百行代碼就成了。佔多大內存影響因素很多：1、你存儲lucene索引位置（硬碟還是內存），2、你程序寫的好不好，3你要索引站內文件還是這個互聯網的，至於第三個問題，你自己想想看，人家網路和google是專門有公司運營的，當然比你一個人寫的強大多了，在一個問題就是lucene只是一個工具包，不能和網路，google比的

㈣ lucene，solr有什麼區別

Lucene是一個開放源代碼的全文檢索引擎工具包，即它不是一個完整的全文檢索引擎，而是一個全文檢索引擎的架構，提供了完整的查詢引擎和索引引擎，部分文本分析引擎（英文與德文兩種西方語言）。Lucene的目的是為軟體開發人員提供一個簡單易用的工具包，以方便的在目標系統中實現全文檢索的功能，或者是以此為基礎建立起完整的全文檢索引擎.
Solr是一個高性能，採用Java5開發，基於Lucene的全文搜索伺服器。同時對其進行了擴展，提供了比Lucene更為豐富的查詢語言，同時實現了可配置、可擴展並對查詢性能進行了優化，並且提供了一個完善的功能管理界面，是一款非常優秀的全文搜索引擎。它對外提供類似於Web-service的API介面。用戶可以通過http請求，向搜索引擎伺服器提交一定格式的XML文件，生成索引；也可以通過Http Solr Get操作提出查找請求，並得到XML格式的返回結果；
Solr和Lucene的本質區別有以下三點：搜索伺服器，企業級和管理。Lucene本質上是搜索庫，不是獨立的應用程序，而Solr是。Lucene專注於搜索底層的建設，而Solr專注於企業應用。Lucene不負責支撐搜索服務所必須的管理，而Solr負責。所以說，一句話概括Solr: Solr是Lucene面向企業搜索應用的擴展

㈤全文檢索工具有哪些

1. Lucene

Lucene的開發語言是Java，也是Java家族中最為出名的一個開源搜索引擎，在Java世界中已經是標準的全文檢索程序，它提供了完整的查詢引擎和索引引擎，沒有中文分詞引擎，需要自己去實現，因此用Lucene去做一個搜素引擎需要自己去架構.另外它不支持實時搜索，但linkedin和twitter有分別對Lucene改進的實時搜素. 其中Lucene有一個C++移植版本叫CLucene，CLucene因為使用C++編寫，所以理論上要比lucene快.
2. Sphinx

Sphinx是一個用C++語言寫的開源搜索引擎，也是現在比較主流的搜索引擎之一，在建立索引的事件方面比Lucene快50%，但是索引文件比Lucene要大一倍，因此Sphinx在索引的建立方面是空間換取事件的策略，在檢索速度上，和lucene相差不大，但檢索精準度方面Lucene要優於Sphinx，另外在加入中文分詞引擎難度方面，Lucene要優於Sphinx.其中Sphinx支持實時搜索，使用起來比較簡單方便.
3. Xapian

Xapian是一個用C++編寫的全文檢索程序，它的api和檢索原理和lucene在很多方面都很相似，算是填補了lucene在C++中的一個空缺.
4. Nutch

Nutch是一個用java實現的開源的web搜索引擎，包括爬蟲crawler，索引引擎，查詢引擎. 其中Nutch是基於Lucene的，Lucene為Nutch提供了文本索引和搜索的API.

對於應該使用Lucene還是使用Nutch，應該是如果你不需要抓取數據的話，應該使用Lucene，最常見的應用是：你有數據源，需要為這些數據提供一個搜索頁面，在這種情況下，最好的方式是直接從資料庫中取出數據，並用Lucene API建立索引.
5. DataparkSearch

DataparkSearch是一個用C語言實現的開源的搜索引擎. 其中網頁排序是採用神經網路模型. 其中支持HTTP，HTTPS，FTP，NNTP等下載網頁.包括索引引擎，檢索引擎和中文分詞引擎(這個也是唯一的一個開源的搜索引擎里有中文分詞引擎).能個性化定製搜索結果，擁有完整的日誌記錄.
6. Zettair

Zettair是根據Justin Zobel的研究成果為基礎的全文檢索實驗系統.它是用C語言實現的. 其中Justin Zobel在全文檢索領域很有名氣，是業界第一個系統提出倒排序索引差分壓縮演算法的人，倒排列表的壓縮大大提高了檢索和載入的性能，同時空間膨脹率也縮小到相當優秀的水平. 由於Zettair是源於學術界，代碼是由RMIT University的搜索引擎組織寫的，因此它的代碼簡潔精煉，演算法高效，是學習倒排索引經典演算法的非常好的實例. 其中支持linux，windows，mac os等系統.
7. Indri

Indri是一個用C語言和C++語言寫的全文檢索引擎系統，是由University of Massachusetts和Carnegie Mellon University合作推出的一個開源項目. 特點是跨平台，API介面支持Java，PHP，C++.
來自網路。

導航:首頁 > 編程大全 > lucene工具包

lucene工具包

與lucene工具包相關的資料

友情鏈接