lucene工具包_全文检索工具有哪些

㈠ java如何用lucene+nutch搭建分布式搜索引擎

1.可以用lucene,lucene现在已经发展到1.9.1版了,相当稳定,网上中英文资源很丰富,甚至关于这个工具包的书(lucene in action)都有了.如果只是做站内搜索,可以直接从读数据库中读数据,调用lucene做索引.再写一个前台查询界面,调用lucene查询索引并在前台显示结果.

想一点程序都不写的话可以参考下面2个方案

2.用heritrix + nutchwax,heritrix也是一个很成熟的crawler,他将网页下载并压缩保存到arc格式的文件中,一个arc文件一般100兆左右,heritrix不解析提取网页的内容,nutchwax负责解析网页,提取内容并建索引,nutchwax提供检索界面.缺点是nutchwax的安装很麻烦.

3.用nutch,一个超强的开源软件,作者就是lucene的作者,该软件的目标是做到和Google一样强大,nutch的很多分布式实现的思想来源于Google,目前已实现分布式crawler,和分布式检索,已经有人用他抓了几亿的网页,nutch功能包括了下载网页,解析网页,计算网页重要度,建索引,前台搜索等一个搜索引擎需要的绝大部分功能,用他来做站内搜索也很方便.该软件支持中文. nutch目前稳定的版本是0.7.2 用该软件的缺点是网上的中文资料不多.你要习惯看英文资料

㈡ lucene-3.6.0.tgz和lucene-3.6.0-src.tgz是啥啊，怎么有两个类似的文件包呢；

已经有答案了,很简单.看到tgz结尾的就是linux相关操作系统使用的压缩包,就想Windows系统下的zip 和rar结尾的压缩包一样.

.asc格式的程序文件,是压缩过的Concept的程序文件,需要用Concept里的转换Convert功能,而且,只能是低版本向高版本转.

详细一点说明,我给你找了一点资料

后缀为asp asa asc的文件都是ASP文件
Active Server Page（ASP，活动服务器页面）就是一个编程环境，在其中，可以混合使用HTML、脚本语言以及组件来创建服务器端功能强大的Internet应用程序。
ASP的工作原理：

当在Web站点中融入ASP功能后，将发生以下事情：

1、用户调出站点内容，默认页面的扩展名是.asp。

2、浏览器从服务器上请求ASP文件。

3、服务器端脚本开始运行ASP。

4、ASP文件按照从上到下的顺序开始处理，执行脚本命令，执行HTML页面内容。

5、页面信息发送到浏览器。

因为脚本是在服务器端运行的，所以Web服务器完成所有处理后，将标准的HTML页面送往浏览器。这意味着，ASP只能在可以支持的服务器（WINNT系列服务器）上运行。让脚本驻留在服务器端的另外一个益处是：用户不可能看到原始脚本程序的代码，用户看到的，仅仅是最终产生的HTML内容。计算过程在服务器上进行，返回Html脚本，而不需要客户端进行运算。WIN2003中使用的是ASP3.0版本，将较长使用的页面存放在硬盘中（而不仅仅是在内存中），这意味着缓存了更多的原来需要重新编译的内容，极大的提高了性能。

可以利用任何支持文本的编辑器或网页设计器修改
利用IIS可以运行

㈢ lucene 功能强大吗相比百度谷歌差多远

一点都不难，我们毕业设计就用lucene做的，写一个简单的搜索引擎，几百行代码就成了。占多大内存影响因素很多：1、你存储lucene索引位置（硬盘还是内存），2、你程序写的好不好，3你要索引站内文件还是这个互联网的，至于第三个问题，你自己想想看，人家网络和google是专门有公司运营的，当然比你一个人写的强大多了，在一个问题就是lucene只是一个工具包，不能和网络，google比的

㈣ lucene，solr有什么区别

Lucene是一个开放源代码的全文检索引擎工具包，即它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎（英文与德文两种西方语言）。Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能，或者是以此为基础建立起完整的全文检索引擎.
Solr是一个高性能，采用Java5开发，基于Lucene的全文搜索服务器。同时对其进行了扩展，提供了比Lucene更为丰富的查询语言，同时实现了可配置、可扩展并对查询性能进行了优化，并且提供了一个完善的功能管理界面，是一款非常优秀的全文搜索引擎。它对外提供类似于Web-service的API接口。用户可以通过http请求，向搜索引擎服务器提交一定格式的XML文件，生成索引；也可以通过Http Solr Get操作提出查找请求，并得到XML格式的返回结果；
Solr和Lucene的本质区别有以下三点：搜索服务器，企业级和管理。Lucene本质上是搜索库，不是独立的应用程序，而Solr是。Lucene专注于搜索底层的建设，而Solr专注于企业应用。Lucene不负责支撑搜索服务所必须的管理，而Solr负责。所以说，一句话概括Solr: Solr是Lucene面向企业搜索应用的扩展

㈤全文检索工具有哪些

1. Lucene

Lucene的开发语言是Java，也是Java家族中最为出名的一个开源搜索引擎，在Java世界中已经是标准的全文检索程序，它提供了完整的查询引擎和索引引擎，没有中文分词引擎，需要自己去实现，因此用Lucene去做一个搜素引擎需要自己去架构.另外它不支持实时搜索，但linkedin和twitter有分别对Lucene改进的实时搜素. 其中Lucene有一个C++移植版本叫CLucene，CLucene因为使用C++编写，所以理论上要比lucene快.
2. Sphinx

Sphinx是一个用C++语言写的开源搜索引擎，也是现在比较主流的搜索引擎之一，在建立索引的事件方面比Lucene快50%，但是索引文件比Lucene要大一倍，因此Sphinx在索引的建立方面是空间换取事件的策略，在检索速度上，和lucene相差不大，但检索精准度方面Lucene要优于Sphinx，另外在加入中文分词引擎难度方面，Lucene要优于Sphinx.其中Sphinx支持实时搜索，使用起来比较简单方便.
3. Xapian

Xapian是一个用C++编写的全文检索程序，它的api和检索原理和lucene在很多方面都很相似，算是填补了lucene在C++中的一个空缺.
4. Nutch

Nutch是一个用java实现的开源的web搜索引擎，包括爬虫crawler，索引引擎，查询引擎. 其中Nutch是基于Lucene的，Lucene为Nutch提供了文本索引和搜索的API.

对于应该使用Lucene还是使用Nutch，应该是如果你不需要抓取数据的话，应该使用Lucene，最常见的应用是：你有数据源，需要为这些数据提供一个搜索页面，在这种情况下，最好的方式是直接从数据库中取出数据，并用Lucene API建立索引.
5. DataparkSearch

DataparkSearch是一个用C语言实现的开源的搜索引擎. 其中网页排序是采用神经网络模型. 其中支持HTTP，HTTPS，FTP，NNTP等下载网页.包括索引引擎，检索引擎和中文分词引擎(这个也是唯一的一个开源的搜索引擎里有中文分词引擎).能个性化定制搜索结果，拥有完整的日志记录.
6. Zettair

Zettair是根据Justin Zobel的研究成果为基础的全文检索实验系统.它是用C语言实现的. 其中Justin Zobel在全文检索领域很有名气，是业界第一个系统提出倒排序索引差分压缩算法的人，倒排列表的压缩大大提高了检索和加载的性能，同时空间膨胀率也缩小到相当优秀的水平. 由于Zettair是源于学术界，代码是由RMIT University的搜索引擎组织写的，因此它的代码简洁精炼，算法高效，是学习倒排索引经典算法的非常好的实例. 其中支持linux，windows，mac os等系统.
7. Indri

Indri是一个用C语言和C++语言写的全文检索引擎系统，是由University of Massachusetts和Carnegie Mellon University合作推出的一个开源项目. 特点是跨平台，API接口支持Java，PHP，C++.
来自网络。

导航:首页 > 编程大全 > lucene工具包

lucene工具包

与lucene工具包相关的资料

友情链接