导航:首页 > 文件管理 > solr内存配置文件

solr内存配置文件

发布时间：2025-01-15 06:52:31

『壹』如何将solrconfig.xml中row行设置最大

本节详细讲解solrconfig.xml
1.如果配置文件配置错误，是否提示。true要报错，false不报错。

<abortOnConfigurationError>${solr.abortOnConfigurationError:true}</abortOnConfigurationError>

2.solr版本。

<信培luceneMatchVersion>LUCENE_31</luceneMatchVersion>

3. 索引文件目录，建索引的目录和查询的目录都是它。

<dataDir>${solr.data.dir:./solr/db/data}</dataDir>
4.一些基础配置
4.1多少个document进行合并

<mergeFactor>10</mergeFactor>

4.2 缓存大小

<ramBufferSizeMB>32</ramBufferSizeMB>
多少个文档自动合并

<mergeFactor>10</mergeFactor>

（回去了，下次再更新。。）
（接着上次的更新）

4.3.
设置域的最大长度

<maxFieldLength>10000</maxFieldLength>
设置写锁的延迟时间
<writeLockTimeout>1000</writeLockTimeout>
设置提交锁的延迟
<commitLockTimeout>10000</commitLockTimeout>
4.4
直接更新的方法：滑贺唯即调用solr默认的url访问。

<updateHandler class="solr.DirectUpdateHandler2">

自动提交的最大文档数，最大时间

<autoCommit>
<maxDocs>10000</maxDocs>
<maxTime>1000</maxTime>
</autoCommit>拍迹

4.5包含所有查询的参数设置 <query>
设置lru缓存

<filterCache class="solr.FastLRUCache"
size="16384"
initialSize="4096"
autowarmCount="4096"/>
设置查询结果缓存

<queryResultCache class="solr.LRUCache"
size="16384"
initialSize="4096"
autowarmCount="1024"/>
设置文档缓存
<documentCache class="solr.LRUCache"
size="16384"
initialSize="16384"/>
是否延迟加载索引域

<enableLazyFieldLoading>true</enableLazyFieldLoading>
设置查询的最大doc数

<queryResultMaxDocsCached>500</queryResultMaxDocsCached>
这个参数暂时未用

<maxWarmingSearchers>2</maxWarmingSearchers>

假如用dataimport这solr自带的导入数据命令时，的参数，即与数据库对应的文件的位置

<requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler">
<lst name="defaults">
<str name="config">C:\solr-tomcat\solr\db\conf\db-data-config.xml</str>
</lst>
</requestHandler>

这个标签是用来控制主索引服务器，与从索引服务器分发索引快照的所有属性的

<requestHandler name="/replication" class="solr.ReplicationHandler" >
<lst name="master">
<str name="replicateAfter">commit</str>
<str name="replicateAfter">startup</str>
<str name="confFiles">schema.xml,stopwords.txt,elevate.xml</str>
<str name="commitReserveDuration">00:00:60</str>
<str name="httpBasicAuthUser">345</str>
<str name="httpBasicAuthPassword">345</str>
</lst>
</requestHandler>

这个标签和他的名字是一样的，表示用于集群的组件所有参数

<searchComponent name="clustering"
enable="${solr.clustering.enabled:false}"
class="solr.clustering.ClusteringComponent" >

<lst name="engine">

<str name="name">default</str>

<str name="carrot.algorithm">org.carrot2.clustering.lingo.LingoClusteringAlgorithm</str>

<str name="LingoClusteringAlgorithm.desiredClusterCountBase">20</str>


<str name="MultilingualClustering.defaultLanguage">ENGLISH</str>
</lst>
<lst name="engine">
<str name="name">stc</str>
<str name="carrot.algorithm">org.carrot2.clustering.stc.STCClusteringAlgorithm</str>
</lst>
</searchComponent>

当发生集群命令时，对应的相应参数。表示是否开启集群等。

<requestHandler name="/clustering"
startup="lazy"
enable="${solr.clustering.enabled:false}"
class="solr.SearchHandler">
<lst name="defaults">
<bool name="clustering">true</bool>
<str name="clustering.engine">default</str>
<bool name="clustering.results">true</bool>

<str name="carrot.title">name</str>
<str name="carrot.url">id</str>

<str name="carrot.snippet">features</str>

<bool name="carrot.proceSummary">true</bool>



<bool name="carrot.outputSubClusters">false</bool>

<str name="defType">edismax</str>
<str name="qf">
text^0.5 features^1.0 name^1.2 sku^1.5 id^10.0 manu^1.1 cat^1.4
</str>
<str name="q.alt">*:*</str>
<str name="rows">10</str>
<str name="fl">*,score</str>
</lst>
<arr name="last-components">
<str>clustering</str>
</arr>
</requestHandler>

默认查询条件

<admin>
<defaultQuery>*:*</defaultQuery>



</admin>

『贰』 solr jvm配置多大比较好

0×00 开头照例扯淡

自从各种脱裤门事件开始层出不穷，在下就学乖了，各个地方的密码全都改成不一样的，重要帐号的密码定期更换，生怕被人社出祖宗十八代的我，甚至开始用起了假名字，我给自己起一新网名”兴才”，这个看起来还不错的名字，其实是我们家乡骂人土话，意思是脑残人士…. -_-|||额好吧，反正是假的，不要在意这些细节。

这只是名，至于姓氏么，每个帐号的注册资料那里，照着百家姓上赵钱孙李周吴郑王的依次往下排，什么张兴才、李兴才、王兴才……于是也不知道我这样”兴才”了多久，终于有一天，我接到一个陌生电话：您好，请问是马兴才先生吗?

好么，该来的终于还是来了，于是按名索骥，得知某某网站我用了这个名字，然后通过各种途径找，果然，那破站被脱裤子了。
果断Down了那个裤子，然后就一发不可收拾，走上了收藏裤子的不归路，直到有一天，我发现收藏已经非常丰富了，粗略估计得好几十亿条数据，拍脑袋一想，这不能光收藏啊，我也搭个社工库用吧……

0×01 介绍

社工库怎么搭呢，这种海量数据的东西，并不是简单的用mysql建个库，然后做个php查询select * from sgk where username like ‘%xxxxx%’这样就能完事的，也不是某些幼稚骚年想的随便找个4g内存，amd双核的破电脑就可以带起来的，上面这样的语句和系统配置，真要用于社工库查询，查一条记录恐怕得半小时。好在这个问题早就被一种叫做全文搜索引擎的东西解决了，更好的消息是，全文搜索引擎大部分都是开源的，不需要花钱。

目前网上已经搭建好的社工库，大部分是mysql+coreseek+php架构，coreseek基于sphinx，是一款优秀的全文搜索引擎，但缺点是比较轻量级，一旦数据量过数亿，就会有些力不从心，并且搭建集群做分布式性能并不理想，如果要考虑以后数据量越来越大的情况，还是得用其他方案，为此我使用了solr。

Solr的基础是著名的Lucene框架，基于java，通过jdbc接口可以导入各种数据库和各种格式的数据，非常适合开发企业级的海量数据搜索平台，并且提供完善的solr cloud集群功能，更重要的是，solr的数据查询完全基于http，可以通过简单的post参数，返回json,xml,php,python,ruby,csv等多种格式。

以前的solr，本质上是一组servlet，必须放进Tomcat才能运行，从solr5开始，它已经自带了jetty，配置的好，完全可以独立使用，并且应付大量并发请求，具体的架构我们后面会讲到，现在先来进行solr的安装配置。

0×02 安装和配置

以下是我整个搭建和测试过程所用的硬件和软件平台，本文所有内容均在此平台上完成：

软件配置: solr5.5,mysql5.7,jdk8,Tomcat8 Windows10/Ubuntu14.04 LTS

硬件配置: i7 4770k,16G DDR3,2T西数黑盘

2.1 mysql数据库

Mysql数据库的安装和配置我这里不再赘述，只提一点，对于社工库这种查询任务远远多于插入和更新的应用来说，最好还是使用MyISAM引擎。
搭建好数据库后，新建一个库，名为newsgk，然后创建一个表命名为b41sgk,结构如下：

id bigint 主键自动增长

username varchar 用户名

email varchar 邮箱

password varchar 密码

salt varchar 密码中的盐或者第二密码

ip varchar ip、住址、电话等其他资料

site varchar 数据库的来源站点

接下来就是把收集的各种裤子全部导入这个表了，这里推荐使用navicat，它可以支持各种格式的导入，具体过程相当的枯燥乏味,需要很多的耐心，这里就不再废话了，列位看官自己去搞就是了，目前我初步导入的数据量大约是10亿条。

2.2 Solr的搭建和配置

首先下载solr：
$ wget

解压缩：
$ tar zxvf solr-5.5.0.tgz

安装jdk8：
$ sudo add-apt-repository ppa:webupd8team/java
$ sudo apt-get update
$ sudo apt-get install oracle-java8-installer
$ sudo apt-get install oracle-java8-set-default

因为是java跨平台的，Windows下和linux下solr是同一个压缩包，windows下jdk的安装这里不再说明。

进入解压缩后的solr文件夹的bin目录，solr.cmd和solr分别是windows和linux下的启动脚本：

因为社工库是海量大数据，而jvm默认只使用512m的内存，这远远不够，所以我们需要修改，打开solr.in.sh文件，找到这一行：

SOLR_HEAP=”512m”

依据你的数据量，把它修改成更高，我这里改成4G，改完保存. 在windows下略有不同，需要修改solr.in.cmd文件中的这一行：

set SOLR_JAVA_MEM=-Xms512m -Xmx512m

同样把两个512m都修改成4G。

Solr的启动，重启和停止命令分别是：
$ ./solr start
$ ./solr restart –p 8983
$ ./solr stop –all

在linux下还可以通过install_solr_service.sh脚本把solr安装为服务，开机后台自动运行。

Solr安装完成，现在我们需要从mysql导入数据，导入前，我们需要先创建一个core，core是solr的特有概念，每个core是一个查询、数据,、索引等的集合体，你可以把它想象成一个独立数据库，我们创建一个新core：

在solr-5.5.0/server/solr子目录下面建立一个新文件夹，命名为solr_mysql，这个是core的名称，在下面创建两个子目录conf和data，把solr-5.5.0/solr-5.5.0/example/example-DIH/solr/db/conf下面的所有文件全部拷贝到我们创建的conf目录中.接下来的配置主要涉及到三个文件， solrconfig.xml， schema.xml和db-data-config.xml。

首先打开db-data-config.xml，修改为以下内容：

这个文件是负责配置导入数据源的，请按照mysql实际的设置修改datasource的内容，下面entity的内容必须严格按照mysql中社工库表的结构填写，列名要和数据库中的完全一样。

然后打开solrconfig.xml，先找到这一段：

true
managed-schema

把它全部注释掉，加上一行，改成这样：


这是因为solr5 以上默认使用managed-schema管理schema，需要更改为可以手动修改。

然后我们还需要关闭suggest，它提供搜索智能提示，在社工库中我们用不到这样的功能，重要的是，suggest会严重的拖慢solr的启动速度,在十几亿数据的情况下，开启suggest可能会导致solr启动加载core长达几个小时!

同样在solrconfig.xml中，找到这一段：

mySuggester
FuzzyLookupFactory
DocumentDictionaryFactory
cat
price
string

true
10

suggest

把这些全部删除，然后保存solrconfig.xml文件。

接下来把managed-schema拷贝一份，重命名为schema.xml (原文件不要删除)，打开并找到以下位置：

只保留_version_和_root_节点，然后把所有的field，dynamicField和Field全部删除，添加以下的部分：

id

这里的uniqueKey是配置文件中原有的，用来指定索引字段，必须保留。新建了一个字段名为keyword，它的用途是联合查询，即当需要同时以多个字段做关键字查询时，可以用这一个字段名代替，增加查询效率，下面的Field即用来指定复制哪些字段到keyword。注意keyword这样的字段，后面的multiValued属性必须为true。

username和email以及keyword这三个字段，用来检索查询关键字，它们的类型我们指定为text_ik，这是一个我们创造的类型，因为solr虽然内置中文分词，但效果并不好，我们需要添加IKAnalyzer中文分词引擎来查询中文。在下载IKAnalyzer for solr5的源码包，然后使用Maven编译，得到一个文件IKAnalyzer-5.0.jar，把它放入solr-5.5.0/server/solr-webapp/webapp/WEB-INF/lib目录中，然后在solrconfig.xml的fieldType部分加入以下内容：

保存后，core的配置就算完成了，不过要导入mysql数据，我们还需要在mysql网站上下载mysql-connector-java-bin.jar库文件，连同solr-5.5.0/dist目录下面的solr-dataimporthandler-5.5.0.jar，solr-dataimporthandler-extras-5.5.0.jar两个文件，全部拷贝到solr-5.5.0/server/solr-webapp/webapp/WEB-INF/lib目录中，然后重启solr，就可以开始数据导入工作了。

『叁』 Solr 配置DataImport出错的问题

可能是jar文件的路径放错了，jar文件不应该放在tomcat下的solr的lib里而在SolrHome里新建lib文件夹把dataimport相关的Jar放进去即可解决。

阅读全文

与solr内存配置文件相关的资料

热点内容

maya粒子表达式教程发布：2025-04-16 09:59:49 浏览：84

抖音小视频如何挂app 发布：2025-04-16 09:49:27 浏览：283

cad怎么设置替补文件发布：2025-04-16 09:41:07 浏览：790

win10启动文件是空的发布：2025-04-16 09:32:22 浏览：397

jk网站有哪些发布：2025-04-16 09:17:47 浏览：134

学编程和3d哪个更好发布：2025-04-16 09:16:56 浏览：932

win10移动硬盘文件无法打开发布：2025-04-16 08:55:42 浏览：385

文件名是乱码还删不掉发布：2025-04-16 08:50:33 浏览：643

苹果键盘怎么打开任务管理器发布：2025-04-16 08:49:47 浏览：437

手机桌面文件名字大全发布：2025-04-16 08:44:22 浏览：334

tplink默认无线密码是多少发布：2025-04-16 08:34:28 浏览：33

ipaddgm文件发布：2025-04-16 08:34:24 浏览：99

lua语言编程用哪个平台发布：2025-04-16 08:32:26 浏览：272

政采云如何导出pdf投标文件发布：2025-04-16 08:27:07 浏览：529

php获取postjson数据发布：2025-04-16 08:10:53 浏览：551

javatimetask 发布：2025-04-16 08:03:46 浏览：16

编程的话要什么证件发布：2025-04-16 07:43:39 浏览：94

钱脉通微信多开发布：2025-04-16 07:43:28 浏览：878

中学生学编程哪个培训机构好发布：2025-04-16 07:37:39 浏览：852

荣耀路由TV设置文件共享错误发布：2025-04-16 07:28:25 浏览：525

导航:首页 > 文件管理 > solr内存配置文件

solr内存配置文件

与solr内存配置文件相关的资料

友情链接