導航:首頁 > 文件教程 > nutch種子文件

nutch種子文件

發布時間:2023-03-10 21:21:53

『壹』 如何自定義nutch htmlparse插件

在conf/nutch-site.xml加入http.agent.name的屬性
生成一個種子文件夾,mkdir -p urls,在其中生成一個種子文件,在這個文件中寫入一個url,如http://nutch.apache.org/
編輯conf/regex-urlfilter.txt文件,配置url過濾器,一般用默認的好了,也可以加入如下配置,只抓取nutch.apache.org這個網址 +^http://([a-z0-9]*.)*nutch.apache.org/
使用如下命令來抓取網頁
bin/nutch crawl urls -dir crawl -depth 3 -topN 5 說明: -dir 抓取結果目錄名 -depth 抓取的深度 -topN 最一層的最大抓取個數 一般抓取完成後會看到如下的目錄 crawl/crawldb crawl/linkdb crawl/segments
使用如下來建立索引
bin/nutch solrindex http://127.0.0.1:8983/solr/ crawldb -linkdb crawldb/linkdb crawldb/segments/* 使用這個命令的前提是你已經開啟了默認的solr服務 開啟默認solr服務的命令如下 cd ${APACHE_SOLR_HOME}/example java -jar start.jar 這個時候服務就開啟了 你可以在瀏覽器中輸入如下地址進行測試 http://localhost:8983/solr/admin/ http://localhost:8983/solr/admin/stats.jsp
但是要結合Nutch來使用solr,還要在solr中加一個相應的策略配置,在nutch的conf目錄中有一個默認的配置,把它復制到solr的相應目錄中就可以使用了 cp ${NUTCH_RUNTIME_HOME}/conf/schema.xml ${APACHE_SOLR_HOME}/example/solr/conf/ 這個時候要重新啟動一下solr
索引建立完成以後就你就可以用關鍵詞進行查詢,solr默認返回的是一個xml文件

『貳』 在cygwin中用cd /cygdrive/d/ProgramFiles/nutch說這個文件不存在,但是我的nutch確實在這里

因為CYGWIN中的目錄結構不支持空格,如果一定要用的話試試cd 「/cygdrive/d/ProgramFiles/nutch」

『叄』 如何安裝nutch1.1到MyEclipse6.5

首先說明一下,由於下載太大,我沒有試過。下面根據一些經驗與它的文檔猜測的。

你要把nutch裝到myeclipse做啥?
編譯它,還是使用它?

如果只是用nutch的話,那麼完全不需要myeclipse,僅需JDK、Tomcat、cygwin。
如果要編譯nutch的話,一般它也建議直接用ant來編譯的,只有你想調試它時才需要myeclipse。

從1.1開始,它同時發布已經編譯好的包了,各個壓縮包用處如下:
apache-nutch-1.1-bin.tar.gz:已經編譯好的包,用於linux/unix
apache-nutch-1.1-bin.zip: 已經編譯好的包,用於windows
apache-nutch-1.1-src.tar.gz:源代碼,用於linux/unix
apache-nutch-1.1-src.zip: 源代碼,用於windows
*.asc:校驗文件,沒啥用。

所以,如果要安裝nutch,只需下載apache-nutch-1.1-bin.zip,然後解壓到某個目錄下。(有160M這么大,估計包含了tomcat了吧)
好像0.9與1.0都需要編譯的,下載下來直接運行ant即可

然後在那個目錄下建個urls文件,裡面寫上所需爬的最上層網址,如:http://lucene.apache.org/nutch/
然後運行 bin/nutch crawl urls -dir crawl -depth 3
這樣就會將索引存放在crawl目錄下了。

要想檢索,那麼需要將nutch*.war部署到tomcat,然後啟動。
(我認為1.1-bin.zip中已經包含了tomcat,無需再次部署的,可以直接啟動,可惜還沒有下載,不清楚呀)

『肆』 開源爬蟲框架各有什麼優缺點

首先爬蟲框架有三種

  1. 分布式爬蟲:Nutch

  2. JAVA單機爬蟲:Crawler4j,WebMagic,WebCollector

  3. 非JAVA單機爬蟲:scrapy

第一類:分布式爬蟲

優點:

  1. 海量URL管理

  2. 網速快

缺點:

  1. Nutch是為搜索引擎設計的爬蟲,大多數用戶是需要一個做精準數據爬取(精抽取)的爬蟲。Nutch運行的一套流程里,有三分之二是為了搜索引擎而設計的。對精抽取沒有太大的意義。

  2. 用Nutch做數據抽取,會浪費很多的時間在不必要的計算上。而且如果你試圖通過對Nutch進行二次開發,來使得它適用於精抽取的業務,基本上就要破壞Nutch的框架,把Nutch改的面目全非。

  3. Nutch依賴hadoop運行,hadoop本身會消耗很多的時間。如果集群機器數量較少,爬取速度反而不如單機爬蟲。

  4. Nutch雖然有一套插件機制,而且作為亮點宣傳。可以看到一些開源的Nutch插件,提供精抽取的功能。但是開發過Nutch插件的人都知道,Nutch的插件系統有多蹩腳。利用反射的機制來載入和調用插件,使得程序的編寫和調試都變得異常困難,更別說在上面開發一套復雜的精抽取系統了。

  5. Nutch並沒有為精抽取提供相應的插件掛載點。Nutch的插件有隻有五六個掛載點,而這五六個掛載點都是為了搜索引擎服務的,並沒有為精抽取提供掛載點。大多數Nutch的精抽取插件,都是掛載在「頁面解析」(parser)這個掛載點的,這個掛載點其實是為了解析鏈接(為後續爬取提供URL),以及為搜索引擎提供一些易抽取的網頁信息(網頁的meta信息、text)

  6. 用Nutch進行爬蟲的二次開發,爬蟲的編寫和調試所需的時間,往往是單機爬蟲所需的十倍時間不止。了解Nutch源碼的學習成本很高,何況是要讓一個團隊的人都讀懂Nutch源碼。調試過程中會出現除程序本身之外的各種問題(hadoop的問題、hbase的問題)。

  7. Nutch2的版本目前並不適合開發。官方現在穩定的Nutch版本是nutch2.2.1,但是這個版本綁定了gora-0.3。Nutch2.3之前、Nutch2.2.1之後的一個版本,這個版本在官方的SVN中不斷更新。而且非常不穩定(一直在修改)。

第二類:JAVA單機爬蟲

優點:

  1. 支持多線程。

  2. 支持代理。

  3. 能過濾重復URL的。

  4. 負責遍歷網站和下載頁面。爬js生成的信息和網頁信息抽取模塊有關,往往需要通過模擬瀏覽器(htmlunit,selenium)來完成。

缺點:

設計模式對軟體開發沒有指導性作用。用設計模式來設計爬蟲,只會使得爬蟲的設計更加臃腫。

第三類:非JAVA單機爬蟲

優點:

  1. 先說python爬蟲,python可以用30行代碼,完成JAVA

  2. 50行代碼乾的任務。python寫代碼的確快,但是在調試代碼的階段,python代碼的調試往往會耗費遠遠多於編碼階段省下的時間。

  3. 使用python開發,要保證程序的正確性和穩定性,就需要寫更多的測試模塊。當然如果爬取規模不大、爬取業務不復雜,使用scrapy這種爬蟲也是蠻不錯的,可以輕松完成爬取任務。

缺點:

  1. bug較多,不穩定。

『伍』 怎麼使用nutch創建索引

一個是schema.xml,在其中的fields標簽下加入如下代碼:
Java代碼
<field name="test1" type="date" stored="true" indexed="true"/>
lt;field name="test2" type="string" stored="true" indexed="true"/>
其中的stored表示這個欄位的值要存儲在lucene的索引中
其中的indexed表示這個欄位的值是不是要進行分詞查詢
還有一個是solrindex-mapping.xml文件,這個文件的作用是把索引過濾器中生成的欄位名與schema.xml中的做一個對應關系,要在其fields標簽中加入如下代碼:
Java代碼
<field dest="test1" source="fetchTime"/>
<field dest="test2" source="metadata"/>
這樣自定義索引過濾插件就算完成了,記得這里的schema.xml文件是在solr/conf目錄下的,修改以後要重啟一下,不知道solr支不支持修改了配置文件後不重啟就可以生效。
bin/nutch solrindex http://localhost:8080/solr/ crawldb -linkdb crawldb/linkdb crawldb/segments/*
solr的索引文件在solr/data/index中,你可以用luke這個工具加開其索引文件,看一下其中的一些元信息,這個時候你就應該可以看到test1與test2這兩個欄位了.

『陸』 有木有Nutch相關框架視頻教程2_楊尚川_281032878@種子下載,

Nutch相關框架視頻教程2_楊尚川_281032878@種子下載地址:

閱讀全文

與nutch種子文件相關的資料

熱點內容
maya粒子表達式教程 瀏覽:84
抖音小視頻如何掛app 瀏覽:283
cad怎麼設置替補文件 瀏覽:790
win10啟動文件是空的 瀏覽:397
jk網站有哪些 瀏覽:134
學編程和3d哪個更好 瀏覽:932
win10移動硬碟文件無法打開 瀏覽:385
文件名是亂碼還刪不掉 瀏覽:643
蘋果鍵盤怎麼打開任務管理器 瀏覽:437
手機桌面文件名字大全 瀏覽:334
tplink默認無線密碼是多少 瀏覽:33
ipaddgm文件 瀏覽:99
lua語言編程用哪個平台 瀏覽:272
政采雲如何導出pdf投標文件 瀏覽:529
php獲取postjson數據 瀏覽:551
javatimetask 瀏覽:16
編程的話要什麼證件 瀏覽:94
錢脈通微信多開 瀏覽:878
中學生學編程哪個培訓機構好 瀏覽:852
榮耀路由TV設置文件共享錯誤 瀏覽:525

友情鏈接