crawler4j案例教程_開源爬蟲框架各有什麼優缺點

⑴ 開源爬蟲框架各有什麼優缺點

首先爬蟲框架有三種

分布式爬蟲：Nutch
JAVA單機爬蟲：Crawler4j，WebMagic，WebCollector
非JAVA單機爬蟲：scrapy

第一類:分布式爬蟲

優點：

海量URL管理
網速快

缺點：

Nutch是為搜索引擎設計的爬蟲，大多數用戶是需要一個做精準數據爬取（精抽取）的爬蟲。Nutch運行的一套流程里，有三分之二是為了搜索引擎而設計的。對精抽取沒有太大的意義。
用Nutch做數據抽取，會浪費很多的時間在不必要的計算上。而且如果你試圖通過對Nutch進行二次開發，來使得它適用於精抽取的業務，基本上就要破壞Nutch的框架，把Nutch改的面目全非。
Nutch依賴hadoop運行，hadoop本身會消耗很多的時間。如果集群機器數量較少，爬取速度反而不如單機爬蟲。
Nutch雖然有一套插件機制，而且作為亮點宣傳。可以看到一些開源的Nutch插件，提供精抽取的功能。但是開發過Nutch插件的人都知道，Nutch的插件系統有多蹩腳。利用反射的機制來載入和調用插件，使得程序的編寫和調試都變得異常困難，更別說在上面開發一套復雜的精抽取系統了。
Nutch並沒有為精抽取提供相應的插件掛載點。Nutch的插件有隻有五六個掛載點，而這五六個掛載點都是為了搜索引擎服務的，並沒有為精抽取提供掛載點。大多數Nutch的精抽取插件，都是掛載在「頁面解析」(parser)這個掛載點的，這個掛載點其實是為了解析鏈接（為後續爬取提供URL），以及為搜索引擎提供一些易抽取的網頁信息(網頁的meta信息、text)
用Nutch進行爬蟲的二次開發，爬蟲的編寫和調試所需的時間，往往是單機爬蟲所需的十倍時間不止。了解Nutch源碼的學習成本很高，何況是要讓一個團隊的人都讀懂Nutch源碼。調試過程中會出現除程序本身之外的各種問題(hadoop的問題、hbase的問題)。
Nutch2的版本目前並不適合開發。官方現在穩定的Nutch版本是nutch2.2.1，但是這個版本綁定了gora-0.3。Nutch2.3之前、Nutch2.2.1之後的一個版本，這個版本在官方的SVN中不斷更新。而且非常不穩定（一直在修改）。

第二類:JAVA單機爬蟲

優點：

支持多線程。
支持代理。
能過濾重復URL的。
負責遍歷網站和下載頁面。爬js生成的信息和網頁信息抽取模塊有關，往往需要通過模擬瀏覽器(htmlunit,selenium)來完成。

缺點：

設計模式對軟體開發沒有指導性作用。用設計模式來設計爬蟲，只會使得爬蟲的設計更加臃腫。

第三類:非JAVA單機爬蟲

優點：

先說python爬蟲，python可以用30行代碼，完成JAVA
50行代碼乾的任務。python寫代碼的確快，但是在調試代碼的階段，python代碼的調試往往會耗費遠遠多於編碼階段省下的時間。
使用python開發，要保證程序的正確性和穩定性，就需要寫更多的測試模塊。當然如果爬取規模不大、爬取業務不復雜，使用scrapy這種爬蟲也是蠻不錯的，可以輕松完成爬取任務。

缺點：

bug較多，不穩定。

熱點內容

桌面文件隱藏圖片發布：2025-04-28 14:51:47 瀏覽：204

word分44 發布：2025-04-28 14:51:39 瀏覽：521

信息網路通訊研究所是研究什麼的發布：2025-04-28 14:51:39 瀏覽：602

簡述創建資料庫的過程發布：2025-04-28 14:36:36 瀏覽：607

手機上哪些自帶文件不能刪發布：2025-04-28 14:36:27 瀏覽：474

濟南java程序員工資發布：2025-04-28 14:26:23 瀏覽：643

網路優化主要有發布：2025-04-28 14:17:19 瀏覽：140

sip文件如何打開發布：2025-04-28 14:16:39 瀏覽：87

為什麼那麼多編程語言都是外國的發布：2025-04-28 14:14:17 瀏覽：736

蘋果7描述文件怎麼下載地址發布：2025-04-28 14:04:40 瀏覽：433

電腦刷新一下文件圖標變成空白發布：2025-04-28 13:57:47 瀏覽：68

smartdraw使用教程發布：2025-04-28 13:44:54 瀏覽：257

dnf90版本劍宗流派發布：2025-04-28 13:35:27 瀏覽：856

怎樣把抖音視頻做成文件發布：2025-04-28 13:28:13 瀏覽：688

波斯王子2下載蘋果發布：2025-04-28 13:26:29 瀏覽：831

qq消息發送圖片超鏈接發布：2025-04-28 13:21:23 瀏覽：998

配置文件查看redis版本發布：2025-04-28 12:52:52 瀏覽：650

為什麼流量連接網路上不了網發布：2025-04-28 12:36:43 瀏覽：716

write頭文件發布：2025-04-28 12:36:05 瀏覽：631

合計表格橫線word 發布：2025-04-28 12:31:04 瀏覽：455

導航:首頁 > 文件教程 > crawler4j案例教程

crawler4j案例教程

第一類:分布式爬蟲

優點：

缺點：

第二類:JAVA單機爬蟲

優點：

缺點：

設計模式對軟體開發沒有指導性作用。用設計模式來設計爬蟲，只會使得爬蟲的設計更加臃腫。

第三類:非JAVA單機爬蟲

優點：

缺點：

與crawler4j案例教程相關的資料

友情鏈接