java爬蟲例子_使用java語言爬取自己的淘寶訂單看看買了哪些東西

A. java jsoup 爬蟲怎麼防止重復爬取

正好最近在學習這方面的內容。

兩種思路：

可以將當前爬取的url存在一個list中作登記專，在下一次開屬始爬子鏈接的時候進行比對，如果已經存在在list中則跳過，如果不存在那麼繼續爬
可以將所有的url網路先遍歷一遍存在list中，然後根據list而不是再次訪問子鏈接url進行爬取，在url存入list的過程中進行查重處理

順便為了方便控制。建議設置爬取深度，在一定深度內進行爬取。

B. Java網路爬蟲怎麼實現

網路爬蟲是一個自動提取網頁的程序，它為搜索引擎從萬維網上下載網頁，是搜索引擎的重要組成。
傳統爬蟲從一個或若干初始網頁的URL開始，獲得初始網頁上的URL，在抓取網頁的過程中，不斷從當前頁面上抽取新的URL放入隊列，直到滿足系統的一定停止條件。對於垂直搜索來說，聚焦爬蟲，即有針對性地爬取特定主題網頁的爬蟲，更為適合。

以下是一個使用java實現的簡單爬蟲核心代碼：
public void crawl() throws Throwable {
while (continueCrawling()) {
CrawlerUrl url = getNextUrl(); //獲取待爬取隊列中的下一個URL
if (url != null) {
printCrawlInfo();
String content = getContent(url); //獲取URL的文本信息

//聚焦爬蟲只爬取與主題內容相關的網頁，這里採用正則匹配簡單處理
if (isContentRelevant(content, this.regexpSearchPattern)) {
saveContent(url, content); //保存網頁至本地

//獲取網頁內容中的鏈接，並放入待爬取隊列中
Collection urlStrings = extractUrls(content, url);
addUrlsToUrlQueue(url, urlStrings);
} else {
System.out.println(url + " is not relevant ignoring ...");
}

//延時防止被對方屏蔽
Thread.sleep(this.delayBetweenUrls);
}
}
closeOutputStream();
}
private CrawlerUrl getNextUrl() throws Throwable {
CrawlerUrl nextUrl = null;
while ((nextUrl == null) && (!urlQueue.isEmpty())) {
CrawlerUrl crawlerUrl = this.urlQueue.remove();
//doWeHavePermissionToVisit：是否有許可權訪問該URL，友好的爬蟲會根據網站提供的"Robot.txt"中配置的規則進行爬取
//isUrlAlreadyVisited：URL是否訪問過，大型的搜索引擎往往採用BloomFilter進行排重，這里簡單使用HashMap
//isDepthAcceptable：是否達到指定的深度上限。爬蟲一般採取廣度優先的方式。一些網站會構建爬蟲陷阱（自動生成一些無效鏈接使爬蟲陷入死循環），採用深度限制加以避免
if (doWeHavePermissionToVisit(crawlerUrl)
&& (!isUrlAlreadyVisited(crawlerUrl))
&& isDepthAcceptable(crawlerUrl)) {
nextUrl = crawlerUrl;
// System.out.println("Next url to be visited is " + nextUrl);
}
}
return nextUrl;
}
private String getContent(CrawlerUrl url) throws Throwable {
//HttpClient4.1的調用與之前的方式不同
HttpClient client = new DefaultHttpClient();
HttpGet httpGet = new HttpGet(url.getUrlString());
StringBuffer strBuf = new StringBuffer();
HttpResponse response = client.execute(httpGet);
if (HttpStatus.SC_OK == response.getStatusLine().getStatusCode()) {
HttpEntity entity = response.getEntity();
if (entity != null) {
BufferedReader reader = new BufferedReader(
new InputStreamReader(entity.getContent(), "UTF-8"));
String line = null;
if (entity.getContentLength() > 0) {
strBuf = new StringBuffer((int) entity.getContentLength());
while ((line = reader.readLine()) != null) {
strBuf.append(line);
}
}
}
if (entity != null) {
nsumeContent();
}
}
//將url標記為已訪問
markUrlAsVisited(url);
return strBuf.toString();
}
public static boolean isContentRelevant(String content,
Pattern regexpPattern) {
boolean retValue = false;
if (content != null) {
//是否符合正則表達式的條件
Matcher m = regexpPattern.matcher(content.toLowerCase());
retValue = m.find();
}
return retValue;
}
public List extractUrls(String text, CrawlerUrl crawlerUrl) {
Map urlMap = new HashMap();
extractHttpUrls(urlMap, text);
extractRelativeUrls(urlMap, text, crawlerUrl);
return new ArrayList(urlMap.keySet());
}
private void extractHttpUrls(Map urlMap, String text) {
Matcher m = (text);
while (m.find()) {
String url = m.group();
String[] terms = url.split("a href=\"");
for (String term : terms) {
// System.out.println("Term = " + term);
if (term.startsWith("http")) {
int index = term.indexOf("\"");
if (index > 0) {
term = term.substring(0, index);
}
urlMap.put(term, term);
System.out.println("Hyperlink: " + term);
}
}
}
}
private void extractRelativeUrls(Map urlMap, String text,
CrawlerUrl crawlerUrl) {
Matcher m = relativeRegexp.matcher(text);
URL textURL = crawlerUrl.getURL();
String host = textURL.getHost();
while (m.find()) {
String url = m.group();
String[] terms = url.split("a href=\"");
for (String term : terms) {
if (term.startsWith("/")) {
int index = term.indexOf("\"");
if (index > 0) {
term = term.substring(0, index);
}
String s = //" + host + term;
urlMap.put(s, s);
System.out.println("Relative url: " + s);
}
}
}

}
public static void main(String[] args) {
try {
String url = "";
Queue urlQueue = new LinkedList();
String regexp = "java";
urlQueue.add(new CrawlerUrl(url, 0));
NaiveCrawler crawler = new NaiveCrawler(urlQueue, 100, 5, 1000L,
regexp);
// boolean allowCrawl = crawler.areWeAllowedToVisit(url);
// System.out.println("Allowed to crawl: " + url + " " +
// allowCrawl);
crawler.crawl();
} catch (Throwable t) {
System.out.println(t.toString());
t.printStackTrace();
}
}

C. 用java寫爬蟲程序，有個網站獲取不到鏈接，求指導

//讀取網頁上的內容方法---------------------2010.01.25 public String getOneHtml(String htmlurl) throws IOException {
URL url;
String temp;
final StringBuffer sb = new StringBuffer();
try {
url = new URL(htmlurl);
// 讀取網頁全部內容
final BufferedReader in = new BufferedReader(new InputStreamReader(
url.openStream(),"GBK"));
while ((temp = in.readLine()) != null) {
sb.append(temp);
}
in.close();
} catch (final MalformedURLException me) {
System.out.println("你輸入的URL格式有問題！請仔細輸入");
me.getMessage();

} catch (final IOException e) {
e.printStackTrace();

}
return sb.toString();
}上面這個方法是根據你傳入的url爬取整個網頁的內容，然後你寫個正則表達式去匹配這個字元串的內容。

D. 如何用JAVA寫一個知乎爬蟲

下面說明知乎爬蟲的源碼和涉及主要技術點：
（1）程序package組織

（2）模擬登錄（爬蟲主要技術點1）
要爬去需要登錄的網站數據，模擬登錄是必要可少的一步，而且往往是難點。知乎爬蟲的模擬登錄可以做一個很好的案例。要實現一個網站的模擬登錄，需要兩大步驟是：（1）對登錄的請求過程進行分析，找到登錄的關鍵請求和步驟，分析工具可以有IE自帶(快捷鍵F12)、Fiddler、HttpWatcher；（2）編寫代碼模擬登錄的過程。

（3）網頁下載（爬蟲主要技術點2）
模擬登錄後，便可下載目標網頁html了。知乎爬蟲基於HttpClient寫了一個網路連接線程池，並且封裝了常用的get和post兩種網頁下載的方法。

（4）自動獲取網頁編碼（爬蟲主要技術點3）
自動獲取網頁編碼是確保下載網頁html不出現亂碼的前提。知乎爬蟲中提供方法可以解決絕大部分亂碼下載網頁亂碼問題。

（5）網頁解析和提取（爬蟲主要技術點4）
使用Java寫爬蟲，常見的網頁解析和提取方法有兩種：利用開源Jar包Jsoup和正則。一般來說，Jsoup就可以解決問題，極少出現Jsoup不能解析和提取的情況。Jsoup強大功能，使得解析和提取異常簡單。知乎爬蟲採用的就是Jsoup。

（6）正則匹配與提取（爬蟲主要技術點5）
雖然知乎爬蟲採用Jsoup來進行網頁解析，但是仍然封裝了正則匹配與提取數據的方法，因為正則還可以做其他的事情，如在知乎爬蟲中使用正則來進行url地址的過濾和判斷。

（7）數據去重（爬蟲主要技術點6）
對於爬蟲，根據場景不同，可以有不同的去重方案。（1）少量數據，比如幾萬或者十幾萬條的情況，使用Map或Set便可；（2）中量數據，比如幾百萬或者上千萬，使用BloomFilter（著名的布隆過濾器）可以解決；（3）大量數據，上億或者幾十億，Redis可以解決。知乎爬蟲給出了BloomFilter的實現，但是採用的Redis進行去重。

（8）設計模式等Java高級編程實踐
除了以上爬蟲主要的技術點之外，知乎爬蟲的實現還涉及多種設計模式，主要有鏈模式、單例模式、組合模式等，同時還使用了Java反射。除了學習爬蟲技術，這對學習設計模式和Java反射機制也是一個不錯的案例。
4. 一些抓取結果展示

E. java爬蟲讀取某一張指定圖片的url，求解答

使用jsoup解析到這個url就行，dom結構如下:

F. java爬蟲抓取指定數據

如何通過Java代碼實現對網頁數據進行指定抓取，我總結了有以下幾個步驟中會使用到Jsoup.Jar包：

1、在工程中導入Jsoup.jar包

2、獲取網址url指定HTML或者文檔指定的body

3、獲取網頁中超鏈接的標題和鏈接

4、獲取指定博客文章的內容

5、獲取網頁中超鏈接的標題和鏈接的結果

G. Java多線程爬蟲實現

一、需求

1.定時抓取固定網站新聞標題、內容、發表時間和來源。

2.程序需要支持分布式、多線程

二、設計

1.網站是固定，但是未來也可能添加新的網站去抓取，每個網站內容節點設計都不一樣，這樣就需要支持動態可配置來新增網站以方便未來的擴展，這樣就需要每次都需要開發介入。

2.網站html節點的結構可能發生變化，所以也要支持提取節點可配置。

3.怎樣支持分布式？暫時最簡單的想法就是：多機器部署程序，還有新搞一台或者部署程序其中一台製作一個定時任務，定時開啟每台機器應該抓取哪個網站，暫時不能支持同一個網站同時可以支持被多台機器同時抓取，這樣會比較麻煩，要用到分布式隊列。所以暫時一個網站同時只會被單台機器抓取。

4.多線程，怎樣多線程？多線程抓取我這邊有兩個實現：

（1）一個線程抓取一個網站，維護一罩拿個自己的url隊列做廣度抓取，同時抓取多個網站。如圖：

（2）多個線程同時抓取不同的網站。如圖：

以上兩飢悶做張辦法其實各有優點，也給有缺點，看我們怎麼取捨了。

方法1：每個線程創建一個自己的隊列，圖中的queue可以不用concurrentQueue，優點：不涉及到控制並發，每個網站一個線程抓取一個網站，抓取完畢即自動回收銷毀線程。控制方便。缺點：線程數不可以擴展，例如當只有3個網站，你最多隻能開3個線程來抓取，不能開更多，有一定的局限性。

方法2：N個線程同時抓取N個網站，線程數和網站數目不掛鉤，優點：線程數可以調整並且和和抓取網站數量無關。3個網站我們可以開4個5個或者10個這個可以根據您的硬體資源進行調整。缺點：需要控制並發，並且要控制什麼時候銷毀線程（thread1空閑，並且queue為空不代表任務可以結束，可能thread2結果還沒返回），當被抓取的網站響應較慢時，會拖慢整個爬蟲進度。

三、實現

抓取方式最終還是選擇了方法二，因為線程數可配置！

使用技術：

jfinal用了之後才發現這東西不適合，但是由於項目進度問題，還是使用了。

maven項目管理

jettyserver

mysql

eclipse開發

項目需要重點攻破的難點：

（1）合理的控制N個線程正常的抓取網站，並且當所有爛衡線程工作都完成了並且需要抓取的隊列為空時，N個線程同時退出銷毀。

（2）不同網站設計節點不一樣，需要通過配置解決各個網站需要抓取的URL和抓取節點內容在html節點的位置。

（3）個性化內容處理，由於html結構設計問題，北大青鳥認為抓取的內容可能有些多餘的html標簽，或者多餘的內容該怎麼處理。

H. 使用java語言爬取自己的淘寶訂單看看買了哪些東西

Java爬蟲框架WebMagic簡介及使用

一、介紹

webmagic的是一個無須配置、便於二次開發的爬蟲框架，它提供簡單靈活的API，只需少量代碼即可實現一個爬蟲。webmagic採用完全模塊化的設計，功能覆蓋整個爬蟲的生命周期(鏈接提取、頁面下載、內容抽取、持久化)，支持多線程抓取，分布式抓取，並支持自動重試、自定義UA/cookie等功能。

二、概覽

WebMagic項目代碼分為核心和擴展兩部分。核心部分(webmagic-core)是一個精簡的、模塊化的爬蟲實現，而擴展部分則包括一些便利的、實用性的功能（例如註解模式編寫爬蟲等）。
WebMagic的結構分為Downloader、PageProcessor、Scheler、Pipeline四大組件，並由Spider將它們彼此組織起來。這四大組件對應爬蟲生命周期中的下載、處理、管理和持久化等功能。而Spider則將這幾個組件組織起來，讓它們可以互相交互，流程化的執行，可以認為Spider是一個大的容器，它也是WebMagic邏輯的核心。

2.1 WebMagic的四個組件

Downloader
Downloader負責從互聯網上下載頁面，以便後續處理。WebMagic默認使用了Apache HttpClient作為下載工具。
PageProcessor
PageProcessor負責解析頁面，抽取有用信息，以及發現新的鏈接。WebMagic使用Jsoup作為HTML解析工具，並基於其開發了解析XPath的工具Xsoup。在這四個組件中，PageProcessor對於每個站點每個頁面都不一樣，是需要使用者定製的部分。
Scheler
Scheler負責管理待抓取的URL，以及一些去重的工作。WebMagic默認提供了JDK的內存隊列來管理URL，並用集合來進行去重。也支持使用Redis進行分布式管理。除非項目有一些特殊的分布式需求，否則無需自己定製Scheler。
Pipeline
Pipeline負責抽取結果的處理，包括計算、持久化到文件、資料庫等。WebMagic默認提供了「輸出到控制台」和「保存到文件」兩種結果處理方案。Pipeline定義了結果保存的方式，如果你要保存到指定資料庫，則需要編寫對應的Pipeline。對於一類需求一般只需編寫一個Pipeline。

2.2 用於數據流轉的對象

Request
Request是對URL地址的一層封裝，一個Request對應一個URL地址。它是PageProcessor與Downloader交互的載體，也是PageProcessor控制Downloader唯一方式。
Page
Page代表了從Downloader下載到的一個頁面——可能是HTML，也可能是JSON或者其他文本格式的內容。Page是WebMagic抽取過程的核心對象，它提供一些方法可供抽取、結果保存等。
ReusltItems
ReusltItems相當於一個Map，它保存PageProcessor處理的結果，供Pipeline使用。它的API與Map很類似，值得注意的是它有一個欄位skip，若設置為true，則不應被Pipeline處理。

2.3 控制爬蟲運轉的引擎—Spider

Spider是WebMagic內部流程的核心。Downloader、PageProcessor、Scheler、Pipeline都是Spider的一個屬性，這些屬性是可以自由設置的，通過設置這個屬性可以實現不同的功能。Spider也是WebMagic操作的入口，它封裝了爬蟲的創建、啟動、停止、多線程等功能。
對於編寫一個爬蟲，PageProcessor是需要編寫的部分，而Spider則是創建和控制爬蟲的入口。

2.4 WebMagic項目組成

WebMagic項目代碼包括幾個部分，在根目錄下以不同目錄名分開。它們都是獨立的Maven項目。
WebMagic主要包括兩個包，這兩個包經過廣泛實用，已經比較成熟：

webmagic-core
webmagic-core是WebMagic核心部分，只包含爬蟲基本模塊和基本抽取器。
webmagic-extension
webmagic-extension是WebMagic的主要擴展模塊，提供一些更方便的編寫爬蟲的工具。包括註解格式定義爬蟲、JSON、分布式等支持。

三、基本的爬蟲

3.1 爬蟲的流程 (可以參考上邊的框架架構圖)

Downloader-頁面下載
頁面下載是一切爬蟲的開始。
大部分爬蟲都是通過模擬http請求，接收並分析響應來完成。這方面，JDK自帶的HttpURLConnection可以滿足最簡單的需要，而Apache HttpClient(4.0後整合到HttpCompenent項目中)則是開發復雜爬蟲的不二之選。它支持自定義HTTP頭(對於爬蟲比較有用的就是User-agent、cookie等)、自動redirect、連接復用、cookie保留、設置代理等諸多強大的功能。
webmagic使用了HttpClient 4.2，並封裝到了HttpClientDownloader。學習HttpClient的使用對於構建高性能爬蟲是非常有幫助的，官方的Tutorial就是很好的學習資料。目前webmagic對HttpClient的使用仍在初步階段，不過對於一般抓取任務，已經夠用了
PageProcessor-頁面分析及鏈接抽取
Selector是webmagic為了簡化頁面抽取開發的獨立模塊，是整個項目中我最得意的部分。這里整合了CSS Selector、XPath和正則表達式，並可以進行鏈式的抽取，很容易就實現強大的功能。即使你使用自己開發的爬蟲工具，webmagic的Selector仍然值得一試
Jsoup
HtmlParser
Apache tika
HtmlCleaner與Xpath
這里說的頁面分析主要指HTML頁面的分析。頁面分析可以說是垂直爬蟲最復雜的一部分，在webmagic里，PageProcessor是定製爬蟲的核心。通過編寫一個實現PageProcessor介面的類，就可以定製一個自己的爬蟲
HTML分析是一個比較復雜的工作，Java世界主要有幾款比較方便的分析工具：
webmagic的Selector
Scheler-URL管理
URL管理的問題可大可小。對於小規模的抓取，URL管理是很簡單的。我們只需要將待抓取URL和已抓取URL分開保存，並進行去重即可。使用JDK內置的集合類型Set、List或者Queue都可以滿足需要。如果我們要進行多線程抓取，則可以選擇線程安全的容器，例如LinkedBlockingQueue以及ConcurrentHashMap。因為小規模的URL管理非常簡單，很多框架都並不將其抽象為一個模塊，而是直接融入到代碼中。但是實際上，抽象出Scheler模塊，會使得框架的解耦程度上升一個檔次，並非常容易進行橫向擴展，這也是我從scrapy中學到的。
Pipeline-離線處理和持久化
Pipeline其實也是容易被忽略的一部分。大家都知道持久化的重要性，但是很多框架都選擇直接在頁面抽取的時候將持久化一起完成，例如crawer4j。但是Pipeline真正的好處是，將頁面的在線分析和離線處理拆分開來，可以在一些線程里進行下載，另一些線程里進行處理和持久化。

3.2 使用WebMagic爬取一個壁紙網站

首先引入WebMagic的依賴，webmagic-core-{version}.jar和webmagic-extension-{version}.jar。在項目中添加這兩個包的依賴，即可使用WebMagic。

maven中引入依賴jar包

<dependency>

<groupId>us.codecraft</groupId>

<artifactId>webmagic-core</artifactId>

<version>0.5.3</version>

</dependency>

<dependency>

<groupId>us.codecraft</groupId>

<artifactId>webmagic-extension</artifactId>

<version>0.5.3</version>

</dependency>1234567891012345678910

不使用maven的用戶，可以去http://webmagic.io中下載最新的jar包。

I. Java網路爬蟲怎麼實現

網路爬蟲是一個自動提取網頁的程序，它為搜索引擎從萬維網上下載網頁，是搜索引擎的重要組成。x0dx0a傳統爬蟲從一個或若干初始網頁的URL開始，獲得初始網頁上的URL，在抓取網頁的過程中，不斷從當前頁面上抽取新的URL放入隊列，直到滿足系統的一定停止條件。對於垂直搜索來說，聚焦爬蟲，即有針對性地爬取特定主題網頁的爬蟲，更為適合。x0dx0ax0dx0a以下是一個使用java實現的簡單爬蟲核心代碼：x0dx0apublic void crawl() throws Throwable { x0dx0a while (continueCrawling()) { x0dx0a CrawlerUrl url = getNextUrl(); //獲取待爬取隊列中的下一個URL x0dx0a if (url != null) { x0dx0a printCrawlInfo(); x0dx0a String content = getContent(url); //獲取URL的文本信息 x0dx0a x0dx0a //聚焦爬蟲只爬取與主題內容相關的網頁，這里採用正則匹配簡單處理 x0dx0a if (isContentRelevant(content, this.regexpSearchPattern)) { x0dx0a saveContent(url, content); //保存網頁至本地 x0dx0a x0dx0a //獲取網頁內容中的鏈接，並放入待爬取隊列中 x0dx0a Collection urlStrings = extractUrls(content, url); x0dx0a addUrlsToUrlQueue(url, urlStrings); x0dx0a } else { x0dx0a System.out.println(url + " is not relevant ignoring ..."); x0dx0a } x0dx0a x0dx0a //延時防止被對方屏蔽 x0dx0a Thread.sleep(this.delayBetweenUrls); x0dx0a } x0dx0a } x0dx0a closeOutputStream(); x0dx0a}x0dx0aprivate CrawlerUrl getNextUrl() throws Throwable { x0dx0a CrawlerUrl nextUrl = null; x0dx0a while ((nextUrl == null) && (!urlQueue.isEmpty())) { x0dx0a CrawlerUrl crawlerUrl = this.urlQueue.remove(); x0dx0a //doWeHavePermissionToVisit：是否有許可權訪問該URL，友好的爬蟲會根據網站提供的"Robot.txt"中配置的規則進行爬取 x0dx0a //isUrlAlreadyVisited：URL是否訪問過，大型的搜索引擎往往採用BloomFilter進行排重，這里簡單使用HashMap x0dx0a //isDepthAcceptable：是否達到指定的深度上限。爬蟲一般採取廣度優先的方式。一些網站會構建爬蟲陷阱（自動生成一些無效鏈接使爬蟲陷入死循環），採用深度限制加以避免 x0dx0a if (doWeHavePermissionToVisit(crawlerUrl) x0dx0a && (!isUrlAlreadyVisited(crawlerUrl)) x0dx0a && isDepthAcceptable(crawlerUrl)) { x0dx0a nextUrl = crawlerUrl; x0dx0a // System.out.println("Next url to be visited is " + nextUrl); x0dx0a } x0dx0a } x0dx0a return nextUrl; x0dx0a}x0dx0aprivate String getContent(CrawlerUrl url) throws Throwable { x0dx0a //HttpClient4.1的調用與之前的方式不同 x0dx0a HttpClient client = new DefaultHttpClient(); x0dx0a HttpGet httpGet = new HttpGet(url.getUrlString()); x0dx0a StringBuffer strBuf = new StringBuffer(); x0dx0a HttpResponse response = client.execute(httpGet); x0dx0a if (HttpStatus.SC_OK == response.getStatusLine().getStatusCode()) { x0dx0a HttpEntity entity = response.getEntity(); x0dx0a if (entity != null) { x0dx0a BufferedReader reader = new BufferedReader( x0dx0a new InputStreamReader(entity.getContent(), "UTF-8")); x0dx0a String line = null; x0dx0a if (entity.getContentLength() > 0) { x0dx0a strBuf = new StringBuffer((int) entity.getContentLength()); x0dx0a while ((line = reader.readLine()) != null) { x0dx0a strBuf.append(line); x0dx0a } x0dx0a } x0dx0a } x0dx0a if (entity != null) { x0dx0a nsumeContent(); x0dx0a } x0dx0a } x0dx0a //將url標記為已訪問 x0dx0a markUrlAsVisited(url); x0dx0a return strBuf.toString(); x0dx0a}x0dx0apublic static boolean isContentRelevant(String content, x0dx0aPattern regexpPattern) { x0dx0a boolean retValue = false; x0dx0a if (content != null) { x0dx0a //是否符合正則表達式的條件 x0dx0a Matcher m = regexpPattern.matcher(content.toLowerCase()); x0dx0a retValue = m.find(); x0dx0a } x0dx0a return retValue; x0dx0a}x0dx0apublic List extractUrls(String text, CrawlerUrl crawlerUrl) { x0dx0a Map urlMap = new HashMap(); x0dx0a extractHttpUrls(urlMap, text); x0dx0a extractRelativeUrls(urlMap, text, crawlerUrl); x0dx0a return new ArrayList(urlMap.keySet()); x0dx0a} x0dx0aprivate void extractHttpUrls(Map urlMap, String text) { x0dx0a Matcher m = (text); x0dx0a while (m.find()) { x0dx0a String url = m.group(); x0dx0a String[] terms = url.split("a href=\""); x0dx0a for (String term : terms) { x0dx0a // System.out.println("Term = " + term); x0dx0a if (term.startsWith("http")) { x0dx0a int index = term.indexOf("\""); x0dx0a if (index > 0) { x0dx0a term = term.substring(0, index); x0dx0a } x0dx0a urlMap.put(term, term); x0dx0a System.out.println("Hyperlink: " + term); x0dx0a } x0dx0a } x0dx0a } x0dx0a} x0dx0aprivate void extractRelativeUrls(Map urlMap, String text, x0dx0a CrawlerUrl crawlerUrl) { x0dx0a Matcher m = relativeRegexp.matcher(text); x0dx0a URL textURL = crawlerUrl.getURL(); x0dx0a String host = textURL.getHost(); x0dx0a while (m.find()) { x0dx0a String url = m.group(); x0dx0a String[] terms = url.split("a href=\""); x0dx0a for (String term : terms) { x0dx0a if (term.startsWith("/")) { x0dx0a int index = term.indexOf("\""); x0dx0a if (index > 0) { x0dx0a term = term.substring(0, index); x0dx0a } x0dx0a String s = //" + host + term; x0dx0a urlMap.put(s, s); x0dx0a System.out.println("Relative url: " + s); x0dx0a } x0dx0a } x0dx0a } x0dx0a x0dx0a}x0dx0apublic static void main(String[] args) { x0dx0a try { x0dx0a String url = ""; x0dx0a Queue urlQueue = new LinkedList(); x0dx0a String regexp = "java"; x0dx0a urlQueue.add(new CrawlerUrl(url, 0)); x0dx0a NaiveCrawler crawler = new NaiveCrawler(urlQueue, 100, 5, 1000L, x0dx0a regexp); x0dx0a // boolean allowCrawl = crawler.areWeAllowedToVisit(url); x0dx0a // System.out.println("Allowed to crawl: " + url + " " + x0dx0a // allowCrawl); x0dx0a crawler.crawl(); x0dx0a } catch (Throwable t) { x0dx0a System.out.println(t.toString()); x0dx0a t.printStackTrace(); x0dx0a } x0dx0a}

J. 如何用java爬蟲爬取招聘信息

debug?側邊雙擊兩下，出現藍色小點，反鍵運行下面有一個，debug運行模式。

導航:首頁 > 編程語言 > java爬蟲例子

java爬蟲例子

與java爬蟲例子相關的資料

友情鏈接