jsoup格式_使用java語言爬取自己的淘寶訂單看看買了哪些東西

① jsoup 抓取網頁，字元是亂碼，怎麼轉換跪求拜託了各位謝謝

jsoup類似取得網頁的源碼根據head 讀出編碼格式
new String（source，'UTF8'）;
轉換試試

② java中做網路抓取demo用的Jsoup進行url解析如果鏈接中帶中文就會出現亂碼

哪是因為網頁編碼都是UTF_8的你出現中文即是GBK的所以需核知早改雀要轉成UTF_8格式的字元串就不會出猛輪現亂碼了

③ java中.html文件和.java文件的用途及運行環境

您好，這樣的：
解析HTML文檔的Java程序
下面是一個解析HTML字元串，網路上下載的HTML文件，以及本地文件系統中的HTML文件的完整的Java程序。你可以使用Eclipse IDE或者別的IDE甚至命令來運行這個程序。在Eclipse裡面則很簡單，拷貝這份代碼，新建一個Java工程，在src包上右鍵並粘貼進去就可以了。Eclipse會去創建正確的包及同名的Java源文件的，因此工作量最小。如果你已經有一個Java示例工程了，那麼僅需一步就可以了。下面的這個Java程序展示了解析及遍歷HTML文件的三個不同例子。第一個例子中，我們直接解析了一個內容為HTML的字元串，第二個例子中我們解析了一個從URL中下載的HTML文件，第三個中我們從本地文件系統中載入了一個HTML文檔並進行解析。第一和第三個例子中都用到了parse方法來獲取一個Document對象，你可以查詢它來提取出任何的標簽值或者屬性值。第二個例子中，我們用到了Jsoup.connect方法，它會去創建URL的連接，下載HTML並進行解析。這個方法也會返回Document，它可以用於後續的查詢及獲取標簽或者屬性的值。
import java.io.IOException;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;

/**
[*] Java Program to parse/read HTML documents from File using Jsoup library.
[*] Jsoup is an open source library which allows Java developer to parse HTML
[*] files and extract elements, manipulate data, change style using DOM, CSS and
[*] JQuery like method.
[*]
[*] @author Javin Paul
[*]/
public class HTMLParser{

public static void main(String args[]) {

// Parse HTML String using JSoup library
String HTMLSTring = "<!DOCTYPE html>"
+ "<html>"
+ "<head>"
+ "<title>JSoup Example</title>"
+ "</head>"
+ "<body>"
+ "|[b]HelloWorld[/b]"
+ ""
+ "</body>"
+ "</html>";

Document html = Jsoup.parse(HTMLSTring);
String title = html.title();
String h1 = html.body().getElementsByTag("h1").text();

System.out.println("Input HTML String to JSoup :" + HTMLSTring);
System.out.println("After parsing, Title : " + title);
System.out.println("Afte parsing, Heading : " + h1);

// JSoup Example 2 - Reading HTML page from URL
Document doc;
try {
doc = Jsoup.connect("http://google.com/").get();
title = doc.title();
} catch (IOException e) {
e.printStackTrace();
}

System.out.println("Jsoup Can read HTML page from URL, title : " + title);

// JSoup Example 3 - Parsing an HTML file in Java
//Document htmlFile = Jsoup.parse("login.html", "ISO-8859-1"); // wrong
Document htmlFile = null;
try {
htmlFile = Jsoup.parse(new File("login.html"), "ISO-8859-1");
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} // right
title = htmlFile.title();
Element div = htmlFile.getElementById("login");
String cssClass = div.className(); // getting class form HTML element

System.out.println("Jsoup can also parse HTML file directly");
System.out.println("title : " + title);
System.out.println("class of div tag : " + cssClass);
}

}

輸出：

Input HTML String to JSoup :<!DOCTYPE html><html><head><title>JSoup Example</title></head><body><table><tr><td><h1>HelloWorld</h1></tr></table></body></html>

After parsing, Title : JSoup Example
Afte parsing, Heading : HelloWorld
Jsoup Can read HTML page from URL, title : Google
Jsoup can also parse HTML file directly title : Login Page
class of div tag : simple

Jsoup的好處就是它的健壯性很強。Jsoup HTML解析器會對你提供的HTML進行盡量干凈的解析，而不去考慮這個HTML是否是格式良好的。它可以處理如下這些錯誤：未閉合的標簽（比如，Java <p>Scala to <p>JavaScala)，隱式標簽（比如，一個裸的|Java is Great被封裝到了|裡面），它總能創建出一個文檔結構（包含head及body的HTML，並且head里只會包含正確的元素）。這就是在Java中如何進行HTML的解析。Jsoup是一個優秀的健壯的開源庫，它使得讀取HTML文檔，body片段，HTML字元串，以及直接從WEB中解析HTML內容都變得相當簡單。在這篇文章中，我們學習了如何在Java中獲取一個特定的HTML標簽，正如第一個例子中我們將title及H1標簽的值提取成了文本，而第三個例子中我們學習到了如何通過提取CSS屬性來從HTML標簽中獲取屬性值。除了強大的jQuery風格的html.body().getElementsByTag("h1").text()方法，你還可以提取任意的HTML標簽，它還提供了像Document.title()和Element.className()這樣便捷的方法，你可以快速獲取到標題及CSS類。希望JSoup能讓你玩得愉快，很快我們將會看到關於這個API的更多的一些例子。

④ jtidy jsoup 哪個好用謝謝

先來看他們的定義：
JTidy 是 HTML
Tidy用Java實現的移植版本，提供了一個HTML的語法檢查器和很好的列印功能。類似它的非Java產品，JTidy可以用來清除格式不好和不對的
HTM。此外，JTidy提供了對整個HTML的DOM分析器。程序員可以將JTidy當作一個處理HTML文件的DOM解析器來使用。

jsoup 是一款 Java 的HTML 解析器，可直接解析某個URL地址、HTML文本內容。它晌春提供了一套非常省力的API，可通過DOM，CSS以及類似於JQuery的操作方法來取出和操作數據。

所以說
JTidy更常用的是用來清理HTML,也就是差謹純說,修復畸形或錯誤的HTML,如未結束的標記：
從 <div><span>text</div> 到<div><span>text</span></div>

Jsoup的虛咐話主要是解析html.

哪個好用，看你要用來干什麼。

⑤ jsoup 的使用

獲取所有雙色球數據，但是返回的都是html頁面，需要進行處理，最開始想著用dom4j處理核脊，發現不可行。之後想著自己處猛沒理，但是又太麻煩了，然後找到了jsoup，使用起來非常簡單。

操枝氏納作、解析HTML格式的數據

jsoup的使用和dom4j非常類似，最開始都是先獲得一個Document對象，然後獲取需要的子元素或節點進行操作，但是jsoup可以通過dom、css、和類似jquery的方法( 選擇器 )來獲取需要的數據。

選擇器官方API

其他方法詳見官方API
Node
Element
Elements

Whitelist官方API

⑥ jsoup解析html後，對字元的轉義怎麼處理

Html中特殊字元不被轉義，可以使用預格式化標簽。
pre 是 Preformatted text（預格式化文本）的縮寫。使用此標簽可以把代碼中的空格和換行直接顯示到頁面上。
例如HTML代碼：

1
2
3
4
5
<pre>
if (xx > 5) {
print "比5大！\n";
}
</pre>

瀏覽器顯示效果：
if (xx > 5) {
print "比5大！\n";
}
<textarea></textarea>之間包含有類似的這種轉義字元的時候總會被解析，倒是可以把所有的"&"通過程序替換成"&"，但是有些本來就是"&"的也會被轉換，這就錯了。如何讓<textarea></textarea>之間包含的文本原封不動的顯示出來呢？
總結如下:
解決方法有兩種：
第1種：

1
2
3
4
5
6
<body>
<textarea id='t' rows=20 cols=20></textarea>
<script>
document.getElementById('t').innerText='a<&>';
</script>
</body>

第2種：
/*將字串轉為html格式*/

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
public String strToHtml(String s)
{
if (s==null||s.equals("")) return "";
s = s.replaceAll("&", "&");
s = s.replaceAll("<", "<");
s = s.replaceAll(">", ">");
s = s.replaceAll(" ", " ");
// s = s.replaceAll("/n", "");
// s = s.replaceAll("'", "'");
return s;
}
/*將html格式轉為字串*/
public String strToHtml(String s)
{
if (s==null||s.equals("")) return "";
s = s.replaceAll("&","&");
s = s.replaceAll("<","<");
s = s.replaceAll(">",">");
s = s.replaceAll(" "," ");
//s = s.replaceAll("","/n");
//s = s.replaceAll("'","'");
return s;
}

最後一點：jQuery的.html()方法默認會轉義的，這種情況使用.text()就不會轉義了。

⑦ 使用java語言爬取自己的淘寶訂單看看買了哪些東西

Java爬蟲框架WebMagic簡介及使用

一、介紹

webmagic的是一個無須配置、便於二次開發的爬蟲框架，它提供簡單靈活的API，只需少量代碼即可實現一個爬蟲。webmagic採用完全模塊化的設計，功能覆蓋整個爬蟲的生命周期(鏈接提取、頁面下載、內容抽取、持久化)，支持多線程抓取，分布式抓取，並支持自動重試、自定義UA/cookie等功能。

二、概覽

WebMagic項目代碼分為核心和擴展兩部分。核心部分(webmagic-core)是一個精簡的、模塊化的爬蟲實現，而擴展部分則包括一些便利的、實用性的功能（例如註解模式編寫爬蟲等）。
WebMagic的結構分為Downloader、PageProcessor、Scheler、Pipeline四大組件，並由Spider將它們彼此組織起來。這四大組件對應爬蟲生命周期中的下載、處理、管理和持久化等功能。而Spider則將這幾個組件組織起來，讓它們可以互相交互，流程化的執行，可以認為Spider是一個大的容器，它也是WebMagic邏輯的核心。

2.1 WebMagic的四個組件

Downloader
Downloader負責從互聯網上下載頁面，以便後續處理。WebMagic默認使用了Apache HttpClient作為下載工具。
PageProcessor
PageProcessor負責解析頁面，抽取有用信息，以及發現新的鏈接。WebMagic使用Jsoup作為HTML解析工具，並基於其開發了解析XPath的工具Xsoup。在這四個組件中，PageProcessor對於每個站點每個頁面都不一樣，是需要使用者定製的部分。
Scheler
Scheler負責管理待抓取的URL，以及一些去重的工作。WebMagic默認提供了JDK的內存隊列來管理URL，並用集合來進行去重。也支持使用Redis進行分布式管理。除非項目有一些特殊的分布式需求，否則無需自己定製Scheler。
Pipeline
Pipeline負責抽取結果的處理，包括計算、持久化到文件、資料庫等。WebMagic默認提供了「輸出到控制台」和「保存到文件」兩種結果處理方案。Pipeline定義了結果保存的方式，如果你要保存到指定資料庫，則需要編寫對應的Pipeline。對於一類需求一般只需編寫一個Pipeline。

2.2 用於數據流轉的對象

Request
Request是對URL地址的一層封裝，一個Request對應一個URL地址。它是PageProcessor與Downloader交互的載體，也是PageProcessor控制Downloader唯一方式。
Page
Page代表了從Downloader下載到的一個頁面——可能是HTML，也可能是JSON或者其他文本格式的內容。Page是WebMagic抽取過程的核心對象，它提供一些方法可供抽取、結果保存等。
ReusltItems
ReusltItems相當於一個Map，它保存PageProcessor處理的結果，供Pipeline使用。它的API與Map很類似，值得注意的是它有一個欄位skip，若設置為true，則不應被Pipeline處理。

2.3 控制爬蟲運轉的引擎—Spider

Spider是WebMagic內部流程的核心。Downloader、PageProcessor、Scheler、Pipeline都是Spider的一個屬性，這些屬性是可以自由設置的，通過設置這個屬性可以實現不同的功能。Spider也是WebMagic操作的入口，它封裝了爬蟲的創建、啟動、停止、多線程等功能。
對於編寫一個爬蟲，PageProcessor是需要編寫的部分，而Spider則是創建和控制爬蟲的入口。

2.4 WebMagic項目組成

WebMagic項目代碼包括幾個部分，在根目錄下以不同目錄名分開。它們都是獨立的Maven項目。
WebMagic主要包括兩個包，這兩個包經過廣泛實用，已經比較成熟：

webmagic-core
webmagic-core是WebMagic核心部分，只包含爬蟲基本模塊和基本抽取器。
webmagic-extension
webmagic-extension是WebMagic的主要擴展模塊，提供一些更方便的編寫爬蟲的工具。包括註解格式定義爬蟲、JSON、分布式等支持。

三、基本的爬蟲

3.1 爬蟲的流程 (可以參考上邊的框架架構圖)

Downloader-頁面下載
頁面下載是一切爬蟲的開始。
大部分爬蟲都是通過模擬http請求，接收並分析響應來完成。這方面，JDK自帶的HttpURLConnection可以滿足最簡單的需要，而Apache HttpClient(4.0後整合到HttpCompenent項目中)則是開發復雜爬蟲的不二之選。它支持自定義HTTP頭(對於爬蟲比較有用的就是User-agent、cookie等)、自動redirect、連接復用、cookie保留、設置代理等諸多強大的功能。
webmagic使用了HttpClient 4.2，並封裝到了HttpClientDownloader。學習HttpClient的使用對於構建高性能爬蟲是非常有幫助的，官方的Tutorial就是很好的學習資料。目前webmagic對HttpClient的使用仍在初步階段，不過對於一般抓取任務，已經夠用了
PageProcessor-頁面分析及鏈接抽取
Selector是webmagic為了簡化頁面抽取開發的獨立模塊，是整個項目中我最得意的部分。這里整合了CSS Selector、XPath和正則表達式，並可以進行鏈式的抽取，很容易就實現強大的功能。即使你使用自己開發的爬蟲工具，webmagic的Selector仍然值得一試
Jsoup
HtmlParser
Apache tika
HtmlCleaner與Xpath
這里說的頁面分析主要指HTML頁面的分析。頁面分析可以說是垂直爬蟲最復雜的一部分，在webmagic里，PageProcessor是定製爬蟲的核心。通過編寫一個實現PageProcessor介面的類，就可以定製一個自己的爬蟲
HTML分析是一個比較復雜的工作，Java世界主要有幾款比較方便的分析工具：
webmagic的Selector
Scheler-URL管理
URL管理的問題可大可小。對於小規模的抓取，URL管理是很簡單的。我們只需要將待抓取URL和已抓取URL分開保存，並進行去重即可。使用JDK內置的集合類型Set、List或者Queue都可以滿足需要。如果我們要進行多線程抓取，則可以選擇線程安全的容器，例如LinkedBlockingQueue以及ConcurrentHashMap。因為小規模的URL管理非常簡單，很多框架都並不將其抽象為一個模塊，而是直接融入到代碼中。但是實際上，抽象出Scheler模塊，會使得框架的解耦程度上升一個檔次，並非常容易進行橫向擴展，這也是我從scrapy中學到的。
Pipeline-離線處理和持久化
Pipeline其實也是容易被忽略的一部分。大家都知道持久化的重要性，但是很多框架都選擇直接在頁面抽取的時候將持久化一起完成，例如crawer4j。但是Pipeline真正的好處是，將頁面的在線分析和離線處理拆分開來，可以在一些線程里進行下載，另一些線程里進行處理和持久化。

3.2 使用WebMagic爬取一個壁紙網站

首先引入WebMagic的依賴，webmagic-core-{version}.jar和webmagic-extension-{version}.jar。在項目中添加這兩個包的依賴，即可使用WebMagic。

maven中引入依賴jar包

<dependency>

<groupId>us.codecraft</groupId>

<artifactId>webmagic-core</artifactId>

<version>0.5.3</version>

</dependency>

<dependency>

<groupId>us.codecraft</groupId>

<artifactId>webmagic-extension</artifactId>

<version>0.5.3</version>

</dependency>1234567891012345678910

不使用maven的用戶，可以去http://webmagic.io中下載最新的jar包。

⑧ jsoup教程

jsoup是一款Java的HTML解析器，主要用來對HTML解析。官網中文文檔

在爬蟲的時候，當我們用HttpClient之類的框架，獲取到網頁源碼之後，需要從網頁源碼中取出我們想要的內容，

就可以使用jsoup這類HTML解析器了。可以非常輕松的實現。

雖然jsoup也支持從某個地址直接去爬取網頁源碼，但是只支持HTTP，HTTPS協議，支持不夠豐富。

所以，主要還是用來對HTML進行解析。

◆其中，要被解析的HTML可以是一個HTML的字元串，可以是一個URL，可以禪困是一個文件。

org.jsoup.Jsoup把輸入的HTML轉換成一個org.jsoup.nodes.Document對象，然後從Document對象中取出想要的元素。

org.jsoup.nodes.Document繼承了org.jsoup.nodes.Element，Element又繼承了org.jsoup.nodes.Node類。裡面提供了豐富的方法來獲取HTML的元素。

◇從URL獲取HTML來解析

其中Jsoup.connect("xxx")方法返回一個org.jsoup.Connection對象。
在Connection對象中，我們可以執行get或者post來執行請求。但是在執行請求之前，
我們可以使用Connection對象來設置一些請求信息。比如：頭信息，cookie，請求等待時間，代理等等來模擬瀏覽器的行為。

◆獲得Document對象後，接下來就是解析Document對象，並從中獲取我們想要的元素了。

Document中提供了豐富的方法來獲取指定元素。

◇使用DOM的方式來取得

getElementById(String id)：通過id來獲取
getElementsByTag(String tagName)：通過標簽名字來獲取
getElementsByClass(String className)：通過類名來獲取
getElementsByAttribute(String key)：通過屬性名字來獲取
getElementsByAttributeValue(String key, String value)：通過指定的屬性名字，屬性值來獲取
getAllElements()：獲取所有元素

◇通過類似於css或jQuery的選擇器來查找元素

使用的是Element類的下記方法：

public Elements select(String cssQuery)

通過傳入一個類似於CSS或jQuery的選擇器字元串，來查找指定元素。

例子：

選擇器的更多語法(可以在org.jsoup.select.Selector中查看到更多關於選擇器的語法)：

tagname: 通過標簽查找元素，比如：a
ns|tag: 通過標簽在命名空間查找元素，比如：可以用 fb|name 語法碼桐來查找 <fb:name> 元素
#id: 通過ID查找元素，比如：#logo
.class: 通過class名稱查遲襲坦找元素，比如：.masthead
[attribute]: 利用屬性查找元素，比如：[href]
[^attr]: 利用屬性名前綴來查找元素，比如：可以用[^data-] 來查找帶有HTML5 Dataset屬性的元素
[attr=value]: 利用屬性值來查找元素，比如：[width=500]
[attr^=value], [attr$=value], [attr=value]: 利用匹配屬性值開頭、結尾或包含屬性值來查找元素，比如：[href=/path/]
[attr~=regex]: 利用屬性值匹配正則表達式來查找元素，比如： img[src~=(?i).(png|jpe?g)]
*: 這個符號將匹配所有元素

Selector選擇器組合使用
el#id: 元素+ID，比如： div#logo
el.class: 元素+class，比如： div.masthead
el[attr]: 元素+class，比如： a[href]
任意組合，比如：a[href].highlight
ancestor child: 查找某個元素下子元素，比如：可以用.body p 查找在"body"元素下的所有 p元素
parent > child: 查找某個父元素下的直接子元素，比如：可以用div.content > p 查找 p 元素，也可以用body > * 查找body標簽下所有直接子元素
siblingA + siblingB: 查找在A元素之前第一個同級元素B，比如：div.head + div
siblingA ~ siblingX: 查找A元素之前的同級X元素，比如：h1 ~ p
el, el, el:多個選擇器組合，查找匹配任一選擇器的唯一元素，例如：div.masthead, div.logo

偽選擇器selectors
:lt(n): 查找哪些元素的同級索引值（它的位置在DOM樹中是相對於它的父節點）小於n，比如：td:lt(3) 表示小於三列的元素
:gt(n):查找哪些元素的同級索引值大於n，比如： div p:gt(2)表示哪些div中有包含2個以上的p元素
:eq(n): 查找哪些元素的同級索引值與n相等，比如：form input:eq(1)表示包含一個input標簽的Form元素
:has(seletor): 查找匹配選擇器包含元素的元素，比如：div:has(p)表示哪些div包含了p元素
:not(selector): 查找與選擇器不匹配的元素，比如： div:not(.logo) 表示不包含 class="logo" 元素的所有 div 列表
:contains(text): 查找包含給定文本的元素，搜索不區分大不寫，比如： p:contains(jsoup)
:containsOwn(text): 查找直接包含給定文本的元素
:matches(regex): 查找哪些元素的文本匹配指定的正則表達式，比如：div:matches((?i)login)
:matchesOwn(regex): 查找自身包含文本匹配指定正則表達式的元素
注意：上述偽選擇器索引是從0開始的，也就是說第一個元素索引值為0，第二個元素index為1等

◆通過上面的選擇器，我們可以取得一個Elements對象，它繼承了ArrayList對象，裡面放的全是Element對象。

接下來我們要做的就是從Element對象中，取出我們真正需要的內容。

通常有下面幾種方法：

◇Element.text()

這個方法用來取得一個元素中的文本。

◇Element.html()或Node.outerHtml()

這個方法用來取得一個元素中的html內容

◇Node.attr(String key)

獲得一個屬性的值，例如取得超鏈接<a href="">中href的值

json字元串-數組類型與JSONArray之間的轉換

復雜json格式字元串與JSONObject之間的轉換

⑨ Jsoup 請求鏈接含中文亂碼

這不是亂碼吧這是經過urlencode過後的編碼。你網上自己找個url編碼輸個中文字元然後編碼下。

⑩ java爬蟲抓取網頁內容出現亂碼

jsoup類似取得網緩好頁擾神鉛的源碼根據head 讀出編碼格式瞎中
new String（source，'UTF8'）;
轉換試試

導航:首頁 > 編程語言 > jsoup格式

jsoup格式

與jsoup格式相關的資料

友情鏈接