java獲取網站數據_Java請求一個URL獲取網站返回的數據

『壹』 java請求一個URL。獲取網站返回的數據。通過POST請求

packagewzh.Http;

importjava.io.BufferedReader;
importjava.io.IOException;
importjava.io.InputStreamReader;
importjava.io.PrintWriter;
importjava.net.URL;
importjava.net.URLConnection;
importjava.util.List;
importjava.util.Map;

publicclassHttpRequest{
/**
*向指定URL發送GET方法的請求
*
*@paramurl
*發送請求的URL
*@paramparam
*請求參數，請求參數應該是name1=value1&name2=value2的形式。
*@returnURL所代表遠程資源的響應結果
*/
publicstaticStringsendGet(Stringurl,Stringparam){
Stringresult="";
BufferedReaderin=null;
try{
StringurlNameString=url+"?"+param;
URLrealUrl=newURL(urlNameString);
//打開和URL之間的連接
URLConnectionconnection=realUrl.openConnection();
//設置通用的請求屬性
connection.setRequestProperty("accept","*/*");
connection.setRequestProperty("connection","Keep-Alive");
connection.setRequestProperty("user-agent",
"Mozilla/4.0(compatible;MSIE6.0;WindowsNT5.1;SV1)");
//建立實際的連接
connection.connect();
//獲取所有響應頭欄位
Map<String,List<String>>map=connection.getHeaderFields();
//遍歷所有的響應頭欄位
for(Stringkey:map.keySet()){
System.out.println(key+"--->"+map.get(key));
}
//定義BufferedReader輸入流來讀取URL的響應
in=newBufferedReader(newInputStreamReader(
connection.getInputStream()));
Stringline;
while((line=in.readLine())!=null){
result+=line;
}
}catch(Exceptione){
System.out.println("發送GET請求出現異常！"+e);
e.printStackTrace();
}
//使用finally塊來關閉輸入流
finally{
try{
if(in!=null){
in.close();
}
}catch(Exceptione2){
e2.printStackTrace();
}
}
returnresult;
}

/**
*向指定URL發送POST方法的請求
*
*@paramurl
*發送請求的URL
*@paramparam
*請求參數，請求參數應該是name1=value1&name2=value2的形式。
*@return所代表遠程資源的響應結果
*/
publicstaticStringsendPost(Stringurl,Stringparam){
PrintWriterout=null;
BufferedReaderin=null;
Stringresult="";
try{
URLrealUrl=newURL(url);
//打開和URL之間的連接
URLConnectionconn=realUrl.openConnection();
//設置通用的請求屬性
conn.setRequestProperty("accept","*/*");
conn.setRequestProperty("connection","Keep-Alive");
conn.setRequestProperty("user-agent",
"Mozilla/4.0(compatible;MSIE6.0;WindowsNT5.1;SV1)");
//發送POST請求必須設置如下兩行
conn.setDoOutput(true);
conn.setDoInput(true);
//獲取URLConnection對象對應的輸出流
out=newPrintWriter(conn.getOutputStream());
//發送請求參數
out.print(param);
//flush輸出流的緩沖
out.flush();
//定義BufferedReader輸入流來讀取URL的響應
in=newBufferedReader(
newInputStreamReader(conn.getInputStream()));
Stringline;
while((line=in.readLine())!=null){
result+=line;
}
}catch(Exceptione){
System.out.println("發送POST請求出現異常！"+e);
e.printStackTrace();
}
//使用finally塊來關閉輸出流、輸入流
finally{
try{
if(out!=null){
out.close();
}
if(in!=null){
in.close();
}
}
catch(IOExceptionex){
ex.printStackTrace();
}
}
returnresult;
}
}
//函數調用時填入URL和參數（參數非必須）就可以獲取返回的數據，發送post請求調用示例
Stringresult=HttpRequest.sendPost("http://api.map..com/telematics/v3/weather?location=%E5%8C%97%E4%BA%AC&output=json&ak=","")

『貳』 java爬蟲怎麼抓取登陸後的網頁數據

一般爬蟲都不會抓登錄以後的頁面，
如果你只是臨時抓某個站，可以模擬登錄，然後拿到登錄以後的Cookies，再去請求相關的頁面。

『叄』 Java請求一個URL。獲取網站返回的數據。

publicstaticStringSendGET(Stringurl,Stringparam){
Stringresult="";//訪問返回結果
BufferedReaderread=null;//讀取訪問結果

try{
//創建url
URLrealurl=newURL(url+"?"+param);
//打開連接
URLConnectionconnection=realurl.openConnection();
//設置通用的請求屬性
connection.setRequestProperty("accept","*/*");
connection.setRequestProperty("connection","Keep-Alive");
connection.setRequestProperty("user-agent",
"Mozilla/4.0(compatible;MSIE6.0;WindowsNT5.1;SV1)");
//建立連接
connection.connect();
//獲取所有響應頭欄位
Map<String,List<String>>map=connection.getHeaderFields();
//遍歷所有的響應頭欄位，獲取到cookies等
for(Stringkey:map.keySet()){
System.out.println(key+"--->"+map.get(key));
}
//定義BufferedReader輸入流來讀取URL的響應
read=newBufferedReader(newInputStreamReader(
connection.getInputStream(),"UTF-8"));
Stringline;//循環讀取
while((line=read.readLine())!=null){
result+=line;
}
}catch(IOExceptione){
e.printStackTrace();
}finally{
if(read!=null){//關閉流
try{
read.close();
}catch(IOExceptione){
e.printStackTrace();
}
}
}

returnresult;
}

『肆』 java爬蟲抓取指定數據

如何通過Java代碼實現對網頁數據進行指定抓取，我總結了有以下幾個步驟中會使用到Jsoup.Jar包：

1、在工程中導入Jsoup.jar包

2、獲取網址url指定HTML或者文檔指定的body

3、獲取網頁中超鏈接的標題和鏈接

4、獲取指定博客文章的內容

5、獲取網頁中超鏈接的標題和鏈接的結果

『伍』如何使用Java抓取網頁上指定部分的內容

1. 你可以選擇用Java代碼來找到整個網頁的html代碼，如下
(注意在處理網頁方面的內容時，需要導入htmlparser包來支持)

import org.htmlparser.util.ParserException;
import org.htmlparser.visitors.HtmlPage;
import org.htmlparser.Parser;
import org.htmlparser.filters.HasAttributeFilter;
import org.htmlparser.util.NodeList;

public class htmlmover {
public static void main(String[] args){
NodeList rt= getNodeList("http://forex.hexun.com/rmbhl/");
System.out.println(rt.toHtml());
}
public static NodeList getNodeList(String url){
Parser parser = null;
HtmlPage visitor = null;
try {
parser = new Parser(url);
parser.setEncoding("GBK");
visitor = new HtmlPage(parser);
parser.visitAllNodesWith(visitor);
} catch (ParserException e) {
e.printStackTrace();
}
NodeList nodeList = visitor.getBody();
return nodeList;
}
}

以上代碼，public static NodeList getNodeList(String url) 為主體
傳入需要分析網頁的 url(String類型)，返回值是網頁Html節點List(Nodelist類型)
這個方法我沒有什麼要說的，剛開始的時候沒看懂（沒接觸過），後來用了幾次也懂點皮毛了
注意： parser.setEncoding("GBK"); 可能你的工程編碼格式是UTF-8,有錯誤的話需要改動

運行該程序

2.通過瀏覽器工具直接查看 IE是按F12 （剛開始沒發現這個方法，於是傻乎乎地找上面的代碼）

分析你所獲得的html代碼讓人眼花繚亂，不要緊，找到自己需要趴取的內容，找到它上下文有特徵的節點


<div id="sw01_con1">
<table width="655" border="0" cellspacing="0" cellpadding="0" class="hgtab">
<thead>
<tr>
<th width="85" align="center" class="th_l">交易幣種</th>
<th width="80" align="center">交易單位</th>
<th width="130" align="center">現價(人民幣)</th>
<th width="80" align="center">賣出價</th>
<th width="100" align="center">現匯買入價</th>
<th width="95" align="center">現鈔買入價</th>
</tr>
</thead>
<tbody>
<tr align="center">
<td> 英鎊</td>
<td>100</td>
<td>992.7</td>
<td>1001.24</td>
<td>993.26</td>
<td class="no">962.6</td>
</tr>
<tr align="center" bgcolor="#f2f3f4">
<td> 港幣</td>
<td>100</td>
<td>81.54</td>
<td>82.13</td>
<td>81.81</td>
<td class="no">81.16</td>
</tr>
<tr align="center">
<td> 美元</td>
<td>100</td>
<td>635.49</td>
<td>639.35</td>
<td>636.8</td>
<td class="no">631.69</td>
</tr>
<tr align="center" bgcolor="#f2f3f4">
<td> 瑞士法郎</td>
<td>100</td>
<td>710.89</td>
<td>707.78</td>
<td>702.14</td>
<td class="no">680.46</td>
</tr>
<tr align="center">
<td> 新加坡元</td>
<td>100</td>
<td>492.45</td>
<td>490.17</td>
<td>486.27</td>
<td class="no">471.25</td>
</tr>
<tr align="center" bgcolor="#f2f3f4">
<td> 瑞典克朗</td>
<td>100</td>
<td>93.66</td>
<td>93.79</td>
<td>93.04</td>
<td class="no">90.17</td>
</tr>
<tr align="center">
<td> 丹麥克朗</td>
<td>100</td>
<td>116.43</td>
<td>115.59</td>
<td>114.67</td>
<td class="no">111.13</td>
</tr>
<tr align="center" bgcolor="#f2f3f4">
<td> 挪威克朗</td>
<td>100</td>
<td>110.01</td>
<td>109.6</td>
<td>108.73</td>
<td class="no">105.37</td>
</tr>

</tbody>
</table>
</div>


大家可以看到這是一段很有規律，書寫非常規范的Html代碼（這只是第一部分，中行牌價，可以想像，接下來還會有並列的相似的3部分）

大家想截取這些節點中的數據
以下代碼仍需導入htmlparser Java支持包
import java.util.ArrayList;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;

public class Currencyrate {
public static void main(String[] args){
String url="http://forex.hexun.com/rmbhl/";
ArrayList<String> rt= getNodeList(url);
for (int i = 0; i < rt.size(); i++){
System.out.println(rt.get(i));
}
}

public static ArrayList<String> getNodeList(String url){
final ArrayList<String> result=new ArrayList<String>();
Parser parser = null;
NodeList nodeList=null;
try {
parser = new Parser(url);
parser.setEncoding("GBK");

nodeList = parser.parse(
new NodeFilter(){
@Override
public boolean accept(Node node){
Node need=node;
if(getStringsByRegex(node.getText())){
for(int i=0;i<6;i++){
result.add(need.toPlainTextString()); need=need.getPreviousSibling().getPreviousSibling();
}
return true;
}
return false;
}
}
);
}catch (ParserException e) {
e.printStackTrace();
}
return result;
}

public static boolean getStringsByRegex(String txt) {
String regex="td class=\"no\"";
Pattern p = Pattern.compile(regex);
Matcher m = p.matcher(txt);
if (m.find()){
return true;
}
return false;
}
}

廢話不多說，
public static ArrayList<String> getNodeList(String url) 主要方法
parser.setEncoding("GBK"); 需要注意，代碼編碼格式

nodeList = parser.parse(
new NodeFilter(){
@Override
public boolean accept(Node node){
}
｝
);
nodelist是html節點的列表，現在使用NodeFilter ( 節點過濾器 )實例，重載NodeFilter類中的accept()方法
在parser這個Parser類訪問整個html頁面的時候，每遇到一個html節點，就會訪問這個
accept()方法，返回True的話就會將這個節點放進nodelist中，否則就不會將這個節點放進去。這個就是NodeFilter功能。
代碼段一獲取整個html頁面時候 parser.visitAllNodesWith(visitor); 就是獲取所有節點

所以現在我們要趴取網頁上的內容，只要告訴accept()這個方法，哪些節點要放進nodelist去，即遇到哪些節點需要返回true。
於是
public boolean accept(Node node){
Node need=node;
if(getStringsByRegex(node.getText())){
for(int i=0;i<6;i++){
result.add(need.toPlainTextString()); need=need.getPreviousSibling().getPreviousSibling();
}
return true;
}
return false;
}
Parser類在遇到節點，就把這個節點拿過去問accept()，於是accept()方法分析，如果滿足getStringsByRegex(node.getText())就要了

接下來分析getStringsByRegex()，只剩下最後一步了，大家堅持啊！

String regex="td class=\"no\"";
Pattern p = Pattern.compile(regex);
Matcher m = p.matcher(txt);
if (m.find()){
return true;
}
return false;
}
大家可以發現我們索要的每一段都是
<tr align="center">
<td> 英鎊</td>
<td>100</td>
<td>992.7</td>
<td>1001.24</td>
<td>993.26</td>
<td class="no">962.6</td>
</tr>
所以只要找到<td class="no">這個節點就行了，我們用正則表達式去比較
String regex="td class=\"no\""; 這個是比較標准（正則表達式 td class=」no」其中兩個引號需要作為轉義字元來表示成\「）
變數txt是我們傳過去的需要比較的節點的node.getText()，如果符合的話m.find就是true,於是getStringsByRegex()返回true，說明這個節點就是我們所需要的哪些節點，於是
for(int i=0;i<6;i++){
result.add(need.toPlainTextString()); need=need.getPreviousSibling().getPreviousSibling();
}
每一段html，6個為一組，先是962.6，然後是993.26，1001.24，992.7，100，英鎊分別被add進result這個ArrayList<String>中去，返回，這個ArrayList裝的就是我們需要抓取的數據

大家可以把我們所獲得的String數據數出來試試看，是不是我們需要的順序，main()函數獲得ArrayList<String>，就可以顯示到我們所需要的Java widget上去了

『陸』 java 怎樣獲取一個網頁的內容要網頁裡面的表格數據 (通過源碼不能直接獲取數據)，請教

用一個隱藏的控制項（span。。。）,然後起個名字.在後台可以用request獲取

『柒』如何用Java語言獲得網頁數據

你這個是不是A系統想了解B系統的頁面信息？

如果是這樣存在一個問題比較難解決，版就是數據源問題，權你A系統並不知道B系統的數據。

如果要獲取招聘信息的公司名稱，有幾個思路
1、A系統做一個iframe，這個iframe裡面嵌入你要訪問的URL，然後你通過JS，獲取這個iframe標簽裡面的所有內容，這樣數據源就解決了
2、你可以做一個瀏覽器插件，這個插件的功能就是獲取當前訪問頁面的所有字元數據，獲取到數據後將數據發送到A系統
3、對網頁進行截圖，然後通過OCR軟體獲取圖片中的文字，並將文字保存成文本，A系統讀取這個文本信息，數據源問題也可以解決

以上上個只是我臨時想到的，可能還可以運用JAVA的全文檢索框架試試看，因為沒有用過這個框架所以不知道是否能夠實現

獲取到數據源後，接下來就是業務處理了，業務處理就看具體業務進行處理就行了，技術方面就是一個文字處理的功能，技術好實現，業務比較復雜

『捌』怎樣用Java實現網站數據採集.txt

可以使用HttpClient讀取網頁的內容

整個過程分為六步

創建 HttpClient 的實例

2. 創建某種連接方法的實例，在這里是 GetMethod。在 GetMethod 的構造函數中傳入待連接的地址

3. 調用第一步中創建好的實例的 execute 方法來執行第二步中創建好的 method 實例

4. 讀 response

5. 釋放連接。無論執行方法是否成功，都必須釋放連接

6. 對得到後的內容進行處理

實現如下：

import java.io.IOException;

import org.apache.commons.httpclient.*;

import org.apache.commons.httpclient.methods.GetMethod;

import org.apache.commons.httpclient.params.HttpMethodParams;

public class HttpClientTest...{

public static void main(String[] args) {

//構造HttpClient的實例

HttpClient httpClient = new HttpClient();

//創建GET方法的實例

GetMethod getMethod = new GetMethod("http://www.crazyjava.org");

//使用系統提供的默認的恢復策略

getMethod.getParams().setParameter(HttpMethodParams.RETRY_HANDLER,

new DefaultHttpMethodRetryHandler());

try {

//執行getMethod

int statusCode = httpClient.executeMethod(getMethod);

if (statusCode != HttpStatus.SC_OK) {

System.err.println("Method failed: "

+ getMethod.getStatusLine());

}

//讀取內容

byte[] responseBody = getMethod.getResponseBoy();

//處理內容

System.out.println(new String(responseBody));

} catch (HttpException e) {

//發生異常，可能是協議不對或者返回的內容有問題

System.out.println("Please check your provided http address!");

e.printStackTrace();

} catch (IOException e) {

//發生網路異常

e.printStackTrace();

} finally {

//釋放連接

getMethod.releaseConnection();

}

這樣得到的是頁面的源代碼，再進行處理

導航:首頁 > 編程語言 > java獲取網站數據

java獲取網站數據

與java獲取網站數據相關的資料

友情鏈接