導航:首頁 > 編程大全 > 網頁抓取並寫入資料庫

網頁抓取並寫入資料庫

發布時間:2023-01-14 04:50:06

⑴ PHP獲取網站中的信息並存入資料庫

第一步:
$url="http://www..com/index.php";
$file = file_get_contents($url);

先獲取數據。

-------------------------

第二部:
獲取數據,寫入資料庫

$q =$_POST['question'];
$a = $_POST['answer'];
$con = mysql_connect("localhost","joe","123");
if (!$con)
{
echo 'Could not connect: ' . mysql_error();
}
mysql_select_db("joe",$con);
mysql_query("INSERT INTO message VALUES ('$q', '$a', '無')");
mysql_close($con);
echo "輸入成功";

大體思路是這樣的。可以多研究下。

⑵ 請問各位大俠,我想在用c#在百度上搜索指定的搜索內容然後搜索,然後抓取搜索到的網頁放到資料庫中怎麼弄

1. 檢查網路
2. 輸入關鍵字,拼接地址字元串,發送請求
3. 分析獲取的結果(對字元串的處理),插入到資料庫。

第一步驟參考:http://blog.csdn.net/yoyoch1/archive/2009/08/02/4401960.aspx
第二步驟參考: MSDN :WebClient 這個類
第三步驟略

⑶ 抓取網頁數據怎麼保存到資料庫 php

抓取網頁是我的強項,
呵呵
給你幾點建議
1、將整個文章的編碼轉換成你資料庫專的默認編屬碼,否則會報錯。
2、用正則表達式或者字元串截取等方式,將需要的內容分離出來
3、編制SQL語句,
最好,呵呵,當然,就是執行SQL了。
如果還有圖片,就需要把圖片的鏈接,轉換成你自己的鏈接在存儲。
或者只保存圖片文件名也行。
在顯示的時間設置圖片路徑之類的
呵呵,希望能夠幫到你。

⑷ 網頁爬蟲抓回的信息,是怎樣存放在資料庫里

1、抓取、下載網頁;
2、分析網頁、找出自己想要的信息;
3、入庫
舉例:一個網頁抓取十個欄位,先分別做上標記放入緩存,然後執行sql插庫

二營長SEO

java 從網頁抽取數據 存入資料庫

台風的編號和名稱直接在源碼中有,但時間和地理位置我只能跟蹤到
function totf(tfbh){
location.href( "Typhoon.aspx?id="+tfbh);
}
數據需要從aspx中拿到的,應該是存放到資料庫的,頁面上是拿不到的

我認為可以通過循環模擬發送請求Typhoon.aspx?id="+XXX,然後通過解析response包的方式可以獲得詳細的信息

下面一個頁面是講模擬發送請求的
http://tis2005.javaeye.com/blog/195544
希望對你有幫助

我寫了一段獲得一組數據的代碼

//get Typhoon content by param
public static String getTyphoon(String param) {
URL url = null;
try {
url = new URL(param);
} catch (MalformedURLException e) {
e.printStackTrace();
}

HttpURLConnection connection = null;
InputStream is = null;
try {
connection = (HttpURLConnection) url.openConnection();
is = connection.getInputStream();
} catch (IOException e) {
e.printStackTrace();
}

BufferedInputStream bis = new BufferedInputStream(is);

int len = 0;
byte[] buf_all = new byte[0];
try {
while (true) {
byte[] buf1 = new byte[4096];
byte[] buf2 = buf_all;
len = bis.read(buf1);
if(len <= 0){
break;
}
buf_all = new byte[len+buf2.length];
System.array(buf2, 0, buf_all, 0, buf2.length);
System.array(buf1, 0, buf_all, buf2.length, len);
}
} catch (IOException e) {
e.printStackTrace();
}

String content = null;
try {
content = new String(buf_all, "utf-8");
} catch (UnsupportedEncodingException e) {
e.printStackTrace();
}

int startIndex = content.indexOf("var ary0=")+9;
content = content.substring(startIndex);
int endIndex = content.indexOf("var aryyb0=");
content = content.substring(0, endIndex);

return content;
}

得到的結果是這樣的:
[['200906','2009-07-19 20:00:00','23.8','109.6','','15','','','260','','','54440','','莫拉菲','Molave','7'],
['200906','2009-07-19 15:00:00','23.5','111','993','15','25','西北西','260','','','54439','','莫拉菲','Molave','7'],
['200906','2009-07-19 14:00:00','23.3','111.2','','18','','','260','','','54438','','莫拉菲','Molave','8'],
['200906','2009-07-19 13:00:00','23.3','111.5','990','18','25','西北西','260','','','54437','','莫拉菲','Molave','8'],
['200906','2009-07-19 12:00:00','23.2','111.8','990','18','25','西北西','260','','','54436','','莫拉菲','Molave','8'],
['200906','2009-07-19 11:00:00','23.2','112.1','987','18','25','西北西','260','','','54435','','莫拉菲','Molave','8'],
['200906','2009-07-19 10:00:00','23.2','112.4','987','18','25','西北西','260','','','54434','','莫拉菲','Molave','8'],
['200906','2009-07-19 09:00:00','23','112.6','987','20','25','西北西','260','','','54433','','莫拉菲','Molave','8'],
['200906','2009-07-19 08:00:00','22.9','112.9','987','20','','','260','','','54432','','莫拉菲','Molave','8'],
['200906','2009-07-19 07:00:00','22.9','113.2','985','23','25','西北西','260','','','54431','','莫拉菲','Molave','9'],
['200906','2009-07-19 06:00:00','22.8','113.4','982','25','25','西北西','260','','','54430','','莫拉菲','Molave','10'],
['200906','2009-07-19 05:00:00','22.7','113.7','980','28','25','西北西','260','','','54429','','莫拉菲','Molave','10'],
['200906','2009-07-19 04:00:00','22.7','114','975','30','25','西北西','260','','','54428','','莫拉菲','Molave','11'],
['200906','2009-07-19 03:00:00','22.7','114.2','975','33','25','西北偏西','260','80','','54426','','莫拉菲','Molave','12'],
['200906','2009-07-19 02:00:00','22.6','114.5','','35','','','260','80','','54425','','莫拉菲','Molave','12'],
['200906','2009-07-19 01:00:00','22.5','114.5','970','35','28','西北西','260','80','','54424','','莫拉菲','Molave','12'],
['200906','2009-07-19 00:00:00','22.5','114.8','965','38','28','西北西','260','80','','54423','','莫拉菲','Molave','13'],
['200906','2009-07-18 23:00:00','22.4','115.1','','38','','','260','80','','54422','','莫拉菲','Molave','13'],
['200906','2009-07-18 22:00:00','22.3','115.5','965','38','25','西北西','260','80','','54421','','莫拉菲','Molave','13'],
['200906','2009-07-18 21:00:00','22.2','115.7','965','38','25','西北西','260','80','','54420','','莫拉菲','Molave','13'],
['200906','2009-07-18 20:00:00','22.2','116','','35','','','260','80','','54419','','莫拉菲','Molave','12'],
['200906','2009-07-18 19:00:00','22.2','116.2','970','35','25','西北偏西','260','80','','54418','','莫拉菲','Molave','12'],
['200906','2009-07-18 18:00:00','22.1','116.5','970','35','25','西北偏西','260','80','','54417','','莫拉菲','Molave','12'],
['200906','2009-07-18 17:00:00','22','116.7','970','35','25','西北西','260','80','','54416','','莫拉菲','Molave','12'],
['200906','2009-07-18 16:00:00','21.9','116.9','970','35','25','西北偏西','260','80','','54415','','莫拉菲','Molave','12'],
['200906','2009-07-18 15:00:00','21.8','117.1','970','35','25','西北偏西','260','80','','54414','','莫拉菲','Molave','12'],
['200906','2009-07-18 14:00:00','21.7','117.2','970','35','25','西北西','260','80','','54413','','莫拉菲','Molave','12'],
['200906','2009-07-18 13:00:00','21.7','117.4','970','35','25','西北西','260','80','','54412','','莫拉菲','Molave','12'],
['200906','2009-07-18 12:00:00','21.6','117.5','975','33','25','西北西','260','80','','54411','','莫拉菲','Molave','12'],
['200906','2009-07-18 11:00:00','21.6','117.7','975','33','25','西北西','260','80','','54410','','莫拉菲','Molave','12'],
['200906','2009-07-18 10:00:00','21.6','117.9','975','33','25','西北西','260','80','','54409','','莫拉菲','Molave','12'],
['200906','2009-07-18 09:00:00','21.5','118.2','975','33','25','西北西','260','80','','54408','','莫拉菲','Molave','12'],
['200906','2009-07-18 08:00:00','21.4','118.3','975','33','25','西北偏西','260','80','','54407','','莫拉菲','Molave','12'],
['200906','2009-07-18 07:00:00','21.4','118.5','975','33','25','西北西','260','80','','54406','','莫拉菲','Molave','12'],
['200906','2009-07-18 06:00:00','21.3','118.7','975','33','25','西北西','260','80','','54405','','莫拉菲','Molave','12'],
['200906','2009-07-18 05:00:00','21.2','119','975','33','','','260','60','','54404','','莫拉菲','Molave','12'],
['200906','2009-07-18 04:00:00','21.2','119.2','978','30','25','西北西','260','60','','54403','','莫拉菲','Molave','11'],
['200906','2009-07-18 03:00:00','21.1','119.4','978','30','25','西北偏西','260','60','','54402','','莫拉菲','Molave','11'],
['200906','2009-07-18 02:00:00','21','119.6','978','30','','','260','60','','54401','','莫拉菲','Molave','11'],
['200906','2009-07-18 01:00:00','21','120.1','978','30','25','西北偏西','260','60','','54400','','莫拉菲','Molave','11'],
['200906','2009-07-18 00:00:00','20.9','120.3','978','30','25','西北偏西','260','60','','54399','','莫拉菲','Molave','11'],
['200906','2009-07-17 23:00:00','20.8','120.5','978','30','20','西北偏西','260','60','','54398','','莫拉菲','Molave','11'],
['200906','2009-07-17 22:00:00','20.7','121','978','30','20','西北偏西','260','60','','54397','','莫拉菲','Molave','11'],
['200906','2009-07-17 21:00:00','20.7','121.2','978','30','20','西北偏西','260','60','','54396','','莫拉菲','Molave','11'],
['200906','2009-07-17 20:00:00','20.6','121.5','978','30','20','西北偏西','260','60','','54395','','莫拉菲','Molave','11'],
['200906','2009-07-17 19:00:00','20.4','121.8','980','28','20','西北西','260','60','','54394','','莫拉菲','Molave','10'],
['200906','2009-07-17 18:00:00','20.3','121.9','980','28','20','西北偏西','260','60','','54393','','莫拉菲','Molave','10'],
['200906','2009-07-17 17:00:00','20.2','122.1','980','28','20','西北偏西','200','50','','54392','','莫拉菲','Molave','10'],
['200906','2009-07-17 14:00:00','19.5','122.7','','25','','','200','50','','54391','','莫拉菲','Molave','10'],
['200906','2009-07-17 11:00:00','18.9','123.3','985','25','15','西北','200','50','','54390','','莫拉菲','Molave','10'],
['200906','2009-07-17 08:00:00','18.6','123.6','994','20','','','100','','','54389','','莫拉菲','Molave','8'],
['200906','2009-07-17 05:00:00','18.4','123.9','996','18','15','西北','100','','','54388','','莫拉菲','Molave','8'],
['200906','2009-07-17 02:00:00','17.9','124.1','996','18','15','西北','50','','','54387','','莫拉菲','Molave','8'],
['200906','2009-07-16 23:00:00','17.6','124.6','996','18','15','西北','','','','54386','','莫拉菲','Molave','8'],
['200906','2009-07-16 20:00:00','17.4','124.7','996','18','','','','','','54385','','莫拉菲','Molave','8']];

再下去字元串的拆分實在是太復雜了,不想寫了
使用時只要參數為http://www.wztf121.com/Typhoon.aspx?id=
id後是台風的代碼號,寫一個循環就可以了

⑹ 如何做一個完整的網站數據獲取,並寫入到sqlite資料庫

將這個
資料庫
x.db
放到
手機sd
卡裡面,然後
用eclipse
寫個

基於
sqllite
db
help
的子類
寫一些操作資料庫的方法,然後
在activity
裡面
定義個
listview
,調用
資料庫類中的數據顯示到list
view
裡面,ok
,發布
運行

⑺ 如何快速抓取別人網站內容到我的資料庫中

用正則匹配,然後就把匹配到的東西全部插入到自己的資料庫里。你看頁面的源碼,能找出規律寫出正則。

⑻ 如何從網頁上截取數據並錄入資料庫

那個你直接用「無敵點擊狗」軟體就能輕松完成,在無敵點擊狗里提供有自動錄入數據,自動批量填寫輸入,點擊按鍵模擬等,很方便的。

⑼ 怎麼用VBA或網路爬蟲程序抓取網站數據

ForeSpider數據採集系統是天津市前嗅網路科技有限公司自主知識產權的通用性互聯網數據採集軟體。軟體幾乎可以採集互聯網上所有公開的數據,通過可視化的操作流程,從建表、過濾、採集到入庫一步到位。支持正則表達式操作,更有強大的面向對象的腳本語言系統。
台式機單機採集能力可達4000-8000萬,日採集能力超過500萬。伺服器單機集群環境的採集能力可達8億-16億,日採集能力超過4000萬。並行情況下可支撐百億以上規模數據鏈接,堪與網路等搜索引擎系統媲美。
軟體特點:
一.通用性:可以抓取互聯網上幾乎100 %的數據
1.支持用戶登錄。
2.支持Cookie技術。
3.支持驗證碼識別。
4.支持HTTPS安全協議。
5.支持OAuth認證。
6.支持POST請求。
7.支持搜索欄的關鍵詞搜索採集。
8.支持JS動態生成頁面採集。
9.支持IP代理採集。
10.支持圖片採集。
11.支持本地目錄採集。
12.內置面向對象的腳本語言系統,配置腳本可以採集幾乎100%的互聯網信息。

二.高質量數據:精準採集所需數據
1.獨立知識產權JS引擎,精準採集。
2.內部集成資料庫,數據直接採集入庫。
3.內部創建數據表結構,抓取數據後直接存入資料庫相應欄位。
4.根據dom結構自動過濾無關信息。
5.通過模板配置鏈接抽取和數據抽取,目標網站的所有可見內容均可採集,智能過濾無關信息。
6.採集前數據可預覽採集,隨時調整模板配置,提升數據精度和質量。
7.欄位的數據支持多種處理方式。
8.支持正則表達式,精準處理數據。
9.支持腳本配置,精確處理欄位的數據。

三.高性能:千萬級的採集速度
1.C++編寫的爬蟲,具備絕佳採集性能。
2.支持多線程採集。
3.台式機單機採集能力可達4000-8000萬,日採集能力超過500萬。
4.伺服器單機集群環境的採集能力可達8億-16億,日採集能力超過4000萬。
5.並行情況下可支撐百億以上規模數據鏈接,堪與網路等搜索引擎系統媲美。
6.軟體性能穩健,穩定性好。

四.簡易高效:節約70%的配置時間
1.完全可視化的配置界面,操作流程順暢簡易。
2.基本不需要計算機基礎,代碼薄弱人員也可快速上手,降低操作門檻,節省企業爬蟲工程師成本。
3.過濾採集入庫一步到位,集成表結構配置、鏈接過濾、欄位取值、採集預覽、數據入庫。
4.數據智能排重。
5.內置瀏覽器,欄位取值直接在瀏覽器上可視化定位。

五. 數據管理:多次排重
1. 內置資料庫,數據採集完畢直接存儲入庫。
2. 在軟體內部創建數據表和數據欄位,直接關聯資料庫。
3. 採集數據時配置數據模板,網頁數據直接存入對應數據表的相應欄位。
4. 正式採集之前預覽採集結果,有問題及時修正配置。
5. 數據表可導出為csv格式,在Excel工作表中瀏覽。
6. 數據可智能排除,二次清洗過濾。

六. 智能:智能模擬用戶和瀏覽器行為
1.智能模擬瀏覽器和用戶行為,突破反爬蟲限制。
2.自動抓取網頁的各類參數和下載過程的各類參數。
3.支持動態IP代理加速,智能過濾無效IP代理,提升代理的利用效率和採集質量。
4.支持動態調整數據抓取策略,多種策略讓您的數據無需重采,不再擔心漏采,數據採集更智能。
5.自動定時採集。
6.設置採集任務條數,自動停止採集。
7.設置文件大小閾值,自動過濾超大文件。
8.自由設置瀏覽器是否加速,自動過濾頁面的flash等無關內容。
9.智能定位欄位取值區域。
10.可以根據字元串特徵自動定位取值區域。
11.智能識別表格的多值,表格數據可以完美存入相應欄位。

七. 優質服務
1.數據採集完全在本地進行,保證數據安全性。
2.提供大量的各個網站配置模板在線下載,用戶可以自由導入導出。
3.升級後續不斷開發的更多功能。
4.更換2次綁定的計算機。
5.為用戶提供各類高端定製化服務,全方位來滿足用戶的數據需求。

⑽ 求代碼實現抓取網頁的標題和內容,並寫入資料庫

你這個就是相當於採集網頁的數據,然後把採集到的數據存入自己的資料庫,對吧?

閱讀全文

與網頁抓取並寫入資料庫相關的資料

熱點內容
inhealthapp連不上 瀏覽:611
腳本錯誤win10 瀏覽:790
mac廢紙簍文件找不到 瀏覽:160
語音文件為什麼打開是文本 瀏覽:945
後綴名為3ds的是什麼文件 瀏覽:848
怎麼注冊台灣app 瀏覽:973
找圖片去哪個網站 瀏覽:256
linux下的openvpn 瀏覽:887
ps存儲文件怎麼轉成ai格式 瀏覽:653
psd文件該用什麼工具查 瀏覽:15
天刀配置文件 瀏覽:218
唐氏篩查依據哪些數據做羊水穿刺 瀏覽:406
蘋果app一般多少錢啊 瀏覽:605
南昌西湖區哪裡有編程 瀏覽:107
iphone安裝widget 瀏覽:171
如何編輯加密pdf文件 瀏覽:28
designer教程 瀏覽:452
蘋果電腦app如何換賬號密碼 瀏覽:918
怎麼樣才能保留數據刪除軟體安卓 瀏覽:214
人機編程軟體哪個好用 瀏覽:236

友情鏈接