先來說說網站收集前的准備工作,首先要制定一個合理的計劃,怎樣去收集數據,從哪些方面去收集;整理收集到的數據又需要花多少時間;由於分析數據是重點,需要分析哪些方面的數據也需要提前整理出來;最後就是美化數據表格,讓自己分析出來的數據一目瞭然。
在我們開始收集數據的時候,很容易犯的一個錯誤就是看到什麼內容比較符合的就都收集下來,這樣的結果就是表格里的數據越來越多,到最後一看,連自己都暈了,密密麻麻的數據該怎麼整理和分析啊!其實我們在收集數據的時候可以先定一個簡單的標准,什麼樣的數據是我們需要的,什麼數據是不符合條件的,先作一個初步的判斷。
根據收集到的數據進行有計劃的採集工作,特別要注意,不要一次性採集過多。
Ⅱ 高手幫幫忙,怎樣採集網站信息請看一下補充說明
這還不簡單,用樂思網路採集系統,一下子就搞定了
Ⅲ 如何將別人網站信息採集到自己的網站
我都是用熊貓採集軟體的,只要設置一下就可以把其他網站的信息採集過來,還可以對採集內容自動進行簡單修改,像一些圖片、視頻一類的附件也可以復制過去,這款採集軟體還有詳細教程,你可以看下,很快就可以學會
Ⅳ 請問這種網頁我怎麼採集到內容啊
網頁採集專家 1.2.114
軟體大小:2.57 MB
軟體語言:簡體中文
軟體類別:國產軟體 / 試用版 / 網路輔助
運行環境:Win9x/Me/NT/2000/XP/2003
添加時間:2006-12-21 10:15:07
更新時間:2006-12-21 10:15:07
軟體添加:supermini
軟體評級:
會員級別:匿名用戶
聯 系 人:[email protected]
開 發 商:http://www.cnxiwang.com
下載統計:本日:0 本周:0 本月:0 總計:0
軟體簡介:
<<網頁採集專家》軟體是目前國內外最先進的信息採集軟體,可以將網際網路上的網站信息保存到用戶的本地資料庫中。適合任何access2000或sqlserver2000資料庫。它和一些同類軟體相比,具有:
1、兼容性強:「採集方」和「被採集方」都能適合任何網站,沒有模版限制,能自動分析數據表和欄位,甚至可以突破登陸限制。
2、採集速度快:目標搜索速度可達10萬條/時,採集速度可達3-4萬篇/時,而其他產品最多隻能達到5000篇/時。
3、不受空間的連接數限制。
4、操作簡便:只要觀看一次教程,即可操作。可以保存配置和導入配置。
5、純綠色軟體,大小隻有2.5M。
6、價格便宜:正式版只要300元,價格是其他產品的1/10。300元的價格=30000元的價值!
並具備以下功能:
1、連接資料庫:連接資料庫就像打開一個普通文檔一樣簡單。
2、分析資料庫:連接後,軟體能自動分析您資料庫的數據表和欄位,即使不懂資料庫的人也可以操作。
3、獲取目標:有手動、半自動、全自動三種方式可供選用,獲取有效目標URL方便快捷。
4、數據保存:數據邊採集邊自動保存到您的資料庫中。
5、斷點續采:信息採集任務可以在中斷後手動導出URL列表,導入後可從斷點開始繼續採集。
6、文件下載:可以「遠程抓圖」將採集到的圖片、SWF等下載保存到本地磁碟中。
7、結果分類:可以根據用戶定義的分類信息進行採集結果的自動分類。
8、結果替換:可以將採集的結果根據規則替換成你定義的內容。
9、網站登錄: 支持網站登錄,並支持網站Cookie,即使需要驗證碼才能登錄的網站也能輕松穿過。
10、瀏覽數據:直接可以瀏覽資料庫里的每條記錄。
11、執行SQL:通過執行SQL查詢語句,直接操縱資料庫,功能強大,無所不能。
http://down.xj139.com/Download.asp?ID=12224&sID=0
Ⅳ 請分別列舉出網路信息收集的主要工具和網路信息收集的途徑主要有哪些
掃描儀:(紙制材料掃描成圖片,利用ocr識別為文字)。
照相機:主要用於採集圖像信息。
攝像機:主要用於採集信息。
要理解網路信息採集系統要求從互聯網上對特定目標數據源或不特定目標數據源進行採集與監控,並對信息進行結構化抽取保存為本地結構化資料庫,然後按業務流程需求與其它模塊結合,導入與應用並服務於到電子行業平台。
互聯網數據採集與挖掘技術是指利用計算機軟體技術,針對定製的目標數據源,實時進行信息採集、抽取、挖掘、處理,從而為各種信息服務系統提供數據輸入,並按業務所需來進行數據發布、分析的整個過程。
(5)網站信息採集教程擴展閱讀:
可以做到:
實時而准確地採集國內外新聞,行業新聞,技術文章。
實時而准確地採集競爭對手以及供應商的新聞,人事,產品,價格等信息。
實時而准確地採集公共信源的商業情報(同行產品價格,競爭對手的用戶反饋,行業新聞)。
實時而准確地採集本企業的品牌以及競爭對手的品牌在各大搜索引擎中的結果。
實時而准確地採集各大行業論壇中的信息,從中了解消費者的需求與反饋,從而發現市場趨勢與商業機會。
准確地從網路公共信息中採集銷售線索,潛在客戶的資料。
Ⅵ CMS電影採集方法誰知道
這個我建議最復好是用一些現製成的軟體吧,既省事又可以增加效率,自己遍的要測這測那的,麻煩!
採集土豆、優酷視頻,就是先採集視頻的下載地址,再用批量下載工具下載,中間可能會有網站限制你IP的問題。
不過我感覺網上找的免費的採集軟體都不行,我自己也是在做採集
最好是用正規的,可以搞個試用版都比那些免費的好多了!
網路信息採集是信息化進程的重要步驟,所以又很多公司都在宣傳擁有**萬能採集、**採集器之類的軟體,但是這些都是應用層次比較淺的技術,甚多地方都是不能做的,就比如網站限制你採集等問題,真正要高端技術或者說成熟的產品,必定是那些在採集行業很專業的公司。國內在網路信息採集方面比較專業的是深圳的樂思軟體,你可以去他們網站找找看,可能又共享版,反正我們公司用的他們企業版是很好用的。
教程和網址 你自己搜下,他們公司的軟體教程下載頁面就有
Ⅶ 高分!求高手 網站信息採集源代碼或編程思路
思路:
RSS採集
相似演算法
聚類
分類
(一)原理
小偷程序實際上是通過了XML中的XMLHTTP組件調用其它網站上的網頁。比如新聞小偷程序,很多都是調用了sina的新聞網頁,並且對其中的html進行了一些替換,同時對廣告也進行了過濾。用小偷程序的優點有:無須維護網站,因為小偷程序中的數據來自其他網站,它將隨著該網站的更新而更新;可以節省伺服器資源,一般小偷程序就幾個文件,所有網頁內容都是來自其他網站。缺點有:不穩定,如果目標網站出錯,程序也會出錯,而且,如果目標網站進行升級維護,那麼小偷程序也要進行相應修改;速度,因為是遠程調用,速度和在本地伺服器上讀取數據比起來,肯定要慢一些。
(二)事例
以下是代碼片段:
下面就XMLHTTP在ASP中的應用做個簡單說明
〈%
』常用函數
』1、輸入url目標網頁地址,返回值getHTTPPage是目標網頁的html代碼
function getHTTPPage(url)
dim Http
set Http=server.createobject("MSXML2.XMLHTTP")
Http.open "GET",url,false
Http.send()
if Http.readystate〈〉4 then
exit function
end if
getHTTPPage=bytesToBSTR(Http.responseBody,"GB2312")
set http=nothing
if err.number〈〉0 then err.Clear
end function
』2、轉換亂瑪,直接用xmlhttp調用有中文字元的網頁得到的將是亂瑪,可以通過adodb.stream組件進行轉換
Function BytesToBstr(body,Cset)
dim objstream
set objstream = Server.CreateObject("adodb.stream")
objstream.Type = 1
objstream.Mode =3
objstream.Open
objstream.Write body
objstream.Position = 0
objstream.Type = 2
objstream.Charset = Cset
BytesToBstr = objstream.ReadText
objstream.Close
set objstream = nothing
End Function
』下面試著調用http://www.3doing.com/earticle/的html內容
Dim Url,Html
Url="http://www.3doing.com/earticle/"
Html = getHTTPPage(Url)
Response.write Html
%〉ASP小偷入門教程.....附qq天氣小偷源代碼
要做一名好的小偷有點難度:P,靈活運用XMLHTTP組件,你也可以做「小偷」
這里所說的「小偷」指的是在ASP中運用XML中的XMLHTTP組件提供的強大功能,把遠程網站上的數據(圖片,網頁及其他文件)抓取到本地,經過各種處理後顯示到頁面上或者存儲進資料庫的一類程序。你可以通過這種小偷程序,完成過去一些似乎完全不可能實現的任務,比如說把某個站的頁面偷梁換柱後變成自己的頁面,或者把某個站的一些數據(文章,圖片)保存到本地資料庫中加以利用。「小偷」的優點有:無須維護網站,因為小偷程序中的數據來自其他網站,它將隨著該網站的更新而更新;可以節省大量的伺服器資源,一般小偷程序就幾個文件,所有網頁內容都是來自其他網站。缺點在於:不穩定,如果目標網站出錯,程序也會出錯,而且,如果目標網站進行升級維護,那麼小偷程序也要進行相應修改;速度,因為是遠程調用,速度和在本地伺服器上讀取數據比起來,肯定要慢一些。怎麼樣,聽起來很神奇吧?我們現在就開始來學習一些「小偷」程序的入門知識吧!
我們拿個簡單點的東西來研究一下吧,QQ網站上的天氣預報程序
程序演示地址:http://www.colasky.com/weather.asp
源碼下載:http://www.colasky.com/weather.rar
代碼如下:
以下是代碼片段:
〈%
On Error Resume Next
Server.ScriptTimeOut=9999999
Function getHTTPPage(Path)
t = GetBody(Path)
getHTTPPage=BytesToBstr(t,"GB2312")
End function'首先,進行小偷程序的一些初始化設置,以上代碼的作用分別是忽略掉所有非致命性錯誤,把小偷程序的運行超時時間設置得很長(這樣不會出現運行超時的錯誤),轉換原來默認的UTF-8編碼轉換成GB2312編碼,否則直接用XMLHTTP組件調用有中文字元的網頁得到的將是亂碼。
以下是代碼片段:
Function GetBody(url)
on error resume next
Set Retrieval = CreateObject("Microsoft.XMLHTTP")
With Retrieval
.Open "Get", url, False, "", ""
.Send
GetBody = .ResponseBody
End With
Set Retrieval = Nothing
End Function
』然後調用XMLHTTP組件創建一個對象並進行初始化設置。
Function BytesToBstr(body,Cset)
dim objstream
set objstream = Server.CreateObject("adodb.stream")
objstream.Type = 1
objstream.Mode =3
objstream.Open
objstream.Write body
objstream.Position = 0
objstream.Type = 2
objstream.Charset = Cset
BytesToBstr = objstream.ReadText
objstream.Close
set objstream = nothing
End Function
Function Newstring(wstr,strng)
Newstring=Instr(lcase(wstr),lcase(strng))
if Newstring〈=0 then Newstring=Len(wstr)
End Function
』處理抓取回來的數據需要調用adodb.stream組件並進行初始化設置。%〉
』以下即為頁面顯示部分
〈%
Dim wstr,str,url,start,over,city
』定義一些需要使用到的變數
city = Request.QueryString("id")
』程序傳回的ID變數(即用戶選擇的城市)賦給id
url="http://appnews.qq.com/cgi-bin/news_qq_search?city="&city&""
』這里設置需要抓取的頁面地址,當然你也可以直接指定某個地址而不使用變數
wstr=getHTTPPage(url) ' 以下是代碼片段:
獲取指定頁面的全部數據
start=Newstring(wstr," ")
』這里設置需要處理的數據的頭部,這個變數應視不同情況而設置,具體內容可以通過查看需要抓取的頁面的源代碼來確定。因為在這個程序里我們需要抓取整個頁面,所以設置為頁面全部抓取。注意,設置的內容必須是頁面內容唯一的,不可以重復。
over=Newstring(wstr," ")
』和start相對應的就是需要處理的數據的尾部,同樣的,設置的內容必須是頁面中唯一的。
body=mid(wstr,start,over-start)
』設置顯示頁面的范圍
』下面就是動用乾坤挪移大法的時候了,通過replace可以用一些字元替換掉數據中指定的字元。
body = replace(body,"skin1","天氣預報")
body = replace(body,"http://appnews.qq.com/cgi-bin/news_qq_search?city","tianqi.asp?id")
』本程序中已經完成了替換的工作,如果有其他需要的話可以繼續進行類似的替換操作。
response.write body
%〉替換完需要修改的內容後,就可以把修改的內容顯示在頁面上了。至此程序結束
程序使用方法及結果:把上述代碼去掉說明部分後保存為tianqi.asp,上傳到支持ASP和XML的空間下,在瀏覽器中運行即可。你可以在在這個程序的基礎上進行進一步的界面美化或者程序優化。
以上只是一些關於XMLHTTP組件的初級應用,實際上它還能實現的功能還有很多,比如說保存遠程圖片到本地伺服器上,配合adodb.stream組件可以把獲取來的數據保存進資料庫。小偷的作用和使用范圍都很廣。但是不可以拿來做違法的事哦!
也許還有人要問了,這種「小偷」程序難道只是ASP的專利嗎?非也,PHP通過fopen函數一樣可以實現同樣的效果,由於PHP本身的各種特點,寫出來的小偷程序和ASP相比,在體積和執行效率上都有著明顯的優勢,但限於篇幅,這里就不一一說明了。