導航:首頁 > 數據分析 > 為什麼集搜客沒有ms數據台

為什麼集搜客沒有ms數據台

發布時間:2024-03-28 18:30:04

① 如何翻頁抓取網頁數據

我們在抓取數據時,通常不會只抓取網頁當前頁面的數據,往往都會繼續抓取翻頁後的數據。本文就為大家介紹,集搜客GooSeeker網路爬蟲如何在進行數據抓取時,自動抓取翻頁後的數據。

在MS謀數台的爬蟲路線工作台有三種線索方式可以實現自動抓取翻頁後的數據,分別是定點線索、記號線索、相對線索。本文主要介紹比較常用的記號線索。

一、完成抓取內容映射

理箱中創建抓取內容,並完成映射。

具體操作步驟如下:

在整理箱中創建抓取內容,並完成映射,選擇網頁上要抓取的內容映射到整理箱後,跳轉到爬蟲路線工作台設置翻頁線索。

做完抓取內容基本操作後,為了抓取網頁上所有相同產品的數據本規則還使用了樣例復制管理功能

二、創建翻頁線索

具體操作步驟如下:

跳轉到爬蟲路線工作台。

點擊新建,創建一條線索。

選擇線索類型,設置翻頁線索時通常選擇記號線索,本文主要介紹的就是記號線索。

勾選連貫抓取,表示在執行抓取任務時,爬蟲可以在同一個DS打數機窗口內抓取完當前頁面後直接跳轉到下一個頁面進行抓取。

勾選連貫抓取後,目標主題名自動填寫當前規則主題名,在本規則內不應修改,表示翻頁後繼續使用當前規則進行抓取。

具體操作步驟如下:

在爬蟲路線工作台中點擊定位選項。

線索定位選擇偏好class。

網頁結構中的@id屬性每個頁面不同的幾率較大,如果線索定位偏好@id,容易導致在後續的抓取中翻頁失敗。所以一般我們手工修改選擇較為穩定不變的@class屬性,作為線索定位的首選項。

具體操作步驟如下:

1.在網頁上點擊翻頁標志「下一頁」,會彈出該信息的定位提示框,通常是定位到模塊節點(即包含多個下層節點,可雙擊展開,例如A節點)
2.展開A節點,找到「下一頁」對應text節點(text節點即為文本節點)
3.點擊對應text節點會在顯示工作台中顯示。
在網頁結構窗口中找到,對應節點後,即開始進行線索映射。

具體操作步驟如下:

選擇對應節點進行記號映射,右擊對應的text節點,選擇線索映射後點擊記號映射,在可爬蟲路線工作台記號值中看到「下一頁」,記號定位編號顯示「下一頁」text在網頁結構窗口中的對應編號。

在做完記號映射之後,要進行線索定位映射,就是選擇包含記號標志的范圍進行映射。

具體操作步驟如下:

1.選擇線索定位區塊,線索定位的區塊一般是包含"下一頁"翻頁標志的區塊節點,也就是網頁上的翻頁區塊(在網頁結構窗口中點擊包含 「下一頁」翻頁標志的區塊節點,會在瀏覽器窗口中顯示)。
2.進行線索定位映射,右擊翻頁區塊節點,選擇線索映射→定位→線索1 。完成後定位編號會顯示翻頁區塊節點的定位編號。
這樣就完成了網站翻頁規則的定義,可以使用DS打數機進行翻頁數據抓取。

閱讀全文

與為什麼集搜客沒有ms數據台相關的資料

熱點內容
c獲取路徑下所有文件 瀏覽:478
win10列印機離線 瀏覽:503
cgetfiles過濾文件 瀏覽:325
linux修改swap 瀏覽:900
word文檔如何設置上下頁邊距 瀏覽:764
變聲專家安卓版 瀏覽:77
學什麼專業以後可以編程 瀏覽:965
雲盤下載文件怎麼移到U盤 瀏覽:434
為什麼數據打游戲經常460 瀏覽:374
有什麼陪玩app 瀏覽:928
如何編程人物移動 瀏覽:43
vector代碼實現 瀏覽:392
servu管理員密碼 瀏覽:9
js中修改class屬性的值 瀏覽:678
蘋果設備鎖怎麼解除 瀏覽:253
linux添加文件夾許可權 瀏覽:329
怎麼快速打開文件路徑 瀏覽:74
u盤文件夾為空win10 瀏覽:980
jsp網上購物系統源碼 瀏覽:135
微信色子表情啥意思 瀏覽:414

友情鏈接