導航:首頁 > 數據分析 > 為什麼集搜客沒有ms數據台

為什麼集搜客沒有ms數據台

發布時間:2024-03-28 18:30:04

① 如何翻頁抓取網頁數據

我們在抓取數據時,通常不會只抓取網頁當前頁面的數據,往往都會繼續抓取翻頁後的數據。本文就為大家介紹,集搜客GooSeeker網路爬蟲如何在進行數據抓取時,自動抓取翻頁後的數據。

在MS謀數台的爬蟲路線工作台有三種線索方式可以實現自動抓取翻頁後的數據,分別是定點線索、記號線索、相對線索。本文主要介紹比較常用的記號線索。

一、完成抓取內容映射

理箱中創建抓取內容,並完成映射。

具體操作步驟如下:

在整理箱中創建抓取內容,並完成映射,選擇網頁上要抓取的內容映射到整理箱後,跳轉到爬蟲路線工作台設置翻頁線索。

做完抓取內容基本操作後,為了抓取網頁上所有相同產品的數據本規則還使用了樣例復制管理功能

二、創建翻頁線索

具體操作步驟如下:

跳轉到爬蟲路線工作台。

點擊新建,創建一條線索。

選擇線索類型,設置翻頁線索時通常選擇記號線索,本文主要介紹的就是記號線索。

勾選連貫抓取,表示在執行抓取任務時,爬蟲可以在同一個DS打數機窗口內抓取完當前頁面後直接跳轉到下一個頁面進行抓取。

勾選連貫抓取後,目標主題名自動填寫當前規則主題名,在本規則內不應修改,表示翻頁後繼續使用當前規則進行抓取。

具體操作步驟如下:

在爬蟲路線工作台中點擊定位選項。

線索定位選擇偏好class。

網頁結構中的@id屬性每個頁面不同的幾率較大,如果線索定位偏好@id,容易導致在後續的抓取中翻頁失敗。所以一般我們手工修改選擇較為穩定不變的@class屬性,作為線索定位的首選項。

具體操作步驟如下:

1.在網頁上點擊翻頁標志「下一頁」,會彈出該信息的定位提示框,通常是定位到模塊節點(即包含多個下層節點,可雙擊展開,例如A節點)
2.展開A節點,找到「下一頁」對應text節點(text節點即為文本節點)
3.點擊對應text節點會在顯示工作台中顯示。
在網頁結構窗口中找到,對應節點後,即開始進行線索映射。

具體操作步驟如下:

選擇對應節點進行記號映射,右擊對應的text節點,選擇線索映射後點擊記號映射,在可爬蟲路線工作台記號值中看到「下一頁」,記號定位編號顯示「下一頁」text在網頁結構窗口中的對應編號。

在做完記號映射之後,要進行線索定位映射,就是選擇包含記號標志的范圍進行映射。

具體操作步驟如下:

1.選擇線索定位區塊,線索定位的區塊一般是包含"下一頁"翻頁標志的區塊節點,也就是網頁上的翻頁區塊(在網頁結構窗口中點擊包含 「下一頁」翻頁標志的區塊節點,會在瀏覽器窗口中顯示)。
2.進行線索定位映射,右擊翻頁區塊節點,選擇線索映射→定位→線索1 。完成後定位編號會顯示翻頁區塊節點的定位編號。
這樣就完成了網站翻頁規則的定義,可以使用DS打數機進行翻頁數據抓取。

閱讀全文

與為什麼集搜客沒有ms數據台相關的資料

熱點內容
52好壓右鍵沒有壓縮文件選項 瀏覽:98
avi什麼類型的文件格式 瀏覽:418
分區表與文件系統 瀏覽:786
獲得文件夾路徑的對話框 瀏覽:179
弟子規哪個版本的好 瀏覽:423
二手蘋果6p的價格 瀏覽:111
微信公眾號版頭設計 瀏覽:917
jdk18讀取配置文件 瀏覽:72
優化關鍵字挖掘工具 瀏覽:672
markdown代碼塊語法 瀏覽:249
arcgis面文件屬性 瀏覽:43
當數據都帶有標准差如何計算 瀏覽:936
聲音挑選程序掃描本地 瀏覽:57
編程語言中如何拼接兩個字串符 瀏覽:482
工地數據中心包括哪些 瀏覽:972
人工成本分析工具 瀏覽:565
蘋果qq群文件在哪裡 瀏覽:724
產品和單位成本分析後有哪些數據 瀏覽:144
日語教程軟體 瀏覽:99
有哪些事業編制的app 瀏覽:89

友情鏈接