『壹』 4種Python爬蟲(3. 微信小程序,如,超級猩猩)
目錄:
1. PC網頁爬蟲
2. H5網頁爬蟲
3. 微信小程序爬蟲
4. 手機APP爬蟲
爬取超級猩猩的課表,該平台僅提供了微信小程序這一個途徑,前面兩種針對html網頁的爬取方式都不再適用。
採用抓包分析是我們制定方案的第一步。
我用的Mac電腦,fiddler只有一個簡化版,所以另找了Charles這個類似的軟體。啟動Charles的代理,在手機WIFI中設置好對應的代理就可以開抓了。但是,抓到的https包的內容都是亂碼,咋辦?
Charles中提供了ssl證書,在手機端安裝證書即可。推薦使用iPhone,直接安裝描述文件即可。Android手機必須使用系統版本在7.0以下的才行,7.0以上還需要反編譯什麼的,太麻煩了。
很容易的定位到了超級猩猩微信小程序載入課表的後台介面。拿這個URL在瀏覽器里訪問試試,直接返回了json結果!超級猩猩很友好!
提取對應的URL,放到瀏覽器中驗證,也可以支持返回json包,剩下就是分析一下這個json的數據結構,按照需要的方式導出了。
直接通過介面的爬取效率非常高,幾秒鍾就拉取了全國各個門店的排課,相當舒心。(下圖的錄屏沒有進行加速)
最後一個挑戰就是對只有Android/iOS的APP端應用數據的爬取。請看下一章
請點擊: <下一頁>
『貳』 4種Python爬蟲(4. 手機APP,如,樂刻運動)
目錄:
1. PC網頁爬蟲
2. H5網頁爬蟲
3. 微信小程序爬蟲
4. 手機APP爬蟲
爬取樂刻運動手機APP的課表數據。Android和iOS都可以。
要制定具體方案,還是要從抓包分析開始。
如果你在前一章《三、微信小程序爬蟲》中已經搭建好了Charles+iPhone的抓包環境,可以直接啟動「樂刻APP」再來抓一波。
LefitAppium.py
LefitMitmAddon.py
接下來就是見證奇跡的時刻了!
可以看到左側的手機已經自動跑起來了!
所有流過的數據都盡在掌握!
這個方案的適應能力非常強,不怕各種反爬蟲機制。
但是如果要去爬取淘寶、攜程等海量數據時,肯定也是力不從心。
『叄』 微信小程序爬蟲和網頁爬蟲的區別
微信小程序爬蟲和網頁爬蟲的抓包工具不同。根據查詢相關資料信息,網頁版可以使用瀏覽器F12抓包,微信小程序需要採用抓包工具如charles抓包。