1. 怎麼採集網頁中所有的我想要的視頻鏈接
八爪魚可以批量採集網頁中視頻的下載地址;再使用網頁視頻下載器下載視頻。
網頁中視頻url採集
創建翻頁循環
進入採集規則設置界面,將視頻網站的URL輸入到地址欄,如圖點擊右側的按鈕,
在八爪魚採集器的內置瀏覽器中打開該網頁
將視頻URL導出後,使用視頻URL批量下載工具將視頻下載出來就完成了。
2. 如何獲取視頻網站規則
獲取視頻網站規則的步驟如下。
第一步、確定獲取的網站。
第二步、確定被獲取站的編碼。打開被獲取的網頁之後,查看源代碼(IE:查看-源代碼),在
3. bilibili(1)-爬取視頻信息進行數據分析
感謝@雄哥和@遜哥的幫助才得以完成這篇文章,不然,還不知怎麼應對IP限制。
項目地址: https://github.com/UranusLee/bilibili_spider
通過chrome可以看出來B站視頻統計信息是通過js載入,打開開發者工具可以到stat?aid=31的json文件。
再分析json文件的載入方式,基本可以得到所需要的headers參數。
因為之前一直都在爬取豆瓣、知乎、拉勾這些有特殊headers的網站,所以,為了省事,還是全部headers都加上。
進行爬取的時候,發生了一點問題,通過不斷測試,基本可以斷定B站有IP訪問限制,基本上是1分鍾150次以下不會封IP,封閉IP一次為5分鍾,所以考慮用代理IP,拿著買好的穩定的IP,刻不容緩的加入進來。
總共爬取下來710多W條數據,用了三四天的時間,期間網路斷掉,或者IP地址停用,一直耽擱,之所以不準備繼續下去是因為數據還准備做一個B站每年數據分析,所以選用了aid=11883351這條數據作為截止可以比較好的對應上每年7月初的一個數據對比分析
發現有播放數為-1的值,總共占數據總量的2%,故而刪除。
可以看出基本上播放量,彈幕,評論回復,收藏,硬幣,分享基本就是長尾數據,有大量的小數值的數據,但是整體的平均值受極值的影響較大。相比較而言view播放量更加有研究性。
1.播放量佔比分析
總共分為<500,500-1000,1000-5000,5000-20000,>20000。
播放量整體還是大量的淹沒視頻,播放量小於500的達到了整體視頻的48.8%,而播放量20000以上的只佔到5.4%,按照「二八原則」,視頻達到3338以上的播放量即達到B站視頻實際效用的界限。
2.分年份分析B站視頻增長速度
以每年7月份為周期分析
通過aid可以查到所有爬下的數據所屬的時間,再按照概率分析大概的時間就可以得出每一年7月份的視頻量。
整體的視頻數量增長速度實際上是大致按照每年翻倍的速度來增長,整體增長曲線拋開10-11年,整體增長平和。
2010-2011年之間,必定是發生了事才會導致視頻量突增,才會導致視頻總量增長率超過800%。通過查詢,基本確實如之前所假設一樣,10年因為Ac fun(A站)確實發生了嚴重的幾次彈幕沖突,A站關閉了彈幕系統,加上很多人打出「ACG滾出ac」的標語,大量的A站up主轉移至B站,開始了B站的逆襲。
14年一年視頻增長率唯一一次跌至94%,是因為14年動畫版權問題,禁止了私自上傳動畫,視頻量比預期下跌了大概8W左右。今年更加誇張的是2018年還沒有到07月份,視頻總量已經達到2200W左右。
3.參與率分析用戶活躍度
彈幕成本是最低的,大概平均27.8人次觀看,就會出現一次彈幕(包括非會員的觀看次數,但是無法發彈幕,提高了彈幕成本),分享成本不僅僅是會員,非會員沒有登陸也可以分享,這確實42.58人次的成本僅僅高於彈幕成本,說明B站整體視頻風格更加多元化。121.58的投幣成本受限於B站的投幣系統,B幣少,並且獲得有難度,導致投幣成本遠高於其他幾項。
4.投幣分析
B站投幣有「不牛不投,不服不投」的潛性規則,往往一個視頻的投幣量可以反應視頻的質量和B站的流行趨勢。
排名第一的是 【嗶哩嗶哩2017拜年祭】 ,94.1W投幣
排名第二的是 【古箏】千本櫻——你可見過如此兇殘的練習曲 ,79.6W投幣
排名第三的是 【嗶哩嗶哩2016拜年祭】 ,77.2W投幣
然後是敖廠長的兩連擊
【敖廠長】讓你耳朵懷孕的FC游戲 ,74.6W投幣
【敖廠長】打臉!魂斗羅水下八關存在 ,73.0W投幣
其實可以看出前三名中,兩次拜年祭以及用戶群體的自發投幣,整個拜年祭已經成為B站文化的一部分,是每年最核心的一部分。當然也不缺乏敖廠長這種良心up主,每一次對於過往游戲的解疑和介紹,還有那無所不能的哥們,宅男但不失真心,牛逼但非常人親。
文化的多元化才是整個B站撐起一片天的本質原因,我曾經在B站中過《極樂凈土》的毒,看過外國人在中國成了網紅,聽過古箏彈奏魂斗羅、彈奏日本電音。這是一個大熔爐,每個人都可以找到自己喜歡的東西,我突然想起了廣告模塊的一個高分視頻,彈幕量只有300,但是播放量有2000多萬次,我不知道是B站運營人員清空了一部分的彈幕和評論,但是一個廣告在B站,在這個無數個平時看都不看廣告的年輕人,能夠看上2000多萬次,幾乎人均一次。我才覺得我真正的知道。
----------------------------------------------------分割線-------------------------------------------
數據分析的部分有點意猶未盡,今天實在是困了,今天稍晚或者明天會繼續對於B站各個模塊繼續進行深挖,包括彈幕的語義分析、通過彈幕揣摩劇情、哪種視頻可以火、up主的影響力、視頻質量建模等。