導航:首頁 > 文件教程 > 採集規則視頻詳細教程

採集規則視頻詳細教程

發布時間:2024-08-03 00:39:38

1. 怎麼採集網頁中所有的我想要的視頻鏈接

八爪魚可以批量採集網頁中視頻的下載地址;再使用網頁視頻下載器下載視頻。

網頁中視頻url採集

創建翻頁循環

進入採集規則設置界面,將視頻網站的URL輸入到地址欄,如圖點擊右側的按鈕,

在八爪魚採集器的內置瀏覽器中打開該網頁

將視頻URL導出後,使用視頻URL批量下載工具將視頻下載出來就完成了。

2. 如何獲取視頻網站規則

獲取視頻網站規則的步驟如下。
第一步、確定獲取的網站。
第二步、確定被獲取站的編碼。打開被獲取的網頁之後,查看源代碼(IE:查看-源代碼),在之間找到charset這個,後面就顯示網頁的編碼了。
第三步、採集列表獲取規則寫法。來源網址寫法,很明顯pageno是表示分頁頁碼那麼有多頁列表的採集就要用「[var:分頁]」來替換分頁頁碼。文章網址需包含、網址不能包含這兩個一般不用寫,用於採集列表范圍有很多不需要的連接才用到他來做過濾使用。如果只有一個列表頁,那麼在來源網址就直接寫上網址就OK了。注意這里,最關鍵就是這里。下面就是「採集獲取文章列表的規則寫法」,就是上面打開的被採集頁面的源代碼文件,找到文章列表之前和本頁面沒有其他相同的代碼。
第四步、獲取文章標題,文章內容,文章作者,文章來源等規則寫法,分頁採集等。「起始HTML」和「結束HTML」寫法參考第三步中的「獲取列表的規則寫法」。完成上面操作了,保存後點「測試」,再點「採集」,採集完成後就導出到你的欄目就OK了。完畢。

3. bilibili(1)-爬取視頻信息進行數據分析

感謝@雄哥和@遜哥的幫助才得以完成這篇文章,不然,還不知怎麼應對IP限制。
項目地址: https://github.com/UranusLee/bilibili_spider

通過chrome可以看出來B站視頻統計信息是通過js載入,打開開發者工具可以到stat?aid=31的json文件。

再分析json文件的載入方式,基本可以得到所需要的headers參數。

因為之前一直都在爬取豆瓣、知乎、拉勾這些有特殊headers的網站,所以,為了省事,還是全部headers都加上。

進行爬取的時候,發生了一點問題,通過不斷測試,基本可以斷定B站有IP訪問限制,基本上是1分鍾150次以下不會封IP,封閉IP一次為5分鍾,所以考慮用代理IP,拿著買好的穩定的IP,刻不容緩的加入進來。

總共爬取下來710多W條數據,用了三四天的時間,期間網路斷掉,或者IP地址停用,一直耽擱,之所以不準備繼續下去是因為數據還准備做一個B站每年數據分析,所以選用了aid=11883351這條數據作為截止可以比較好的對應上每年7月初的一個數據對比分析

發現有播放數為-1的值,總共占數據總量的2%,故而刪除。

可以看出基本上播放量,彈幕,評論回復,收藏,硬幣,分享基本就是長尾數據,有大量的小數值的數據,但是整體的平均值受極值的影響較大。相比較而言view播放量更加有研究性。

1.播放量佔比分析

總共分為<500,500-1000,1000-5000,5000-20000,>20000。
播放量整體還是大量的淹沒視頻,播放量小於500的達到了整體視頻的48.8%,而播放量20000以上的只佔到5.4%,按照「二八原則」,視頻達到3338以上的播放量即達到B站視頻實際效用的界限。

2.分年份分析B站視頻增長速度

以每年7月份為周期分析

通過aid可以查到所有爬下的數據所屬的時間,再按照概率分析大概的時間就可以得出每一年7月份的視頻量。

整體的視頻數量增長速度實際上是大致按照每年翻倍的速度來增長,整體增長曲線拋開10-11年,整體增長平和。

2010-2011年之間,必定是發生了事才會導致視頻量突增,才會導致視頻總量增長率超過800%。通過查詢,基本確實如之前所假設一樣,10年因為Ac fun(A站)確實發生了嚴重的幾次彈幕沖突,A站關閉了彈幕系統,加上很多人打出「ACG滾出ac」的標語,大量的A站up主轉移至B站,開始了B站的逆襲。

14年一年視頻增長率唯一一次跌至94%,是因為14年動畫版權問題,禁止了私自上傳動畫,視頻量比預期下跌了大概8W左右。今年更加誇張的是2018年還沒有到07月份,視頻總量已經達到2200W左右。

3.參與率分析用戶活躍度

彈幕成本是最低的,大概平均27.8人次觀看,就會出現一次彈幕(包括非會員的觀看次數,但是無法發彈幕,提高了彈幕成本),分享成本不僅僅是會員,非會員沒有登陸也可以分享,這確實42.58人次的成本僅僅高於彈幕成本,說明B站整體視頻風格更加多元化。121.58的投幣成本受限於B站的投幣系統,B幣少,並且獲得有難度,導致投幣成本遠高於其他幾項。

4.投幣分析

B站投幣有「不牛不投,不服不投」的潛性規則,往往一個視頻的投幣量可以反應視頻的質量和B站的流行趨勢。
排名第一的是 【嗶哩嗶哩2017拜年祭】 ,94.1W投幣
排名第二的是 【古箏】千本櫻——你可見過如此兇殘的練習曲 ,79.6W投幣
排名第三的是 【嗶哩嗶哩2016拜年祭】 ,77.2W投幣
然後是敖廠長的兩連擊
【敖廠長】讓你耳朵懷孕的FC游戲 ,74.6W投幣
【敖廠長】打臉!魂斗羅水下八關存在 ,73.0W投幣

其實可以看出前三名中,兩次拜年祭以及用戶群體的自發投幣,整個拜年祭已經成為B站文化的一部分,是每年最核心的一部分。當然也不缺乏敖廠長這種良心up主,每一次對於過往游戲的解疑和介紹,還有那無所不能的哥們,宅男但不失真心,牛逼但非常人親。

文化的多元化才是整個B站撐起一片天的本質原因,我曾經在B站中過《極樂凈土》的毒,看過外國人在中國成了網紅,聽過古箏彈奏魂斗羅、彈奏日本電音。這是一個大熔爐,每個人都可以找到自己喜歡的東西,我突然想起了廣告模塊的一個高分視頻,彈幕量只有300,但是播放量有2000多萬次,我不知道是B站運營人員清空了一部分的彈幕和評論,但是一個廣告在B站,在這個無數個平時看都不看廣告的年輕人,能夠看上2000多萬次,幾乎人均一次。我才覺得我真正的知道。

----------------------------------------------------分割線-------------------------------------------
數據分析的部分有點意猶未盡,今天實在是困了,今天稍晚或者明天會繼續對於B站各個模塊繼續進行深挖,包括彈幕的語義分析、通過彈幕揣摩劇情、哪種視頻可以火、up主的影響力、視頻質量建模等。

閱讀全文

與採集規則視頻詳細教程相關的資料

熱點內容
ps入門必備文件 瀏覽:348
以前的相親網站怎麼沒有了 瀏覽:15
蘋果6耳機聽歌有滋滋聲 瀏覽:768
怎麼徹底刪除linux文件 瀏覽:379
編程中字體的顏色是什麼意思 瀏覽:534
網站關鍵詞多少個字元 瀏覽:917
匯川am系列用什麼編程 瀏覽:41
筆記本win10我的電腦在哪裡打開攝像頭 瀏覽:827
醫院單位基本工資去哪個app查詢 瀏覽:18
css源碼應該用什麼文件 瀏覽:915
編程ts是什麼意思呢 瀏覽:509
c盤cad佔用空間的文件 瀏覽:89
不銹鋼大小頭模具如何編程 瀏覽:972
什麼格式的配置文件比較主流 瀏覽:984
增加目錄word 瀏覽:5
提取不相鄰兩列數據如何做圖表 瀏覽:45
r9s支持的網路制式 瀏覽:633
什麼是提交事務的編程 瀏覽:237
win10打字卡住 瀏覽:774
linux普通用戶關機 瀏覽:114

友情鏈接