导航:首页 > 文件教程 > 采集规则视频详细教程

采集规则视频详细教程

发布时间:2024-08-03 00:39:38

1. 怎么采集网页中所有的我想要的视频链接

八爪鱼可以批量采集网页中视频的下载地址;再使用网页视频下载器下载视频。

网页中视频url采集

创建翻页循环

进入采集规则设置界面,将视频网站的URL输入到地址栏,如图点击右侧的按钮,

在八爪鱼采集器的内置浏览器中打开该网页

将视频URL导出后,使用视频URL批量下载工具将视频下载出来就完成了。

2. 如何获取视频网站规则

获取视频网站规则的步骤如下。
第一步、确定获取的网站。
第二步、确定被获取站的编码。打开被获取的网页之后,查看源代码(IE:查看-源代码),在之间找到charset这个,后面就显示网页的编码了。
第三步、采集列表获取规则写法。来源网址写法,很明显pageno是表示分页页码那么有多页列表的采集就要用“[var:分页]”来替换分页页码。文章网址需包含、网址不能包含这两个一般不用写,用于采集列表范围有很多不需要的连接才用到他来做过滤使用。如果只有一个列表页,那么在来源网址就直接写上网址就OK了。注意这里,最关键就是这里。下面就是“采集获取文章列表的规则写法”,就是上面打开的被采集页面的源代码文件,找到文章列表之前和本页面没有其他相同的代码。
第四步、获取文章标题,文章内容,文章作者,文章来源等规则写法,分页采集等。“起始HTML”和“结束HTML”写法参考第三步中的“获取列表的规则写法”。完成上面操作了,保存后点“测试”,再点“采集”,采集完成后就导出到你的栏目就OK了。完毕。

3. bilibili(1)-爬取视频信息进行数据分析

感谢@雄哥和@逊哥的帮助才得以完成这篇文章,不然,还不知怎么应对IP限制。
项目地址: https://github.com/UranusLee/bilibili_spider

通过chrome可以看出来B站视频统计信息是通过js加载,打开开发者工具可以到stat?aid=31的json文件。

再分析json文件的加载方式,基本可以得到所需要的headers参数。

因为之前一直都在爬取豆瓣、知乎、拉勾这些有特殊headers的网站,所以,为了省事,还是全部headers都加上。

进行爬取的时候,发生了一点问题,通过不断测试,基本可以断定B站有IP访问限制,基本上是1分钟150次以下不会封IP,封闭IP一次为5分钟,所以考虑用代理IP,拿着买好的稳定的IP,刻不容缓的加入进来。

总共爬取下来710多W条数据,用了三四天的时间,期间网络断掉,或者IP地址停用,一直耽搁,之所以不准备继续下去是因为数据还准备做一个B站每年数据分析,所以选用了aid=11883351这条数据作为截止可以比较好的对应上每年7月初的一个数据对比分析

发现有播放数为-1的值,总共占数据总量的2%,故而删除。

可以看出基本上播放量,弹幕,评论回复,收藏,硬币,分享基本就是长尾数据,有大量的小数值的数据,但是整体的平均值受极值的影响较大。相比较而言view播放量更加有研究性。

1.播放量占比分析

总共分为<500,500-1000,1000-5000,5000-20000,>20000。
播放量整体还是大量的淹没视频,播放量小于500的达到了整体视频的48.8%,而播放量20000以上的只占到5.4%,按照“二八原则”,视频达到3338以上的播放量即达到B站视频实际效用的界限。

2.分年份分析B站视频增长速度

以每年7月份为周期分析

通过aid可以查到所有爬下的数据所属的时间,再按照概率分析大概的时间就可以得出每一年7月份的视频量。

整体的视频数量增长速度实际上是大致按照每年翻倍的速度来增长,整体增长曲线抛开10-11年,整体增长平和。

2010-2011年之间,必定是发生了事才会导致视频量突增,才会导致视频总量增长率超过800%。通过查询,基本确实如之前所假设一样,10年因为Ac fun(A站)确实发生了严重的几次弹幕冲突,A站关闭了弹幕系统,加上很多人打出“ACG滚出ac”的标语,大量的A站up主转移至B站,开始了B站的逆袭。

14年一年视频增长率唯一一次跌至94%,是因为14年动画版权问题,禁止了私自上传动画,视频量比预期下跌了大概8W左右。今年更加夸张的是2018年还没有到07月份,视频总量已经达到2200W左右。

3.参与率分析用户活跃度

弹幕成本是最低的,大概平均27.8人次观看,就会出现一次弹幕(包括非会员的观看次数,但是无法发弹幕,提高了弹幕成本),分享成本不仅仅是会员,非会员没有登陆也可以分享,这确实42.58人次的成本仅仅高于弹幕成本,说明B站整体视频风格更加多元化。121.58的投币成本受限于B站的投币系统,B币少,并且获得有难度,导致投币成本远高于其他几项。

4.投币分析

B站投币有“不牛不投,不服不投”的潜性规则,往往一个视频的投币量可以反应视频的质量和B站的流行趋势。
排名第一的是 【哔哩哔哩2017拜年祭】 ,94.1W投币
排名第二的是 【古筝】千本樱——你可见过如此凶残的练习曲 ,79.6W投币
排名第三的是 【哔哩哔哩2016拜年祭】 ,77.2W投币
然后是敖厂长的两连击
【敖厂长】让你耳朵怀孕的FC游戏 ,74.6W投币
【敖厂长】打脸!魂斗罗水下八关存在 ,73.0W投币

其实可以看出前三名中,两次拜年祭以及用户群体的自发投币,整个拜年祭已经成为B站文化的一部分,是每年最核心的一部分。当然也不缺乏敖厂长这种良心up主,每一次对于过往游戏的解疑和介绍,还有那无所不能的哥们,宅男但不失真心,牛逼但非常人亲。

文化的多元化才是整个B站撑起一片天的本质原因,我曾经在B站中过《极乐净土》的毒,看过外国人在中国成了网红,听过古筝弹奏魂斗罗、弹奏日本电音。这是一个大熔炉,每个人都可以找到自己喜欢的东西,我突然想起了广告模块的一个高分视频,弹幕量只有300,但是播放量有2000多万次,我不知道是B站运营人员清空了一部分的弹幕和评论,但是一个广告在B站,在这个无数个平时看都不看广告的年轻人,能够看上2000多万次,几乎人均一次。我才觉得我真正的知道。

----------------------------------------------------分割线-------------------------------------------
数据分析的部分有点意犹未尽,今天实在是困了,今天稍晚或者明天会继续对于B站各个模块继续进行深挖,包括弹幕的语义分析、通过弹幕揣摩剧情、哪种视频可以火、up主的影响力、视频质量建模等。

阅读全文

与采集规则视频详细教程相关的资料

热点内容
ps入门必备文件 浏览:348
以前的相亲网站怎么没有了 浏览:15
苹果6耳机听歌有滋滋声 浏览:768
怎么彻底删除linux文件 浏览:379
编程中字体的颜色是什么意思 浏览:534
网站关键词多少个字符 浏览:917
汇川am系列用什么编程 浏览:41
笔记本win10我的电脑在哪里打开摄像头 浏览:827
医院单位基本工资去哪个app查询 浏览:18
css源码应该用什么文件 浏览:915
编程ts是什么意思呢 浏览:509
c盘cad占用空间的文件 浏览:89
不锈钢大小头模具如何编程 浏览:972
什么格式的配置文件比较主流 浏览:984
增加目录word 浏览:5
提取不相邻两列数据如何做图表 浏览:45
r9s支持的网络制式 浏览:633
什么是提交事务的编程 浏览:237
win10打字卡住 浏览:774
linux普通用户关机 浏览:114

友情链接