python怎么爬js网站_如何用Python爬虫抓取JS动态筛选内容

『壹』如何用python爬取网站数据

这里简单介绍一下吧，以抓取网站静态、动态2种数据为慧返拍例，实验环境win10+python3.6+pycharm5.0，主要内容如下：

抓取网站静态数据（数据在网页源码中）：以糗事网络网站数据为例

1.这里假设我们抓取的数据如下，主要包括用户昵称、内容、好笑数和评论数这4个字段，如下：

对应的网页源码如下，包含我们所需要的数据：

2.对应网页结构，主要代码如下，很简单，主要用到requests+BeautifulSoup，其中requests用于请求页面，BeautifulSoup用于解析页面：

程序运行截图如下，已经成功爬取到数据：

抓取网站动态数据（数据不在网页源码中，json等文件中）：以人人贷网站数据为例

1.这里假设我们爬取的是债券数据，主要包括年利率世型、借款标题、期限、金额和进度这5个字段信息，截图如下：

打开网页源码中，可以发现数据不在网页源码中，按F12抓包分析时，才发现在一个json文件中，如下：

2.获取到json文件的url后，我们就可以爬取对应数据了，这里使用的包与上面类似，因为是json文件，所以还用了json这个包（解析json），主要内容如下：

程序运行截图如下，前羡已经成功抓取到数据：

至此，这里就介绍完了这2种数据的抓取，包括静态数据和动态数据。总的来说，这2个示例不难，都是入门级别的爬虫，网页结构也比较简单，最重要的还是要会进行抓包分析，对页面进行分析提取，后期熟悉后，可以借助scrapy这个框架进行数据的爬取，可以更方便一些，效率更高，当然，如果爬取的页面比较复杂，像验证码、加密等，这时候就需要认真分析了，网上也有一些教程可供参考，感兴趣的可以搜一下，希望以上分享的内容能对你有所帮助吧。

『贰』如何用Python爬虫抓取JS动态筛选内容

打开浏览器，以google chrome为例，输入你上面的网址。
然后按F12打开调试窗版口，然后尝试勾选左边某一个权选项，马上可以看到右边的调试窗口有东西输出。
找到第一个输出的行，点击header，可以看到每一个都是用的post方法。
所以只需要构造相应的header并post上去，就可以得到你想要的数据了。

而这个发放返回的是json数据，然后编码成dict格式提取出数据就可以了。

『叁』如何用python爬虫直接获取被js修饰过的网页Elements

对于这种动态加载的网站，建议使用第三方库selenium爬取。

它可以完全模拟浏览器，等待网站全部加载完成后再进行数据的自动获取。

对于主流的ChromeDriver、InternetExplorerDriver、FirefoxDriver、OperaDriver都支持，网站上的元素也支持多种选择器，如class、id、xpath等。

但是用习惯以后，对于这种非纯静态页面，离开selenium感觉就完全不会爬虫了。

『肆』如何用python爬取js动态生成内容的页面

抓取js动态生成的内容的页面有两种基本的解决方案

1用dryscrape库动态抓取页面
js脚本是通过浏览器来执行并返回信息的，所以，抓取js执行后的页面，一个最直接的方式就是用python模拟浏览器的行为。WebKit 是一个开源的浏览器引擎，python提供了许多库可以调用这个引擎，dryscrape便是其中之一，它调用webkit引擎来处理包含js等的网页！

2 selenium web测试框架

selenium是一个web测试框架，它允许调用本地的浏览器引擎发送网页请求，所以，它同样可以实现抓取页面的要求。

热点内容

微信你真列害图片大全发布：2025-04-27 02:21:19 浏览：49

jsin类型可以传数值吗发布：2025-04-27 02:15:29 浏览：532

win10文件从左边滑出发布：2025-04-27 02:15:28 浏览：53

win10关机后桌面文件丢失发布：2025-04-27 02:14:50 浏览：266

watch卸载自带应用程序发布：2025-04-27 02:14:11 浏览：292

有什么plc自学网站发布：2025-04-27 01:59:54 浏览：219

176纯金币假人版本发布：2025-04-27 01:57:33 浏览：334

红米note4微信计步代码发布：2025-04-27 01:57:28 浏览：259

站长之家有app吗发布：2025-04-27 01:56:53 浏览：912

office应用视频教程发布：2025-04-27 01:42:22 浏览：690

html数据库有哪些发布：2025-04-27 01:41:00 浏览：489

钢笔工具线不会变细发布：2025-04-27 01:24:49 浏览：762

access2010数据库上机发布：2025-04-27 01:08:57 浏览：686

flstudio录音教程发布：2025-04-27 01:08:19 浏览：457

图形编程软件哪个好用发布：2025-04-27 01:08:18 浏览：393

要怎么重新下载而且不保存数据发布：2025-04-27 01:03:47 浏览：188

手机软件下载后文件在哪发布：2025-04-27 00:55:21 浏览：515

日版苹果6黑解发布：2025-04-27 00:55:20 浏览：799

jsp中获取mac 发布：2025-04-27 00:50:13 浏览：617

导航:首页 > 编程语言 > python怎么爬js网站

python怎么爬js网站

与python怎么爬js网站相关的资料

友情链接