目标抓取网站上的妹子照片。第三方模块superagent:第三方Nodejs模块,用于处理服务器和客户端的Http请求。cheerio:为服务器端定制的Jquery实现。思路通过superagent获取目标网站的dom通过cheerio对dom进行解析,获得通用布局。如
B. Node.js怎么安装
在linux中安装nodejs方法如下:
通过 uname -a 命令查看到我的Linux系统位数是64位(备注:x86_64表示64位系统, i686 i386表示32位系统),如图
C. 如何利用node解决seo问题
NodeJS在SEO中的应用:快速采集分析页面
一、安装
网上有很多的教程,下载到https://nodejs.org,在Win系统下运行就可以搭上一个环境。下载Windows的Installer版本,双击安装,就成功了。
然后配置神器Sublime开始使用。
为Sublime添加实时调试运行,打开Sublime-》Tools-》Build System-》New Build System
在新打开的文件中写入下面的代码
然后保存为NodeJS.sublime-build.
新建一个采集.js文件,设为NodeJS进行运行调试。
二、注意
在nodejs里面需要require(库名)的方式来引用一些外部的库,这些外部的库安装NodeJS的时候,已经放在C盘的programfiles下面了。但是直接require是无效的。
因为NodeJS提倡的是自己的代码用自己的库,所以还需要把库复制到采集.js这个文件下面。
引用的时候可以通过npm link 库名的方式,来把系统C盘的库引用到我们的项目下面。
三、直接使用了
注意require的库必须使用npm link 库名克隆到本地,或者自己下载包放到采集.js下面的node_moles目录下面,如果 没有这个目录,自己创建。
其中:
使用Cheerio要取页面的H1标题就简单了
var title=$(‘#article_details h1 a’).text().trim();//读取Div下面的H1标签文本。
有没有jQuery强到爆的感觉。想分析页面什么的,还用正则吗?不用了。还用分析吗?不用了。找个大的Div,直接就读出来了。C#当然也可以用Htmp Agility pack来解析Dom。
但是为此我要新建一个项目,运行,调试,用NodeJS的话,在Sublime里面按Ctrl+B直接运行,可以马上看到效果。而且可以放到服务端。放到我的服务器上去。诸多好处也不大好形容。如果会点JS代码的话,上手应该非常快。
D. 如何使用nodejs做爬虫程序
NodeJS制作爬虫全过程:
1、建立项目craelr-demo
建立一个Express项目,然后将app.js的文件内容全部删除,因为暂时不需要在Web端展示内容。当然我们也可以在空文件夹下直接 npm install express来使用需要的Express功能。
2、目标网站分析
如图,这是CNode首页一部分div标签,就是通过这一系列的id、class来定位需要的信息。
E. nodejs cheerio用法
你重复生成两个对象了。。。
因为不知道create.html的内容,所以不能确定这样是否能显示出来,不过回错误原答因还是上面那个
$('#J_apiTitle',myCreate).html('aaa');
console.log($('#J_apiTitle').html());