目標抓取網站上的妹子照片。第三方模塊superagent:第三方Nodejs模塊,用於處理伺服器和客戶端的Http請求。cheerio:為伺服器端定製的Jquery實現。思路通過superagent獲取目標網站的dom通過cheerio對dom進行解析,獲得通用布局。如
B. Node.js怎麼安裝
在linux中安裝nodejs方法如下:
通過 uname -a 命令查看到我的Linux系統位數是64位(備註:x86_64表示64位系統, i686 i386表示32位系統),如圖
C. 如何利用node解決seo問題
NodeJS在SEO中的應用:快速採集分析頁面
一、安裝
網上有很多的教程,下載到https://nodejs.org,在Win系統下運行就可以搭上一個環境。下載Windows的Installer版本,雙擊安裝,就成功了。
然後配置神器Sublime開始使用。
為Sublime添加實時調試運行,打開Sublime-》Tools-》Build System-》New Build System
在新打開的文件中寫入下面的代碼
然後保存為NodeJS.sublime-build.
新建一個採集.js文件,設為NodeJS進行運行調試。
二、注意
在nodejs裡面需要require(庫名)的方式來引用一些外部的庫,這些外部的庫安裝NodeJS的時候,已經放在C盤的programfiles下面了。但是直接require是無效的。
因為NodeJS提倡的是自己的代碼用自己的庫,所以還需要把庫復制到採集.js這個文件下面。
引用的時候可以通過npm link 庫名的方式,來把系統C盤的庫引用到我們的項目下面。
三、直接使用了
注意require的庫必須使用npm link 庫名克隆到本地,或者自己下載包放到採集.js下面的node_moles目錄下面,如果 沒有這個目錄,自己創建。
其中:
使用Cheerio要取頁面的H1標題就簡單了
var title=$(『#article_details h1 a』).text().trim();//讀取Div下面的H1標簽文本。
有沒有jQuery強到爆的感覺。想分析頁面什麼的,還用正則嗎?不用了。還用分析嗎?不用了。找個大的Div,直接就讀出來了。C#當然也可以用Htmp Agility pack來解析Dom。
但是為此我要新建一個項目,運行,調試,用NodeJS的話,在Sublime裡面按Ctrl+B直接運行,可以馬上看到效果。而且可以放到服務端。放到我的伺服器上去。諸多好處也不大好形容。如果會點JS代碼的話,上手應該非常快。
D. 如何使用nodejs做爬蟲程序
NodeJS製作爬蟲全過程:
1、建立項目craelr-demo
建立一個Express項目,然後將app.js的文件內容全部刪除,因為暫時不需要在Web端展示內容。當然我們也可以在空文件夾下直接 npm install express來使用需要的Express功能。
2、目標網站分析
如圖,這是CNode首頁一部分div標簽,就是通過這一系列的id、class來定位需要的信息。
E. nodejs cheerio用法
你重復生成兩個對象了。。。
因為不知道create.html的內容,所以不能確定這樣是否能顯示出來,不過回錯誤原答因還是上面那個
$('#J_apiTitle',myCreate).html('aaa');
console.log($('#J_apiTitle').html());