800av在线免费观看网址,国产一区自拍视频免费在线观看,无码国产精品无码国产

一提到爬蟲，大多數同學都想到的是Python，今天小千就給大家上一下不同的菜，利用js制作一個爬蟲，Python用膩了來試試js吧。

一、引言

最近娛樂圈比較的火的算是鄭爽事件了，作為一名程序猿如何能或者最新的娛樂熱點新聞呢？今天咱們就用js做一個網絡爬蟲，來爬取一個網站的新聞數據。

二、什么是爬蟲？

網絡爬蟲，又稱為網頁蜘蛛，網絡機器人，意思是我們通過程序去搜集網絡上某些網站的數據。典型的通過爬蟲獲取數據的網站，比如百度、谷歌等搜索引擎。還有一些新聞聚合類網站，比如今日頭條等網站。之前淘寶的一淘，返利網等網站都是利用了爬蟲技術去獲取別人網站的一些信息。爬蟲也不能亂用，無限制的去爬取一個網站的信息，那樣會導致人家公司服務器壓力比較大。之前有句爬蟲界比較流行的話：爬蟲玩的好,監獄進的早;數據玩的溜,牢飯吃個夠！做技術的要有自己的底線，之前有程序員用爬蟲為公司做了一些工作，結果公司被訴訟，程序猿被帶走！

三、開始之前

為了防止出一些意外，首先我們可以訪問你要爬取的目標網站的robots協議。 robots協議也叫robots.txt（統一小寫）是一種存放于網站根目錄下的ASCII編碼的文本文件，它通常告訴網絡爬蟲：此網站中的哪些內容是不應被爬蟲獲取的，哪些是可以被爬蟲獲取的。參考robots.txt去爬取數據，再設置一下間歇時間，不會有人在意的。

紅色部分是關鍵，所有的網頁都不能被爬取！！有句話不知當講不當講！

冷靜下來，文章還沒寫就要結束了嗎？我的kpi咋辦！！！

看看我們的今天要爬取的網頁地址，我們今天要爬取的網頁后綴名不是html！！！

不知道是不是網站的技術人員忽略了這樣的地址，哈哈哈。

四、正式開始

我們使用nodejs做爬蟲，要使用到兩個npm包，cheerio 和 axios

首先按照nodej，然后安裝axios和cheerio 。

五、安裝axios

axios是一個可以發起請求從而獲取網頁內的包。

鍵盤上按win+r，輸入CMD，在里面輸入 npm i aixos

就可以安裝axios

六、安裝cheerio

安裝cheerio cheerio 是一的用法跟jQuery的用法差不多。就是先將頁面的數據load進來形成一個特定的數據格式，然后通過類似jq的語法，對數據進行解析處理。終端中輸入

npm i cheerio

七、爬取數據

新建sp.js文件，寫入如下代碼

執行node sp.js 命令

網頁的數據已經獲取到了，然后我們就可以使用jquery的語法獲取頁面中的數據了。下面我們分析一下頁面的結構

可以看到頁面中所有的新聞標題都在a標簽中，類名是truetit。然后我們就可以使用jq的選擇器獲取頁面中所有類名為truetit的元素。

終端中結果

這樣每次執行就可以獲取最新的娛樂新聞，不需要打開網頁就可以獲取到，當然我們只是獲取了第一頁的數據，你也可以獲取第二頁、第三頁等其他頁面的數據。我們現在相當于只獲取了一個網站的娛樂數據，如果你再分析一些其他的網站，獲取一些其他的網站的數據，然后把數據都存儲起來，自己就可以做一個只顯示娛樂新聞的網站了！

學習web前端，可以參考千鋒 web前端培訓班提供的web前端學習路線，該學習路線對從零基礎小白到web前端初級開發工程師，web前端高級開發工程師，后面的web前端大神級開發工程師都有一個明確清晰的指導，根據千鋒 web前端培訓機構提供的web前端學習路線圖可以讓你對學習web前端開發需要掌握的知識有個清晰的了解，并快速入門web前端開發。想要獲取前端完整學習路線和免費的學習資料可以添加我們的web前端技術分享交流qq群：857920838 加群找群管理領取即可，等你來哦~~

麻豆黑色丝袜jk制服福利网站-麻豆精品传媒视频观看-麻豆精品传媒一二三区在线视频-麻豆精选传媒4区2021-在线视频99-在线视频a

Python爬蟲看膩了？JS爬蟲來拯救你！