爬蟲占總PV(PV是指頁面的訪問次數,每打開或刷新一次頁面,就算做一個pv)比例較高,服務器的壓力上升,能力下降。
2018年2月24日晚,卓見云某客戶網站公網出流量突然爆發性增長,導致帶寬被占滿,事故發現后緊急提升了SLB的帶寬,但提升后的帶寬仍然被流量占滿(原帶寬15M,提升至35M)。由于事故發生在非黃金訪問時段,正常流量不會這么大,加上其他現象,懷疑是遭到了網絡攻擊。
再比如某節某動為了快速發展搜索業務派出爬蟲四處暴力抓取網站內容,部分配置較低的網站已經直接癱瘓,給中小網站主們造成了很大的損失和困擾,嚴重影響了網站正常的用戶訪問。
某中小網站今年7月份,他突然發現公司的網站經常性打不開,網頁加載極其緩慢,有時甚至直接癱瘓。經過一系列排查后,在服務器日志上發現了bytespider爬蟲的痕跡。該爬蟲抓取的頻率每天達幾百萬次,高則上千萬次,服務器帶寬負載飆至100%,而且該爬蟲在抓取時完全不遵守網站的robots協議。
有小網站主抱怨表示:某節某動的爬蟲“一上午對網站發出46萬次請求”,網站都癱瘓了,度娘也沒有這么折騰的!
可能原因分析:
1、商業對手,出于競爭需要,采用爬蟲獲取信息。
2、搜素引擎抽風。
3、“三月份爬蟲”,應屆畢業生為交論文常在這個時間點在網上爬取數據,此類爬蟲通常簡單粗暴,不管服務器壓力。
4、近期做的推廣活動帶來訪問壓力增加。
公司可免費查詢的資源被批量抓走,喪失競爭力。
數據可以在非登錄狀態下直接被查詢,比如下方的招聘信息
數據分析搜索
也有網站想獲取信息必須強制登陸,如果沒有登陸是看不到任何信息的。但是如果不強制對方登錄,爭對手可以輕松批量抓到更多的信息,企業的競爭力就會大大減少。
智聯搜索
狀告爬蟲成功的幾率小
爬蟲在國內還是個擦邊球,就是有可能可以起訴成功,也可能完全無效。近期引發關注的是淘寶被非法爬取案件,這是成功的案例,還有很多沒有成功的案例。
爬取淘寶
所以還是需要用技術手段來做最后的保障。