對響應中含有的數據進行特殊化處理
通常的特殊化處理主要指的就是css數據偏移/自定義字體/數據加密/數據圖片/特殊編碼格式等
根據css你會發現他們用了一個字體,打開你就發現了一件事
正常字體是0123456789,在去哪兒官方的字體里被替換成了圖片里的
另外還有這種情況的字體反爬
有一些網站的內容由前端的JS動態生成,由于呈現在網頁上的內容是由JS生成而來,我們能夠在瀏覽器上看得到,但是在HTML源碼中卻發現不了。這就需要解析關鍵js,獲得數據生成流程,模擬生成數據。一般獲取的數據是通過AJAX獲取的,返回的結果是Json,然后解析Json獲取數據。
通過編碼格式進行反爬,不適用默認編碼格式,在獲取響應之后通常爬蟲使用utf-8格式進行解碼,此時解碼結果將會是亂碼或者報錯。解決思路:根據源碼進行多格式解碼,或者真正的解碼格式