當你學會使用Python爬蟲之后就會發現想要得到某些數據再也不用自己費力的去尋找,今天小千就給大家介紹一個很實用的爬蟲案例,獲取Boss直聘上面的招聘信息,同學們一起來學習一下了。
Boss直聘爬蟲案例
這次我們以北京地區的銷售崗位為案例,打開Boss直聘搜索【銷售】,但是很遺憾boss直聘的反爬措施不能直接使用requests庫獲取信息,所以采用webdriver自動化方式獲取網頁源代碼。
webdriver的使用需要:pip3 install selenium、配置chrome瀏覽器的chrome driver。
點擊了多頁之后,發現地址欄的地址變化如下:
所以我們就發現了地址的規律變化,因此代碼如下:
此時執行代碼,發現htmls_list中有好多的數據。這下也就放心了,說明我們獲取到了網頁的數據。有了數據我們就開始遍歷htmls_list,因為htmls_list存放著多頁的數據,我們要一頁一頁的獲取并提取里面的職位、薪資等信息。提取的過程我們使用的是BeautifulSoup,具體的使用說明這里不在贅述。
使用BeautifulSoup提取的數據我們都存放在job_list=[]這個列表中。頁面分析如下:
以此類推,我們都可以找到對應的標簽。
以上就是Python獲取boss直聘上面的崗位信息過程的介紹了,最后歡迎對Python開發感興趣的小伙伴來到千鋒Python培訓班參加我們的培訓課程的學習,現在咨詢更有免費學習資料可以領取,先到先得。