去重是對(duì)數(shù)據(jù)去重還是對(duì)請(qǐng)求url進(jìn)行去重?分別是如何來實(shí)現(xiàn)的?
url去重可以使用Scrapy+redis實(shí)現(xiàn)url去重(使用set)
另-種方式: Scrapy-Redis手 動(dòng)添加去重ur|(指紋),實(shí)現(xiàn)實(shí)錄:通過MD5加密,把請(qǐng)求體,請(qǐng)求方式,請(qǐng)求url放在一起。
然后進(jìn)行32進(jìn)制的轉(zhuǎn)義符字符串生成指紋。
生成-個(gè)字符串,放到數(shù)據(jù)庫中 作為唯-標(biāo)示。
數(shù)據(jù)去重可以使用sql語句或者pandas對(duì)爬取數(shù)據(jù)進(jìn)行去重操作即可。