pythonchardet檢測編碼
1、當我們拿到一個bytes時,就可以對其檢測編碼。用chardet檢測編碼,只需要一行代碼:
>>>chardet.detect(b'Hello,world!')
{'encoding':'ascii','confidence':1.0,'language':''}
檢測出的編碼是ascii,注意到還有個confidence字段,表示檢測的概率是1.0(即100%)。
2、檢測GBK編碼的中文
>>>data='離離原上草,一歲一枯榮'.encode('gbk')
>>>chardet.detect(data)
{'encoding':'GB2312','confidence':0.7407407407407407,'language':'Chinese'}
檢測的編碼是GB2312,注意到GBK是GB2312的超集,兩者是同一種編碼,檢測正確的概率是74%,language字段指出的語言是'Chinese'。
以上就是pythonchardet檢測編碼的方法,希望對大家有所幫助。更多Python學習教程請關注IT培訓機構:千鋒教育。