新山兰爆乳肉感一区二区,在线免费观看污污视频,成年美女黄网站色情大全软件

如果不聲明編碼，則中文會報錯，即使是注釋也會報錯。只要寫中文，必須加一句：#--coding:utf-8--。

文檔編碼是一種告訴程序——無論是計算機的操作系統還是Python代碼——讀取文檔的規則。正確讀取一個文檔，往往需要先知道文件的擴展名，因為編碼方式往往與擴展名有很大的關系。

(1)純文本文檔的獲取與處理：直接用urlopen讀取后，用read()函數獲取文本內容即可。純文本頁面不要轉換成BeautifulSoup對象，因為無法解析，會被認為是一堆字符串，只能用字符串的操作方法來解析。

(2)CSV文檔、PDF文檔等非純文本文檔的讀取方式：直接通過文檔獲取鏈接以字符串的方式讀取文檔——通過io庫的StringIO函數將字符串轉換為StringIO對象——通過CSV庫或PDF庫將StringIO對象讀取為相應格式的文檔，

編碼類型：

(1)UTF-8：統一字符集-轉換格式8位。它的開頭有標記指示字符占了用了多少個字節來表示，一個字符最多有四個字節。

(2)ASCII：每個字符7位，用來表示中文會不夠用，但是英文夠用了。

(3)UtF-8和ASCII的結合：首位為0，即只包含一個字節的UTF-8字符和ASCII通用，因為相當于只用到了7位。但首位為1的兩字節UTF-8字符不通用。

(4)ISO編碼：解決非英文非中文語言文檔太大的問題，比如土耳其語沒有那么多字符，又不能用單純的ASCII。因此使用ASCII的首位來做特殊化，可以針對不同的語言生成不同的規則。

在用Python讀網頁或文檔時，最好統一將獲取的內容統一轉換成UTF-8編碼。獲取國際站的內容時，最好先看看網站metasharset信息中所指示的編碼方式后再確定選擇哪種編碼方式。

Encode和Decode：

字符串在Python內部的表示是unicode編碼，因此，在做編碼轉換時，通常需要以unicode作為中間編碼，即先將其他編碼的字符串解碼(decode)成unicode，再從unicode編碼(encode)成另一種編碼。

decode的作用是將其他編碼的字符串轉換成unicode編碼，如str1.decode(‘gb2312’)，表示將gb2312編碼的字符串str1轉換成unicode編碼。

encode的作用是將unicode編碼轉換成其他編碼的字符串，如str2.encode(‘gb2312’)，表示將unicode編碼的字符串str2轉換成gb2312編碼。

因此，轉碼的時候一定要先搞明白，字符串str是什么編碼，然后decode成unicode，然后再encode成其他編碼

以上內容為大家介紹了Python中的編碼問題，中文亂碼問題，希望對大家有所幫助，如果想要了解更多Python相關知識，請關注 IT培訓機構:千鋒教育。

麻豆黑色丝袜jk制服福利网站-麻豆精品传媒视频观看-麻豆精品传媒一二三区在线视频-麻豆精选传媒4区2021-在线视频99-在线视频a