剛開始學習Python的時候,一定要對基礎知識有一定的了解,比如字符編碼。你知道Python中常見的字符編碼有哪些嗎?讓我們來看看Python字符編碼的常見類型。
第一種:ASCII碼。它是一種基于拉丁字母的計算機編碼系統。它主要用于顯示現代英語和其他西歐語言。它是最常見的單字節編碼系統,相當于國際標準IS/IEC646。由于計算機是美國人發明的,計算機中最早編碼的字母只有127個,即大小寫英文字母、數字和一些符號。這個編碼表稱為ASCII編碼。例如大寫字母A的編碼是65,小寫字母a的編碼是97,最后的128稱為擴展ASCII碼。
第二種:GBK和GB2312。能夠在計算機中顯示漢字是非常重要的,但是ASCII表中沒有偏旁部首,所以我們需要一張中文和數字的對應表。一個字節最多只能表示256個字符,可以用來處理中文。顯然一個字節是不夠的,所以我們需要用兩個字節來表示它,所以中國開發了GB2312代碼來寫中文。
第三種:Unicode。因為每個國家都有自己的一套代碼,沖突不可避免,于是Unicode誕生了。它可以將所有語言統一成一組編碼,這樣就不會出現亂碼問題。現代操作系統和大多數編程語言都直接支持Unicode。
第四種:UFT-8。基于經濟性原則,出現了將Unicode編碼轉換為變長編碼的UTF-8編碼。UTF-8編碼根據不同的數字大小將Unicode字符編碼為1-6個字節。常用的英文字母編碼為1個字節,漢字通常為3個字節。只有非常稀有的字符才會被編碼成4-6個字節,如果要傳輸的文本包含大量英文字符,使用UTF-8編碼可以節省空間。