UTF-8 是一種字符編碼系統。它允許您將字符表示為 ASCII 文本,同時仍允許使用國際字符,如中文字符。截至20世紀20年代中期,UTF-8是最受歡迎的編碼系統之一。要開始使用 UTF-8,您需要首先熟悉基本的 ASCII 字符集。
什么是 ASCII 字符集?
ASCII 使用 7 位碼位來表示 128 個不同的字符。這些碼位分為 95 個可打印字符,其中包括英語字母表中的 26 個字母(A 到 Z,大寫和小寫)、10 位數字(0 到 9)以及各種標點符號和其他符號。
還有 33 個不可打印的字符,其中包括回車符和換行符等控制字符,以及用于格式化文本等內容的各種其他字符。
UTF-8 與 ASCII –有什么區別?
UTF-8 將 ASCII 字符集擴展為使用 8 位碼位,最多允許 256 個不同的字符。
這意味著 UTF-8 可以表示所有可打印的 ASCII 字符,以及不可打印的字符。
UTF-8 還包括各種其他國際字符,如中文字符和阿拉伯字符。
如何在網頁中使用 UTF-8 – HTML UTF-8 示例
現在是容易的部分。你實際上并不需要知道它是如何工作的(盡管我一會兒會告訴你。您可以在 HTML 代碼中配置 UTF-8 字符編碼,并在代碼部分中使用一行 HTML:<head>
說到這里,讓我解釋一下 UTF-8 是如何工作的,以及為什么它是一個如此出色的編碼方案。
UTF-8 編碼的工作原理,以及每個字符使用的存儲量
用 UTF-8 表示字符時,每個代碼點都由一個或多個字節的序列表示。使用的字節數取決于字符所表示的代碼點。以下是使用范圍的細分:
ASCII 范圍 (0-127) 中的碼位由單個字節表示
范圍 (128-2047) 中的碼位由兩個字節表示
范圍 (2048-65535) 中的碼位由三個字節表示
和范圍 (65536-1114111) 中的碼位由四個字節表示。(這似乎有很多可能的字符,但請記住,僅在中文中,就有100,000個字符。
UTF-8 序列的第一個字節稱為“前導字節”。前導字節提供有關序列中有多少字節以及字符的代碼點值的信息。
單字節序列的前導字節始終在 (0-127) 范圍內。雙字節序列的前導字節在范圍 (194-223) 中。三字節序列的前導字節在范圍 (224-239) 中。四字節序列的前導字節在范圍 (240-247) 中。
序列中的其余字節稱為“尾隨字節”。雙字節序列的尾隨字節在范圍 (128-191) 中。三字節序列的尾隨字節在范圍 (128-191) 中。四字節序列的尾隨字節在范圍 (128-191) 中。
可以通過查看前導字節和尾隨字節來計算字符的代碼點值。對于單字節序列,代碼點值等于引線字節的值。
對于雙字節序列,代碼點值等于 ((前導字節 - 194) * 64) +(尾隨字節 - 128)。
對于三字節序列,代碼點值等于 ((前導字節 - 224) * 4096) + ((尾隨字節 1 - 128) * 64) +(尾隨字節 2 - 128)。
對于四字節序列,代碼點值等于 ((前導字節 - 240) * 262144) + ((尾隨字節1 - 128) * 4096) + ((尾隨字節2 - 128) * 64) + (尾隨字節3 - 128)。
UTF-8 是編碼的首選
同樣,UTF-8是一個超級高效的編碼系統。它可以表示各種字符,同時仍與 ASCII 兼容。這使其成為國際化軟件中使用的合理選擇。