中文編碼雜談

2024-09-07 13:38:47

字體：大中小

來源：轉載

供稿：網友

編碼問題的例子

在windows自帶的notepad（記事本）程序中輸入“聯通”兩個字，保存后再次打開，會發現“聯通”不見了，代之以“��ͨ”的亂碼。這是windows平臺上典型的中文編碼問題。即文件保存的時候是按照ANSI編碼（其實就是GB2312，后面會詳細介紹）保存，打開的時候程序按照UTF-8方式對內容解釋，于是就出現了亂碼。避免亂碼的方式很簡單，在“文件”菜單中選擇“打開”命令，選擇保存的文件，然后選擇“ANSI”編碼，此時就能看到久違的“聯通”兩個字了。

在Linux平臺上如果使用cat等命令查看文件中的中文內容時，可能出現亂碼。這也是編碼的問題。簡單的說是文件時按照A編碼保存，但是cat命令按照當前Locale設定的B編碼去查看，在B和A不兼容的時候就出現了亂碼。

為什么寫這篇文章

中文編碼由于歷史原因牽扯到不少標準，在不了解的時候感覺一頭霧水；但其實理解編碼問題并不需要你深入了解各個編碼標準，只要你明白了來龍去脈，了解了關鍵的知識點，就能分析和解決日常開發工作中碰到的大部分編碼問題。有感于我看過的資料和文章要么不夠全面，要么略顯枯燥，所以通過這篇文章記錄下筆者在日常工作中碰到的中文編碼原理相關問題，目的主要是自我總結，如果能給讀者提供一些幫助那就算是意外之喜了。由于嚴謹的編碼標準對我來說是無趣的，枯燥的，難以記憶的，本文嘗試用淺顯易懂的生活語言解釋中文編碼相關的（也可能不相關的）一些問題，這也是為什么取名雜談的原因。本文肯定存在不規范不全面的地方，我會在參考資料里給出官方文檔的鏈接，也歡迎讀者在評論中提出更好的表達方式&指出錯誤，不勝感激。

對編碼問題的理解我認為分為三個層次，第一個層次：概念，知道各個編碼標準的應用場景，了解之間的差異，能分析和解決常見的一些編碼問題。第二個層次：標準，掌握編碼的細節，如編碼范圍，編碼轉換規則，知道這些就能自行開發編碼轉換工具。第三個層次，使用，了解中文的編碼2進制存儲，在程序開發過程中選擇合理的編碼并處理中文。為了避免讓讀者陷入編碼標準的黑洞無法脫身（不相信？看看unicode的規范就明白我的意思了），同時由于編碼查詢&轉換工具等都有現成工具可以使用，本文只涉及第一個層次，不涉及第二層次，在第三層次上會做一些嘗試。在本文的最后提供了相關鏈接供對標準細節感興趣的同學繼續學習。最后，本文不涉及具體軟件的亂碼問題解決，如ssh，shell，vim，screen等，這些話題留給劍豪同學專文闡述。

一切都是因為電腦不識字

電腦很聰明，可以幫我們做很多事情，最開始主要是科學計算，這也是為什么電腦別名計算機。電腦又很笨，在她的腦子里只有數字，即所有的數據在存儲和運算時都要使用二進制數表示。這在最初電腦主要用來處理大量復雜的科學計算時不是什么大問題但是當電腦逐步走入普通人的生活時，情況開始變遭了。辦公自動化等領域最主要的需求就是文字處理，電腦如何來表示文字呢？這個問題當然難不倒聰明的計算機科學家們，用數字來代表字符唄。這就是“編碼”。

英文的終極解決方案：ASCII

每個人都可以約定自己的一套編碼，只要使用方之間了解就ok了。比如說咱倆約定0×10表示a，0×11表示b。在一開始也的確是這樣的，出現了各式各樣的編碼。這樣有兩個問題：1.各個編碼的字符集不一樣，有的多，有的少。2.相同字符的編碼也不一樣。你這里a是0×10.他那里a可能是0×30。于是你保存的文件他就不能直接用，必須要轉換編碼。隨著溝通范圍的擴大，采用不同編碼的人們互相通信就亂套了，這就是我們常說的：雞同鴨講。如果要避免這種混亂，那么大家就必須使用相同的編碼規則，于是美國有關的標準化組織就出臺了ASCII（American Standard Code for Information Interchange）編碼，統一規定了英文常用符號用哪些二進制數來表示。ASCII是標準的單字節字符編碼方案，用于基于文本的數據。

ASCII最初是美國國家標準，供不同計算機在相互通信時用作共同遵守的西文字符編碼標準，已被國際標準化組織（International Organization for Standardization, ISO）定為國際標準，稱為ISO 646標準。適用于所有拉丁文字字母。ASCII 碼使用指定的7 位或8 位二進制數組合來表示128 或256 種可能的字符。標準ASCII 碼也叫基礎ASCII碼，使用7 位二進制數來表示所有的大寫和小寫字母，數字0 到9、標點符號，以及在美式英語中使用的特殊控制字符。而最高位為1的另128個字符（80H―FFH）被稱為“擴展ASCII”，一般用來存放英文的制表符、部分音標字符等等的一些其它符號。

其中：0～31及127(共33個)是控制字符或通信專用字符（其余為可顯示字符），32～126(共95個)是字符(32是空格），其中48～57為0到9十個阿拉伯數字，65～90為26個大寫英文字母，97～122號為26個小寫英文字母，其余為一些標點符號、運算符號等。

ascii 編碼表

現在所有使用英文的電腦終于可以用同一種編碼來交流了。理解了ASCII編碼，其他字母型的語言編碼方案就觸類旁通了。

一波三折的中文編碼

第一次嘗試：GB2312

ASCII這種字符編碼規則顯然用來處理英文沒有什么問題，它的出現極大的促進了信息在西方尤其是美國的傳播和交流。但是對于中文，常用漢字就有6000以上，ASCII 單字節編碼顯然是不夠用。為了粉碎美帝國主義通過編碼限制中國人民使用電腦的無恥陰謀，中國國家標準總局發布了GB2312碼即中華人民共和國國家漢字信息交換用編碼，全稱《信息交換用漢字編碼字符集――基本集》，1981年5月1日實施，通行于大陸。GB2312字符集中除常用簡體漢字字符外還包括希臘字母、日文平假名及片假名字母、俄語西里爾字母等字符，未收錄繁體中文漢字和一些生僻字。 EUC-CN可以理解為GB2312的別名，和GB2312完全相同。

GB2312是基于區位碼設計的，在區位碼的區號和位號上分別加上A0H就得到了GB2312編碼。這里第一次提到了“區位碼”，我就連帶把下面這幾個讓人摸不到頭腦的XX碼一鍋端了吧：

區位碼，國標碼，交換碼，內碼，外碼

區位碼：就是把中文常用的符號，數字，漢字等分門別類進行編碼。區位碼把編碼表分為94個區，每個區對應94個位，每個位置就放一個字符（漢字，符號，數字都屬于字符）。這樣每個字符的區號和位號組合起來就成為該漢字的區位碼。區位碼一般用10進制數來表示，如4907就表示49區7位，對應的字符是“學”。區位碼中01-09區是符號、數字區，16-87區是漢字區，10-15和88-94是未定義的空白區。它將收錄的漢字分成兩級：第一級是常用漢字計3755個，置于16-55區，按漢語拼音字母/筆形順序排列；第二級漢字是次常用漢字計3008個，置于56-87區，按部首/筆畫順序排列。在網上搜索“區位碼查詢系統”可以很方便的找到漢字和對應區位碼轉換的工具。為了避免廣告嫌疑和死鏈，這里就不舉例了。

國標碼：區位碼無法用于漢字通信，因為它可能與通信使用的控制碼（00H~1FH）（即0~31，還記得ASCII碼特殊字符的范圍嗎？）發生沖突。于是ISO2022規定每個漢字的區號和位號必須分別加上32（即二進制數00100000，16進制20H），得到對應的國標交換碼，簡稱國標碼，交換碼，因此，“學”字的國標交換碼計算為：

  00110001 00000111+ 00100000 00100000 -------------------  01010001 00100111

用十六進制數表示即為5127H。

交換碼：即國標交換碼的簡稱，等同上面說的國標碼。

內碼：由于文本中通常混合使用漢字和西文字符，漢字信息如果不予以特別標識，就會與單字節的ASCII碼混淆。此問題的解決方法之一是將一個漢字看成是兩個擴展ASCII碼，使表示GB2312漢字的兩個字節的最高位都為1。即國標碼加上128（即二進制數10000000,16進制80H）這種高位為1的雙字節漢字編碼即為GB2312漢字的機內碼，簡稱為內碼。20H+80H=A0H。這也就是常說的在區位碼的區號和位號上分別加上A0H就得到了GB2312編碼的由來。

  00110001 00000111+ 10100000 10100000   -------------------  11010001 10100111

用十六進制數表示即為D1A7H。

外碼：機外碼的簡稱,就是漢字輸入碼，是為了通過鍵盤字符把漢字輸入計算機而設計的一種編碼。英文輸入時，相輸入什么字符便按什么鍵，外碼和內碼一致。漢字輸入時，可能要按幾個鍵才能輸入一個漢字。漢字輸入方案有成百上千個，但是這千差萬別的外碼輸入進計算機后都會轉換成統一的內碼。

最后總結一下上面的概念。中國國家標準總局把中文常用字符編碼為94個區，每個區對應94個位，每個字符的區號和位號組合起來就是該字符的區位碼, 區位碼用10進制數來表示，如4907就表示49區7位，對應的字符是“學”。由于區位碼的取值范圍與通信使用的控制碼（00H~1FH）（即0~31）發生沖突。每個漢字的區號和位號分別加上32（即16進制20H）得到國標碼，交換碼。“學”的國標碼為5127H。由于文本中通常混合使用漢字和西文字符，為了讓漢字信息不會與單字節的ASCII碼混淆，將一個漢字看成是兩個擴展ASCII碼，即漢字的兩個字節的最高位置為1，得到的編碼為GB2312漢字的內碼。“學”的內碼為D1A7H。無論你使用什么輸入法，通過什么樣的按鍵組合把“學”輸入計算機，“學”在使用GB2312（以及兼容GB2312）編碼的計算機里的內碼都是D1A7H。

第二次嘗試：GBK

GB2312的出現基本滿足了漢字的計算機處理需要，但由于上面提到未收錄繁體字和生僻字，從而不能處理人名、古漢語等方面出現的罕用字，這導致了1995年《漢字編碼擴展規范》（GBK）的出現。GBK編碼是GB2312編碼的超集，向下完全兼容GB2312，兼容的含義是不僅字符兼容，而且相同字符的編碼也相同，同時在字匯一級支持ISO/IEC10646―1和GB 13000―1的全部中、日、韓（CJK）漢字，共計20902字。GBK還收錄了GB2312不包含的漢字部首符號、豎排標點符號等字符。CP936和GBK的有些許差別，絕大多數情況下可以把CP936當作GBK的別名。

第三次嘗試：GB18030

GB18030編碼向下兼容GBK和GB2312。GB18030收錄了所有Unicode3.1中的字符，包括中國少數民族字符，GBK不支持的韓文字符等等，也可以說是世界大多民族的文字符號都被收錄在內。GBK和GB2312都是雙字節等寬編碼，如果算上和ASCII兼容所支持的單字節，也可以理解為是單字節和雙字節混合的變長編碼。GB18030編碼是變長編碼，有單字節、雙字節和四字節三種方式。

其實，這三個標準并不需要死記硬背，只需要了解是根據應用需求不斷擴展編碼范圍即可。從GB2312到GBK再到GB18030收錄的字符越來越多即可。萬幸的是一直是向下兼容的，也就是說一個漢字在這三個編碼標準里的編碼是一模一樣的。這些編碼的共性是變長編碼，單字節ASCII兼容，對其他字符GB2312和GBK都使用雙字節等寬編碼，只有GB18030還有四字節編碼的方式。這些編碼最大的問題是2個。1.由于低字節的編碼范圍和ASCII有重合，所以不能根據一個字節的內容判斷是中文的一部分還是一個獨立的英文字符。2.如果有兩個漢字編碼為A1A2B1B2，存在A2B1也是一個有效漢字編碼的特殊情況。這樣就不能直接使用標準的字符串匹配函數來判斷一個字符串里是否包含某一個漢字，而需要先判斷字符邊界然后才能進行字符匹配判斷。

最后，提一個小插曲，上面講的都是大陸推行的漢字編碼標準，使用繁體的中文社群中最常用的電腦漢字字符集標準叫大五碼（Big5），共收錄13,060個中文字，其中有二字為重覆編碼(實在是不應該)。Big5雖普及于中國的臺灣、香港與澳門等繁體中文通行區，但長期以來并非當地的國家標準，而只是業界標準。倚天中文系統、Windows等主要系統的字符集都是以Big5為基準，但廠商又各自增刪，衍生成多種不同版本。2003年，Big5被收錄到臺灣官方標準的附錄當中，取得了較正式的地位。這個最新版本被稱為Big5-2003。

天下歸一Unicode

看了上面的多個中文編碼是不是有點頭暈了呢？如果把這個問題放到全世界n多個國家n多語種呢？各國和各地區自己的文字編碼規則互相沖突的情況全球信息交換帶來了很大的麻煩。

要真正徹底解決這個問題，上面介紹的那些通過擴展ASCII修修補補的方式已經走不通了，而必須有一個全新的編碼系統，這個系統要可以將中文、日文、法文、德文……等等所有的文字統一起來考慮，為每一個文字都分配一個單獨的編碼。于是，Unicode誕生了。Unicode（統一碼、萬國碼、單一碼）為地球上（以后會包括火星，金星，喵星等）每種語言中的每個字符設定了統一并且唯一的二進制編碼，以滿足跨語言、跨平臺進行文本轉換、處理的要求。在Unicode里，所有的字符被一視同仁，漢字不再使用“兩個擴展ASCII”，而是使用“1個Unicode”來表示，也就是說，所有的文字都按一個字符來處理，它們都有一個唯一的Unicode碼。Unicode用數字0-0x10FFFF來映射這些字符，最多可以容納1114112個字符，或者說有1114112個碼位（碼位就是可以分配給字符的數字）。

提到Unicode不能不提UCS（通用字符集Universal Character Set）。UCS是由ISO制定的ISO 10646（或稱ISO/IEC 10646）標準所定義的標準字符集。UCS-2用兩個字節編碼，UCS-4用4個字節編碼。Unicode是由unicode.org制定的編碼機制，ISO與unicode.org是兩個不同的組織, 雖然最初制定了不同的標準; 但目標是一致的。所以自從unicode2.0開始, unicode采用了與ISO 10646-1相同的字庫和字碼, ISO也承諾ISO10646將不會給超出0x10FFFF的UCS-4編碼賦值, 使得兩者保持一致。大家簡單認為UCS等同于Unicode就可以了。

在Unicode中：漢字“字”對應的數字是23383。在Unicode中，我們有很多方式將數字23383表示成程序中的數據，包括：UTF-8、UTF-16、UTF-32。UTF是“UCS Transformation Format”的縮寫，可以翻譯成Unicode字符集轉換格式，即怎樣將Unicode定義的數字轉換成程序數據。例如，“漢字”對應的數字是0x6c49和0x5b57，而編碼的程序數據是：

BYTE data_utf8[] = {0xE6, 0xB1, 0x89, 0xE5, 0xAD, 0x97}; // UTF-8編碼WORD data_utf16[] = {0x6c49, 0x5b57}; // UTF-16編碼DWORD data_utf32[] = {0x6c49, 0x5b57}; // UTF-32編碼

這里用BYTE、WORD、DWORD分別表示無符號8位整數，無符號16位整數和無符號32位整數。UTF-8、UTF-16、UTF-32分別以BYTE、WORD、DWORD作為編碼單位。“漢字”的UTF-8編碼需要6個字節。“漢字”的UTF-16編碼需要兩個WORD，大小是4個字節。“漢字”的UTF-32編碼需要兩個DWORD，大小是8個字節。根據字節序的不同，UTF-16可以被實現為UTF-16LE或UTF-16BE，UTF-32可以被實現為UTF-32LE或UTF-32BE。

下面介紹UTF-8、UTF-16、UTF-32、BOM。

UTF-8

UTF-8以字節為單位對Unicode進行編碼。從Unicode到UTF-8的編碼方式如下：

Unicode編碼(16進制)

UTF-8 字節流(二進制)

麻豆小视频在线观看_中文黄色一级片_久久久成人精品_成片免费观看视频大全_午夜精品久久久久久久99热浪潮_成人一区二区三区四区