Python中字符編碼簡介、方法及使用建議

2020-02-23 06:17:09

字體：大中小

來源：轉載

供稿：網友

1. 字符編碼簡介

1.1. ASCII

ASCII(American Standard Code for Information Interchange)，是一種單字節的編碼。計算機世界里一開始只有英文，而單字節可以表示256個不同的字符，可以表示所有的英文字符和許多的控制符號。不過ASCII只用到了其中的一半（/x80以下），這也是MBCS得以實現的基礎。

1.2. MBCS

然而計算機世界里很快就有了其他語言，單字節的ASCII已無法滿足需求。后來每個語言就制定了一套自己的編碼，由于單字節能表示的字符太少，而且同時也需要與ASCII編碼保持兼容，所以這些編碼紛紛使用了多字節來表示字符，如GBxxx、BIGxxx等等，他們的規則是，如果第一個字節是/x80以下，則仍然表示ASCII字符；而如果是/x80以上，則跟下一個字節一起（共兩個字節）表示一個字符，然后跳過下一個字節，繼續往下判斷。

這里，IBM發明了一個叫Code Page的概念，將這些編碼都收入囊中并分配頁碼，GBK是第936頁，也就是CP936。所以，也可以使用CP936表示GBK。

MBCS(Multi-Byte Character Set)是這些編碼的統稱。目前為止大家都是用了雙字節，所以有時候也叫做DBCS(Double-Byte Character Set)。必須明確的是，MBCS并不是某一種特定的編碼，Windows里根據你設定的區域不同，MBCS指代不同的編碼，而Linux里無法使用MBCS作為編碼。在Windows中你看不到MBCS這幾個字符，因為微軟為了更加洋氣，使用了ANSI來嚇唬人，記事本的另存為對話框里編碼ANSI就是MBCS。同時，在簡體中文Windows默認的區域設定里，指代GBK。

1.3. Unicode

后來，有人開始覺得太多編碼導致世界變得過于復雜了，讓人腦袋疼，于是大家坐在一起拍腦袋想出來一個方法：所有語言的字符都用同一種字符集來表示，這就是Unicode。

最初的Unicode標準UCS-2使用兩個字節表示一個字符，所以你常常可以聽到Unicode使用兩個字節表示一個字符的說法。但過了不久有人覺得256*256太少了，還是不夠用，于是出現了UCS-4標準，它使用4個字節表示一個字符，不過我們用的最多的仍然是UCS-2。

UCS(Unicode Character Set)還僅僅是字符對應碼位的一張表而已，比如"漢"這個字的碼位是6C49。字符具體如何傳輸和儲存則是由UTF(UCS Transformation Format)來負責。

一開始這事很簡單，直接使用UCS的碼位來保存，這就是UTF-16，比如，"漢"直接使用/x6C/x49保存(UTF-16-BE)，或是倒過來使用/x49/x6C保存(UTF-16-LE)。但用著用著美國人覺得自己吃了大虧，以前英文字母只需要一個字節就能保存了，現在大鍋飯一吃變成了兩個字節，空間消耗大了一倍……于是UTF-8橫空出世。

UTF-8是一種很別扭的編碼，具體表現在他是變長的，并且兼容ASCII，ASCII字符使用1字節表示。然而這里省了的必定是從別的地方摳出來的，你肯定也聽說過UTF-8里中文字符使用3個字節來保存吧？4個字節保存的字符更是在淚奔……（具體UCS-2是怎么變成UTF-8的請自行搜索）

上一篇：Python 抓取動態網頁內容方案詳解

下一篇：Python編程中的反模式實例分析