關(guān)于你不想知道的所有Python3 unicode特性

2020-02-23 06:13:47

字體：大中小

供稿：網(wǎng)友

我的讀者知道我是一個喜歡痛罵Python3 unicode的人。這次也不例外。我將會告訴你用unicode有多痛苦和為什么我不能閉嘴。我花了兩周時間研究Python3，我需要發(fā)泄我的失望。在這些責(zé)罵中，仍然有有用的信息，因?yàn)樗涛覀內(nèi)绾蝸硖幚鞵ython3。如果沒有被我煩到，就讀一讀吧。

這次吐槽的內(nèi)容會不一樣。不會關(guān)聯(lián)到WSGI或者HTTP及與其相關(guān)的東西。通常，我被告知我應(yīng)該停止抱怨Python3 Unicode系統(tǒng)，因?yàn)槲也粚憚e人經(jīng)常寫的代碼（HTTP庫之類的東西），所以我這次準(zhǔn)備寫點(diǎn)別的東西：一個命令行應(yīng)用程序。我寫了一個很方便的庫叫click來讓編寫它更加簡單。

注意，我做的是每一個新手Python程序員做的事情：寫一個命令行應(yīng)用程序。Hello World程序。但是不同以往，我想要確保應(yīng)用程序是穩(wěn)定的并且對于Python2和Python3的Unicode都是支持的，還能夠進(jìn)行單元測試。所以接下來的就是如何來實(shí)現(xiàn)它。

我們想做什么

在Python3我們作為開發(fā)者需要好好使用Unicode。顯然，我覺得這意味著所有的文本數(shù)據(jù)都是Unicode，所有非文本數(shù)據(jù)都是字節(jié)。在這么美妙的世界里所有的東西只有黑與白，Hello World的例子非常直截了當(dāng)。所以讓我們來寫一些shell工具吧。

這是用Python2形式實(shí)現(xiàn)的應(yīng)用程序：

import sysimport shutil for filename in sys.argv[1:]:  f = sys.stdin  if filename != '-':    try:      f = open(filename, 'rb')    except IOError as err:      print >> sys.stderr, 'cat.py: %s: %s' % (filename, err)      continue  with f:    shutil.copyfileobj(f, sys.stdout)

顯然，命令在處理任何命令行選項(xiàng)的時候也不是特別好，不過至少能夠用。所以我們開始碼代碼吧。

UNIX里的UNICODE

上面的代碼在Python2是不行的，因?yàn)槟惆抵刑幚碜止?jié)。命令行參數(shù)是字節(jié)，文件名是字節(jié)，文件內(nèi)容也是字節(jié)。語言衛(wèi)道士會指出這是不對的，這樣會引發(fā)問題，但如果你開始更多考慮它，你會發(fā)現(xiàn)這是個不固定的問題。

UNIX是字節(jié)，已經(jīng)被定義成了這樣，并且一直會是這樣。為了理解為什么你需要觀察數(shù)據(jù)傳輸?shù)牟煌瑘鼍啊?/p> 終端命令行參數(shù) 操作系統(tǒng)輸入輸出層文件系統(tǒng)驅(qū)動

順便提一下，這不是數(shù)據(jù)可能通過的唯一東西，但是我們來了解一下，在多少場景下我們能了解一個編碼。答案是一個也沒有。至少我們需要理解一個編碼是終端輸出區(qū)域信息。這個信息可以用來展現(xiàn)轉(zhuǎn)換，也能夠理解文本信息所擁有的編碼。

舉個例子，如果LC_CTYPE的值為en_US.utf-8告訴應(yīng)用程序系統(tǒng)使用US English，并且大部分文本數(shù)據(jù)是utf-8編碼。實(shí)際上還有很多別的變量，不過我們假定這是我們唯一需要看的。注意LC_CTYPE并不代表所有的數(shù)據(jù)都是utf-8編碼的。它代替通知應(yīng)用程序如何分類文本特性并且什么時候需要應(yīng)用轉(zhuǎn)換。

上一篇：Python實(shí)現(xiàn)讀取目錄所有文件的文件名并保存到txt文件代碼

下一篇：Python動態(tài)加載模塊的3種方法