我的讀者知道我是一個喜歡痛罵Python3 unicode的人。這次也不例外。我將會告訴你用unicode有多痛苦和為什么我不能閉嘴。我花了兩周時間研究Python3,我需要發(fā)泄我的失望。在這些責(zé)罵中,仍然有有用的信息,因?yàn)樗涛覀內(nèi)绾蝸硖幚鞵ython3。如果沒有被我煩到,就讀一讀吧。
這次吐槽的內(nèi)容會不一樣。不會關(guān)聯(lián)到WSGI或者HTTP及與其相關(guān)的東西。通常,我被告知我應(yīng)該停止抱怨Python3 Unicode系統(tǒng),因?yàn)槲也粚憚e人經(jīng)常寫的代碼(HTTP庫之類的東西),所以我這次準(zhǔn)備寫點(diǎn)別的東西:一個命令行應(yīng)用程序。我寫了一個很方便的庫叫click來讓編寫它更加簡單。
注意,我做的是每一個新手Python程序員做的事情:寫一個命令行應(yīng)用程序。Hello World程序。但是不同以往,我想要確保應(yīng)用程序是穩(wěn)定的并且對于Python2和Python3的Unicode都是支持的,還能夠進(jìn)行單元測試。所以接下來的就是如何來實(shí)現(xiàn)它。
在Python3我們作為開發(fā)者需要好好使用Unicode。顯然,我覺得這意味著所有的文本數(shù)據(jù)都是Unicode,所有非文本數(shù)據(jù)都是字節(jié)。在這么美妙的世界里所有的東西只有黑與白,Hello World的例子非常直截了當(dāng)。所以讓我們來寫一些shell工具吧。
這是用Python2形式實(shí)現(xiàn)的應(yīng)用程序:
import sysimport shutil for filename in sys.argv[1:]: f = sys.stdin if filename != '-': try: f = open(filename, 'rb') except IOError as err: print >> sys.stderr, 'cat.py: %s: %s' % (filename, err) continue with f: shutil.copyfileobj(f, sys.stdout)
顯然,命令在處理任何命令行選項(xiàng)的時候也不是特別好,不過至少能夠用。所以我們開始碼代碼吧。
上面的代碼在Python2是不行的,因?yàn)槟惆抵刑幚碜止?jié)。命令行參數(shù)是字節(jié),文件名是字節(jié),文件內(nèi)容也是字節(jié)。語言衛(wèi)道士會指出這是不對的,這樣會引發(fā)問題,但如果你開始更多考慮它,你會發(fā)現(xiàn)這是個不固定的問題。
UNIX是字節(jié),已經(jīng)被定義成了這樣,并且一直會是這樣。為了理解為什么你需要觀察數(shù)據(jù)傳輸?shù)牟煌瑘鼍啊?/p> 終端 命令行參數(shù) 操作系統(tǒng)輸入輸出層 文件系統(tǒng)驅(qū)動
順便提一下,這不是數(shù)據(jù)可能通過的唯一東西,但是我們來了解一下,在多少場景下我們能了解一個編碼。答案是一個也沒有。至少我們需要理解一個編碼是終端輸出區(qū)域信息。這個信息可以用來展現(xiàn)轉(zhuǎn)換,也能夠理解文本信息所擁有的編碼。
舉個例子,如果LC_CTYPE的值為en_US.utf-8告訴應(yīng)用程序系統(tǒng)使用US English,并且大部分文本數(shù)據(jù)是utf-8編碼。實(shí)際上還有很多別的變量,不過我們假定這是我們唯一需要看的。注意LC_CTYPE并不代表所有的數(shù)據(jù)都是utf-8編碼的。它代替通知應(yīng)用程序如何分類文本特性并且什么時候需要應(yīng)用轉(zhuǎn)換。
新聞熱點(diǎn)
疑難解答
圖片精選