麻豆小视频在线观看_中文黄色一级片_久久久成人精品_成片免费观看视频大全_午夜精品久久久久久久99热浪潮_成人一区二区三区四区

首頁(yè) > 開發(fā) > Python > 正文

徹徹底底地理解Python中的編碼問題

2024-09-09 19:02:48
字體:
來(lái)源:轉(zhuǎn)載
供稿:網(wǎng)友

Python處理文本的功能非常強(qiáng)大,但是如果是初學(xué)者,沒有搞清楚python中的編碼機(jī)制,也經(jīng)常會(huì)遇到亂碼或者decode error。本文的目的是簡(jiǎn)明扼要地說(shuō)明python的編碼機(jī)制,并給出一些建議。

問題1:?jiǎn)栴}在哪里?

問題是我們的靶子,心中沒有問題去學(xué)習(xí)就會(huì)抓不住重點(diǎn)。

本文使用的編程環(huán)境是centos6.7,python2.7。我們?cè)趕hell中鍵入python以打開python命令行,并鍵入如下兩句話:

 s = "中國(guó)zg" e = s.encode("utf-8")

現(xiàn)在的問題是:這段代碼能運(yùn)行嗎?

答案是不能,會(huì)報(bào)如下的錯(cuò):

UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 0: ordinal not in range(128)

請(qǐng)留意一下錯(cuò)誤中說(shuō)明的0xe4,它是我們分析錯(cuò)誤的突破口。

相信很多人都遇到過這個(gè)錯(cuò)誤。那么新的問題來(lái)了。

問題2:Why?

要搞清楚原因,我們不妨認(rèn)真分析下這兩句話的執(zhí)行流程:

首先,我們通過鍵盤在python命令行解釋器中鍵入了 中國(guó)zg 并且給它加上了英文的雙引號(hào),然后又賦值給了變量s,看起來(lái)很稀松平常是不是?其實(shí)里面大有玄機(jī)。

當(dāng)我們通過鍵盤在程序中輸入字符時(shí),我們是通過操作系統(tǒng)完成這個(gè)功能的。我們?cè)谄聊簧峡吹降?中國(guó)zg 實(shí)際上是操作系統(tǒng)給我們?nèi)祟惖囊粋€(gè)反饋,告訴你:“嗨,哥們,你在程序中輸入了字符 中國(guó)zg ”

那操作系統(tǒng)給程序的反饋是什么呢?答案就是01串,這個(gè)01串是什么樣子,又是怎么生成的呢?

答案就是操作系統(tǒng)使用自己的默認(rèn)編碼方式,將中國(guó)zg進(jìn)行了編碼,并把編碼后的01串給了程序。

我們用的centos系統(tǒng)默認(rèn)的編碼是utf-8,所以,只要知道中國(guó)zg每個(gè)字符的utf-8的編碼就可以知道01串是什么了。

查詢后,可以獲得它們的編碼是(以16進(jìn)制和2進(jìn)制表示):

國(guó) z g
E4B8AD E59BBD 7A 67
11100101 10011011 10111101 11100101 10011011 10111101 01111010 01100111

現(xiàn)在我們知道操作系統(tǒng)傳給程序的01串長(zhǎng)什么樣子了。然后,程序會(huì)怎么處理它呢?

程序看到這個(gè)01串被雙引號(hào)包圍著,自然知道這個(gè)01串是一個(gè)字符串。然后這個(gè)字符串被賦值給了s。

到此,就是第一句的執(zhí)行邏輯。

現(xiàn)在繼續(xù)進(jìn)行第二句的執(zhí)行。

e = s.encode("utf-8")的意思是將字符串s用utf-8進(jìn)行編碼,并將編碼后的字符串賦值給e。問題來(lái)了,程序現(xiàn)在知道s中的01串,還知道這個(gè)01串表示的是字符串,但這個(gè)字符串的編碼是什么呢?我們必須知道01串的現(xiàn)有編碼才能解析出里面的字符,也才能用新的編碼方式,如utf-8來(lái)重新編碼它。操作系統(tǒng)只給程序傳來(lái)了01串,并沒有告訴程序這個(gè)01串用的字符編碼是什么。

此時(shí),python程序就會(huì)用它自己默認(rèn)的編碼當(dāng)作s的編碼,進(jìn)而來(lái)識(shí)別s中的內(nèi)容。這個(gè)默認(rèn)的編碼是ASCII,所以,它會(huì)用ASCII來(lái)解釋這個(gè)01串,識(shí)別出字符串的內(nèi)容,再將這個(gè)字符串轉(zhuǎn)為utf-8編碼。

好了,程序碰到的第一個(gè)字節(jié)就是E4(11100101 ),傻眼! ASCII編碼中沒有這玩意兒,因?yàn)锳SCII編碼中字節(jié)第一位都是0。

怎么辦?

報(bào)錯(cuò)唄,于是我們就看到了上面的錯(cuò)誤。

錯(cuò)誤中的0xe4就是字符 “中” 的utf8編碼的第一個(gè)字節(jié)。

問題3:How?

發(fā)表評(píng)論 共有條評(píng)論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 在线天堂资源 | 成人18网站 | 播色网 | wwwxxx免费视频 | 国产美女爽到喷白浆的 | 羞羞视频免费视频欧美 | 国内精品久久久久影院不卡 | 国产一级淫片在线观看 | 在线成人免费视频 | 亚洲视频综合网 | 一级性色| 中文字幕一二三区芒果 | 免费在线观看一级片 | 午夜视频你懂的 | 久久99亚洲精品久久99果 | 国产日韩一区二区三区在线观看 | 日本精品久久久一区二区三区 | 久久久久久久久久亚洲 | 国产精品看片 | 中国大陆高清aⅴ毛片 | 意大利av在线 | 91在线观看| 久久影院午夜 | 欧美一级淫片免费视频1 | 国产福利视频在线观看 | 亚洲av一级毛片特黄大片 | 亚洲国产二区 | 欧美综合在线观看视频 | 免费毛片电影 | 久久亚洲春色中文字幕久久 | 亚洲国产精品久久久久久久 | 国产精品www | 国产在线1区 | 中午字幕无线码一区2020 | 久久久精品网 | 亚洲免费片 | 一区二区久久精品66国产精品 | 久久精品小短片 | 91国内精品久久久久免费影院 | 中文字幕天堂在线 | 一级在线免费 |