今天在寫php代碼的時(shí)候,出現(xiàn)一個(gè)特郁悶的問題那就是兩個(gè)一模一樣的文件,在IE下顯示有一個(gè)文件卻出顯了一個(gè)空白行,如地址所示http://www.kuomart.com/blog/my_ex/bom_utf8.htm
以上出現(xiàn)空白行的頁面是用php的require('t.htm')導(dǎo)入模板輸出的,而我的php文件和htm文件都是用的記事本寫的,然后保存為utf-8編碼的,這樣之后就出現(xiàn)了用nodepad保存utf8文件自動添加bom到文件的開始,起先自己測試用nodepad,dw,edplus打開文件都看不到bom內(nèi)容,而用windows寫字板以及zend studio打開就可以看到bom字節(jié)的東西,由于一直對utf8沒有深入的了解,只知道utf8可以表示很多種語言的編碼,他通用三個(gè)字節(jié)表示一個(gè)字符,如gb碼用兩個(gè)字節(jié)表示一個(gè)漢字,而用utf8表示一個(gè)漢字,則一個(gè)漢字要占三個(gè)字節(jié)。但是對BOM卻一無所知,最后實(shí)在無技可施便到csdn上求助,可是csdn上半天沒一個(gè)高手能解決,也于我在web版發(fā)的問題版塊發(fā)得不對吧(暈,我是WEB開發(fā)遇到的問題啊),無賴之下又在phpchina去發(fā)貼,終于得aultoale的幫助熱心解答,如貼http://www.phpchina.com/bbs/thread-23423-1-1.html
在網(wǎng)上也找到以下詳解
Wordpress中要注意的UTF-8的BOM問題
很早就遇到過一個(gè)問題,就是安裝某個(gè)插件后,點(diǎn)激活后會出現(xiàn)白屏。一直沒有搞明白是由于什么原因,以前的解決辦法是,如果是不包含中文字符的,直接把文件轉(zhuǎn)存成ASCII碼方式,一般都能解決。今天給弟弟弄Blog的時(shí)候,又出現(xiàn)了這種情況。研究了半天,終于找到了答案。
Unicode規(guī)范中有一個(gè)BOM的概念。BOM――Byte Order Mark,就是字節(jié)序標(biāo)記。在這里找到一段關(guān)于BOM的說明:
在UCS 編碼中有一個(gè)叫做"ZERO WIDTH NO-BREAK SPACE"的字符,它的編碼是FEFF。而FFFE在UCS中是不存在的字符,所以不應(yīng)該出現(xiàn)在實(shí)際傳輸中。UCS規(guī)范建議我們在傳輸字節(jié)流前,先傳輸字符"ZERO WIDTH NO-BREAK SPACE"。這樣如果接收者收到FEFF,就表明這個(gè)字節(jié)流是Big-Endian的;如果收到FFFE,就表明這個(gè)字節(jié)流是Little-Endian的。因此字符"ZERO WIDTH NO-BREAK SPACE"又被稱作BOM。
UTF-8不需要BOM來表明字節(jié)順序,但可以用BOM來表明編碼方式。字符"ZERO WIDTH NO-BREAK SPACE"的UTF-8編碼是EF BB BF。所以如果接收者收到以EF BB BF開頭的字節(jié)流,就知道這是UTF-8編碼了。
Windows就是使用BOM來標(biāo)記文本文件的編碼方式的。
另外unicode網(wǎng)站的FAQ-BOM詳細(xì)介紹了BOM。官方的自然權(quán)威,不過是英文的,看起來比較費(fèi)勁。
UTF-8編碼的文件中,BOM占三個(gè)字節(jié)。如果用記事本把一個(gè)文本文件另存為UTF-8編碼方式的話,用UE打開這個(gè)文件,切換到十六進(jìn)制編輯狀態(tài)就可以看到開頭的FFFE了。這是個(gè)標(biāo)識UTF-8編碼文件的好辦法,軟件通過BOM來識別這個(gè)文件是否是UTF-8編碼,很多軟件還要求讀入的文件必須帶BOM。可是,還是有很多軟件不能識別BOM。我在研究Firefox的時(shí)候就知道,在Firefox早期的版本里,擴(kuò)展是不能有BOM的,不過Firefox 1.5以后的版本已經(jīng)開始支持BOM了。現(xiàn)在又發(fā)現(xiàn),PHP也不支持BOM。
PHP在設(shè)計(jì)時(shí)就沒有考慮BOM的問題,也就是說他不會忽略UTF-8編碼的文件開頭BOM的那三個(gè)字符。由于必須在
在Bo-Blog的wiki看到,同樣使用PHP的Bo-Blog也一樣受到BOM的困擾。其中有提到另一個(gè)麻煩:“受COOKIE送出機(jī)制的限制,在這些文件開頭已經(jīng)有BOM的文件中,COOKIE無法送出(因?yàn)樵贑OOKIE送出前PHP已經(jīng)送出了文件頭),所以登入和登出功能失效。一切依賴COOKIE、SESSION實(shí)現(xiàn)的功能全部無效。”這個(gè)應(yīng)該就是Wordpress后臺出現(xiàn)空白頁面的原因了,因?yàn)槿魏我粋€(gè)被執(zhí)行的文件包含了BOM,這三個(gè)字符都將被送出,導(dǎo)致依賴cookies和session的功能失效。
解決的辦法嘛,如果只包含英文字符(或者說ASCII編碼內(nèi)的字符),就把文件存成ASCII碼方式吧。用UE等編輯器的話,點(diǎn)文件->轉(zhuǎn)換->UTF-8轉(zhuǎn)ASCII,或者在另存為里選擇ASCII編碼。如果是DOS格式的行尾符,可以用記事本打開,點(diǎn)另存為,選ASCII編碼。如果包含中文字符的話,可以用UE的另存為功能,選擇“UTF-8 無 BOM”即可。請參考下面的圖片:
根據(jù)Bo-Blog的wiki的說明:Editplus需要先另存為gb,再另存為UTF-8。不過這樣做要小心,所有GBK編碼中不包含的字符就會都丟了。如果有一些非中文的字符在文件里的話還是不要用這種辦法了。(從這一個(gè)小方面來看,UE――UltraEdite-32確實(shí)比Editplus好很多,Editplus太輕量級了)
另外我發(fā)現(xiàn)了一個(gè)辦法,就是利用Wordpress提供的文件編輯器。這個(gè)辦法不受限制,不需要去下載專門的編輯器,畢竟大家都在用Wordpress嘛。先在ftp里把要編輯的文件的寫入權(quán)限打開,然后進(jìn)入Wordpress后臺->管理->文件編輯器,輸入要編輯文件的路徑,點(diǎn)編輯文件。在顯示出來的編輯界面中,你是看不到開頭的那三個(gè)字符的,不過沒關(guān)系,把光標(biāo)定位在整個(gè)文件的第一個(gè)字符前,按一下Backspace鍵。OK了,點(diǎn)更新文件吧,在ftp里刷新一下,可以看到文件小了3字節(jié),大功告成。
最后說一下,這是個(gè)大問題,所有要自己寫插件的,編輯別人的插件自己用的,需要修改模版的(這條估計(jì)每個(gè)人都需要吧),最好了解一下上面的知識,免得出現(xiàn)問題時(shí)不知所措。
官方網(wǎng)站信息如下http://www.unicode.org/faq/utf_bom.html#BOM?或者?PHP后面的代碼才會作為PHP代碼執(zhí)行,所以這三個(gè)字符將會直接輸出。如果插件的文件有這個(gè)問題,將會導(dǎo)致在后臺頁面里激活或者不激活插件后顯示白屏,如果是模版文件有這個(gè)問題,將會導(dǎo)致這三個(gè)字符直接輸出,造成頁面上方有一個(gè)小空行。國外的英文插件和模版一般都是用的ASCII碼的編碼方式,不會有BOM,只有國內(nèi)的插件和模版會由于作者的不知情造成問題。還有,大家修改模版的時(shí)候,由于輸出頁面使用UTF-8編碼,那么修改模版的時(shí)候如果有加入中文字符的話,必須把文件轉(zhuǎn)成UTF-8編碼才能正常顯示,這個(gè)時(shí)候如果所使用的編輯器自動加上了BOM的話,將會造成在頁面上輸出這三個(gè)字符,顯示效果就要看瀏覽器了,一般是一個(gè)空行或是一個(gè)亂碼。BR>