php中mb_detect_encoding檢測文件編碼方法

2024-09-04 11:48:30

字體：大中小

來源：轉載

供稿：網(wǎng)友

關于文件編碼的檢測,百度一下一大把都是,但是確實沒有能用的,很多人建議 mb_detect_encoding() 檢測,可是不知為何我這不成功,什么都沒輸出,看到有人寫了個增強版,用 BOM 判斷的,我果斷就無視了,這東西完全不靠譜.

最終根據(jù)PHP手冊里 mb_detect_encoding 函數(shù)下方的例子,自己寫了一個檢測函數(shù),還包括自動檢測編碼并按指點編碼讀取文件的函數(shù),網(wǎng)上的方法我試過沒用才寫的,說不定環(huán)境不一樣導致的.所以萬一沒用，也別噴我，我只是共享想思路而已.

php手冊是這樣解釋的:

mb_detect_encoding — 檢測字符的編碼,string mb_detect_encoding ( string $str [,mixed $encoding_list = mb_detect_order() [,bool $strict = false ]])

這個函數(shù)有三個參數(shù)分別是:

1.str:待檢查的字符串

2.encoding_list:encoding_list 是一個字符編碼列表,編碼順序可以由數(shù)組或者逗號分隔的列表字符串指定.

如果省略了 encoding_list 將會使用 detect_order。

3.strict:strict 指定了是否嚴格地檢測編碼,默認是 FALSE.

下面舉個例子,代碼如下:

$encode = mb_detect_encoding($keytitle,array('ASCII','GB2312','GBK','UTF-8'));

三個參數(shù)分別是:被檢測的輸入變量,編碼方式的檢測順序(一旦為真,后面自動忽略),strict模式對編碼檢測的順序進行調(diào)整,將最大可能性放在前面,這樣減少被錯誤轉換的機會,一般要先排gb2312,當有GBK和UTF-8時,需要將常用的排列到前面.

完整實例代碼如下:

<?php

/**

* 檢測文件編碼

* @param string $file 文件路徑

* @return string|null 返回編碼名或 null

*/

function detect_encoding($file) {

    $list = array('GBK', 'UTF-8', 'UTF-16LE', 'UTF-16BE', 'ISO-8859-1');

    $str = file_get_contents($file);

    foreach ($list as $item) {

        $tmp = mb_convert_encoding($str, $item, $item);

        if (md5($tmp) == md5($str)) {

            return $item;

        }

    }

    return null;

}

/**

* 自動解析編碼讀入文件

* @param string $file 文件路徑

* @param string $charset 讀取編碼

* @return string 返回讀取內(nèi)容

*/

function auto_read($file, $charset='UTF-8') {

    $list = array('GBK', 'UTF-8', 'UTF-16LE', 'UTF-16BE', 'ISO-8859-1');

    $str = file_get_contents($file);

    foreach ($list as $item) {

        $tmp = mb_convert_encoding($str, $item, $item);

        if (md5($tmp) == md5($str)) {

            return mb_convert_encoding($str, $charset, $item);

        }

    }

    return "";

}