php 截取字符串函數(中文字符串)

2024-09-04 11:48:00

字體：大中小

來源：轉載

供稿：網友

php 截取字符串函數（中文字符串）這是一款php 截取字符串函數哦，這是一款支持中文字符串哦，它可以截取html與中西文，等混合的內容，并且把html標簽不算在字符截取之內，如果html標簽沒有閉合，程序將自動過濾多余的標簽。

方法一：

function mysubstr( $str, $length ){



 $tagcnt = 0;

 $charcnt = 0;

 $tag = '';

 $maxlen = strlen( $str );

 $resultstr = '';

 $tagstack = array();

 for( $i = 0; $i < $length; $i++ ){

 if( $str[$i] == '<' ){

 $resultstr .= $str[$i];

 for( $j=$i; $str[$j]!='>'; $j++,$length++ ){

 $tag .= $str[$j];

 }

 $tagcnt++;

 $length++;

 $tag .= '>';



 //如果是開始標記，則入棧，如果是與之相對應的結束標記則出棧

 if( preg_match('/<([^/]+)?>/i', $tag, $r) ){

 echo '入棧:',htmlspecialchars($r[1]),' ';

 array_push($tagstack, $r[1]);

 }

 elseif( preg_match( '/'.$tagstack[count($tagstack)-1].'/', $tag ) ){

 echo '出棧:',htmlspecialchars($tagstack[count($tagstack)-1]),' ';

 array_pop( $tagstack );

 }

 $tag = '';

 continue;

 }

 $charcnt++;

 $resultstr .= $str[$i];

 }



 echo '<hr size=1>最后結果為:';

 //棧是空的直接返回

 if(emptyempty($tagstack)){

 return $resultstr;

 }

 //否則去掉沒有結束標記的開始標記

 else{



 while(!emptyempty($tagstack)){

 $tag = array_pop($tagstack);

 $index = strrpos($resultstr, $tag);

 for($i = $index-1; $resultstr[$i] != '>'; $i++ ){

 $resultstr[$i] = '';

 }

 $resultstr[$i++] = '';



 }

 return $resultstr;

 }



}

$sttime = microtime(true);

$stmem = memory_get_usage();

$str = "a1<body>b2c3d4e5f6</body>g7h8";

echo '處理結果為: <hr size=1>',htmlspecialchars( mysubstr( $str, 18 ) ),' ';

echo "內存使用情況:",(memory_get_usage()-$stmem),' ';

echo "算法運行時間(microtime):",(microtime(true)-$sttime),' ';

方法二：

**

* 函數名 html_substr

* 功能從html串中截取指定長度的字串，html標記不計算在內

* 參數

* $str 要截取的串

* $len 要截取的長度

* $mode 不匹配的標記的處理方式 0 刪去(默認)，1 補齊

* 返回截取到的串

* 說明

* 未考慮多字節字符，僅已字節做計數單位

* 未考慮可單獨存在的標記

**/

function html_substr($str, $len, $mode=0) {

 $ar= preg_split('/(|<[^>]*>)/s', $str, -1, preg_split_delim_capture);

 foreach($ar as $k => $v) {

 if($v{0} != '<') {

 $len = $len - strlen($v);

 if($len < 0) $ar[$k] = substr($v, 0, $len);

 }else $ar[$k] = strtolower($v);

 if($len <= 0) break;

 }

 $ar = array_slice($ar, 0, $k+1);

 $len = count($ar);

 foreach($ar as $k=>$v) {

 if($v{0} == '<' && $v[1] != '/') {

 $ch = str_replace('<', '</', $v);

 for($i=$k+1; $i<$len && $ar[$i]!=$ch; $i++);

 if($i == $len)

 if($mode)

 $ar[$len] = $ch . $ar[$len];

 else

 $ar[$k] = '';

 }

 }

 return join('', $ar);

}

$str = "123abc456def789";

echo '<xmp>';

echo html_substr($str, 5) . php_eol;

echo html_substr($str, 5, 1);

方法三：

$str = "a1<body>b2c3d4e5f6</body>g7h8";

$gn = 7;

$i = $j = $k = 0;

while( ($c = $str[$i++]) && $j < $gn )

{

 if( $c == '<')

 {

 $tag = 1;

 }

 elseif($c == '>')

 {

 if(trim($tg,'/') == 'em')

 {

 $tgs[$j-1] = '<'.$tg.'>';

 }

 else

 {

 if($tgs[$j-1]) $ogs[$j-1] = '1|'.'<'.$tg.'>';

 else $ogs[$j-1] = '0|'.'<'.$tg.'>';

 }

 $tag = 0;

 $tg = '';

 }

 elseif($tag == 1)

 {

 $tg .= $c;

 }

 else

 {

 $tmp[] = $c;

 $j++;

 }

}

$ts = count($tgs);

if($ts % 2) array_pop($tgs);

foreach($tmp as $k=>$v)

{

 $ba = explode('|',$ogs[$k],2);

 if( $tgs[$k] && $ogs[$k])

 {

 if($ba[0])

 {

 $s .= $v.$tgs[$k].$ba[1];

 }

 else $s .= $v.$ba[1].$tgs[$k];

 }

 else $s .= $v.$tgs[$k].$ba[1];

}

echo htmlspecialchars($s);