麻豆小视频在线观看_中文黄色一级片_久久久成人精品_成片免费观看视频大全_午夜精品久久久久久久99热浪潮_成人一区二区三区四区

首頁(yè) > 編程 > PHP > 正文

PHP截取HTML代碼串

2020-03-24 17:21:01
字體:
來(lái)源:轉(zhuǎn)載
供稿:網(wǎng)友
需求:將一段文字截取一定的物理長(zhǎng)度顯示,注意,要截取的不是字符串的字節(jié)數(shù),UFT-8 的編碼中文字符是3個(gè)字節(jié)或者4個(gè)字節(jié)的,而顯示的時(shí)候中文會(huì)占兩個(gè)字符的長(zhǎng)度,英文字符只占一個(gè),全角的時(shí)候又有不同。而且給的數(shù)據(jù)是HTML代碼串,比如這樣: div >截取的時(shí)候是要截取 div 標(biāo)簽內(nèi)部的東西,而且要保留HTML標(biāo)簽,只是對(duì)其中的文字做處理。比如我可能只是截取到 李四 的 李 字,但是如果就這樣放到前端的話, 李四 前面的 a 標(biāo)簽是沒(méi)有閉合的,所以截取之后要保證HTML的語(yǔ)法正確。這個(gè)問(wèn)題確實(shí)不太好搞,讓我郁悶了兩天。請(qǐng)注意,這只是一個(gè)字符串,只不過(guò)內(nèi)容是HTML代碼,是沒(méi)有什么DOM的。如果是在前端處理就好辦了,直接DOM獲取,然后對(duì)里面的節(jié)點(diǎn)進(jìn)行處理,最后把innerHTML 之類的東西輸出就搞定了。現(xiàn)在可不行了,得換個(gè)思路。同事的思路是這樣的:遍歷字符串的每一個(gè)字符。設(shè)置一個(gè)標(biāo)記,碰到標(biāo)簽開(kāi)始的標(biāo)記 就置為1,接下來(lái)的字符都不記數(shù),然后碰到 之后再開(kāi)始計(jì)數(shù)。對(duì)標(biāo)簽內(nèi)部的字符串處理的時(shí)候,還要先判斷當(dāng)前字符的編碼是不是可能是中文,一般來(lái)說(shuō)PHP中 UTF-8 編碼的中文字符的長(zhǎng)度都是3,所以如果碰到是中文字符編碼,就要跳過(guò)兩個(gè)不記數(shù) 說(shuō)到這里我自己頭已經(jīng)開(kāi)始大了。個(gè)人認(rèn)為這種方法很不爽,首先這種精致的邏輯不太容易控制,而且 UFT-8 編碼下中文產(chǎn)生的長(zhǎng)度有可能是3個(gè)或4個(gè) 所以代碼的嚴(yán)密性值得懷疑。我個(gè)人的思路是,用 Tidy 來(lái)搞(具體用法請(qǐng)看PHP手冊(cè)吧)。昨天研究了一下那個(gè) Tidy ,發(fā)現(xiàn)這個(gè)東西還是挺好用的。首先,把這個(gè)html' target='_blank'>字符串轉(zhuǎn)換成 Tidy 對(duì)象,這樣:

$tidy = tidy_parse_string($str, array(), utf8 ); // 最后一個(gè)是設(shè)置編碼的,注意,這里是utf8 ,不是utf-8,沒(méi)有中間那個(gè)連線。然后獲取$tidy中的 body(因?yàn)檗D(zhuǎn)換之后$tidy會(huì)自動(dòng)加上 head body 等標(biāo)簽):$body = tidy_get_body($tidy);這個(gè)時(shí)候你可以用 var_dump 看一些 $body 的結(jié)構(gòu),會(huì)發(fā)現(xiàn)它把每個(gè)標(biāo)簽都變成了一個(gè)對(duì)應(yīng)的對(duì)象,里面有相應(yīng)的屬性。舉例來(lái)說(shuō),比如 a href= # sdf /a ,這么一條語(yǔ)句對(duì)應(yīng)的一些屬性有:name= a
value = a href= # sdf /a
child= array{[0]= 一個(gè)文本節(jié)點(diǎn)對(duì)象,value是 sdf}
attribute=array{ href = # }
..其他屬性可以看到,我們其實(shí)是可以單獨(dú)去處理 a 標(biāo)簽對(duì)應(yīng)節(jié)點(diǎn)下面的文字節(jié)點(diǎn)的值的,那樣就不會(huì)破壞任何HTML完整性。原來(lái)我以為改變 a 標(biāo)簽中文字節(jié)點(diǎn)的值之后, a 標(biāo)簽的value也會(huì)跟著改變,那樣我直接返回a標(biāo)簽對(duì)應(yīng)節(jié)點(diǎn)的value就OK了,沒(méi)想到不是那個(gè)樣子,哎,所以處理過(guò)其中的文字之后還是要自己拼出新的HTML。知道了Tidy對(duì)象的結(jié)構(gòu)之后,一切就好辦了,只要遍歷所有的節(jié)點(diǎn),對(duì)于本需求來(lái)說(shuō),就是找到那個(gè) div 標(biāo)簽,然后開(kāi)始處理里面的節(jié)點(diǎn)。代碼如下:if(mb_strwidth($subchild- value, utf-8 ) = $len)
{
$subchild- value = mb_strimwidth($subchild- value, 0, $len, , utf-8 );
$trimed_str .= $subchild- value;
break;
}
else
{
$trimed_str .= $subchild- value;
$len = $len - mb_strwidth($subchild- value, utf-8 );
}里面的$subchild 就是一個(gè)子節(jié)點(diǎn)。注意,這里使用了 mb_strwidth 來(lái)獲取字符串長(zhǎng)度。嚴(yán)重推薦一下這個(gè) mb_strwidth,很好用,它會(huì)把中文當(dāng)作兩個(gè)字符長(zhǎng)度處理,正好符合這里的需求!而且截取字符串的時(shí)候用到了 mb_strimwidth,這個(gè)函數(shù)也會(huì)把中文當(dāng)作兩個(gè)字符長(zhǎng)度處理,mb_ 開(kāi)頭的函數(shù)真是好用啊。具體代碼我就不寫出來(lái)了,因?yàn)槭轻槍?duì)一個(gè)需求寫的,沒(méi)做成通用的形式。哪天我有時(shí)間做成通用的再發(fā)布一下。另外,可惜FireFox不支持 text-overflow 屬性,不然也不用后臺(tái)那么辛苦地去截?cái)嗔恕H绻蠹矣懈玫姆椒ǎ瑲g迎提出!不勝感激。html教程

鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標(biāo)記有誤,請(qǐng)第一時(shí)間聯(lián)系我們修改或刪除,多謝。

發(fā)表評(píng)論 共有條評(píng)論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 男女无套免费视频 | av手机免费在线观看 | 国产亚洲精品久久久久5区 日韩一级片一区二区三区 国产精品久久久久av | 精品免费国产一区二区三区 | 国产精品久久久久免费视频 | 一级毛片播放 | 亚洲成人激情在线 | 性高湖久久久久久久久aaaaa | 成人毛片网站 | 91精品观看91久久久久久国产 | 精品一区二区在线视频 | 久久久一区二区精品 | 成人视屏在线 | 成人免费毛片在线观看 | 久久91精品久久久久清纯 | 嫩草影院在线观看网站成人 | 一区二区三区视频在线 | 天天看成人免费毛片视频 | 国产成人在线免费观看视频 | 一级毛片在线免费观看视频 | 成年人在线视频 | 欧美18一12sex性处hd | 在线亚洲播放 | www.777含羞草| 亚洲午夜电影 | 免费在线中文字幕 | 久久国产精品网 | 中文字幕综合在线观看 | 在线观看va | 免费毛片电影 | 看毛片免费 | 免费看成人av | 国产毛片网 | 色吧久久 | a黄毛片| 视频一区二区三区在线 | 久久久久久久久久久影视 | 国产一区二区免费在线观看视频 | 亚洲成人激情在线 | 成人av一区二区免费播放 | 日韩精品二区 |