在php中html轉(zhuǎn)換成文本提供了自帶的函數(shù)strip_tags了,但有時(shí)此函數(shù)不夠用,下面總結(jié)了一些用戶自定的函數(shù),各位可參考.
最常用的使用php函數(shù)strip_tags,代碼如下:
- <?php
- $mystr=<<<SATO
- 此處省略幾十行HTML代碼^_^
- SATO;
- $str=strip_tags($mystr);
- //到這里就已經(jīng)達(dá)到我的HTML轉(zhuǎn)為TXT文本的目的了,哈哈,使用這個(gè)函數(shù)真方便
- //下面是插件的一些切詞等操作,這里就不多說了
- ?>
自定義函數(shù),代碼如下:
- <?php
- // $document 應(yīng)包含一個(gè) HTML 文檔。
- // 本例將去掉 HTML 標(biāo)記,javascript 代碼
- // 和空白字符。還會(huì)將一些通用的
- // HTML 實(shí)體轉(zhuǎn)換成相應(yīng)的文本。
- $search = array ("'<script[^>]*?>.*?</script>'si", // 去掉 javascript
- "'<[/!]*?[^<>]*?>'si", // 去掉 HTML 標(biāo)記
- "'([rn])[s]+'", // 去掉空白字符
- "'&(quot|#34);'i", // 替換 HTML 實(shí)體
- "'&(amp|#38);'i",
- "'&(lt|#60);'i",
- "'&(gt|#62);'i",
- "'&(nbsp|#160);'i",
- "'&(iexcl|#161);'i",
- "'&(cent|#162);'i",
- "'&(pound|#163);'i",
- "'&(copy|#169);'i",
- "'&#(d+);'e"); // 作為 PHP 代碼運(yùn)行
- $replace = array ("",
- "",
- "/1",
- """,
- "&",
- "<",
- ">",
- " ",
- chr(161),
- chr(162),
- chr(163),
- chr(169),
- "chr(/1)");
- $text = preg_replace ($search, $replace, $document);
- ?>
后來我從網(wǎng)上看到了一個(gè)使用PHP寫的方法,使用這個(gè)方法也可以實(shí)現(xiàn)將HTML轉(zhuǎn)為TXT文本,個(gè)人覺得也還蠻實(shí)用的,在這里分享一下,代碼如下:
- function HtmlToText($str){
- $str=preg_replace("/<sty(.*)/style>|<scr(.*)/script>|<!--(.*)-->/isU","",$str);//去除CSS樣式、JS腳本、HTML注釋
- $alltext="";//用于保存TXT文本的變量
- $start=1;//用于檢測(cè)<左、>右標(biāo)簽的控制開關(guān)
- for($i=0;$i<strlen($str);$i++){//遍歷經(jīng)過處理后的字符串中的每一個(gè)字符
- if(($start==0)&&($str[$i]==">")){//如果檢測(cè)到>右標(biāo)簽,則使用$start=1;開啟截取功能
- $start=1;
- }else if($start==1){//截取功能
- if($str[$i]=="<"){//如果字符是<左標(biāo)簽,則使用<font color='red'>|</font>替換
- $start=0;
- $alltext.="<font color='red'>|</font>";
- }else if(ord($str[$i])>31){//如果字符是ASCII大于31的有效字符,則將字符添加到$alltext變量中
- $alltext.=$str[$i];
- }
- }
- }
- //下方是去除空格和一些特殊字符的操作
- $alltext = str_replace(" "," ",$alltext);
- $alltext = preg_replace("/&([^;&]*)(;|&)/","",$alltext);
- $alltext = preg_replace("/[ ]+/s"," ",$alltext);
- return $alltext;
- }
使用下面這個(gè)方法也可以實(shí)現(xiàn)將簡答的HTML代碼轉(zhuǎn)換為TXT文本,實(shí)例代碼如下:
- function html2text($str,$encode = 'GB2312')
- {
- $str = preg_replace("/<style .*?</style>/is", "", $str);
- $str = preg_replace("/<script .*?</script>/is", "", $str);
- $str = preg_replace("/<br s*/?/>/i", "n", $str);
- $str = preg_replace("/</?p>/i", "nn", $str);
- $str = preg_replace("/</?td>/i", "n", $str);
- $str = preg_replace("/</?div>/i", "n", $str);
- $str = preg_replace("/</?blockquote>/i", "n", $str);
- $str = preg_replace("/</?li>/i", "n", $str);
- $str = preg_replace("/ /i", " ", $str);
- $str = preg_replace("/ /i", " ", $str);
- $str = preg_replace("/&/i", "&", $str);
- $str = preg_replace("/&/i", "&", $str);
- $str = preg_replace("/</i", "<", $str);
- $str = preg_replace("/</i", "<", $str);
- $str = preg_replace("/“/i", '"', $str);
- $str = preg_replace("/&ldquo/i", '"', $str);
- $str = preg_replace("/‘/i", "'", $str);
- $str = preg_replace("/&lsquo/i", "'", $str);
- $str = preg_replace("/’/i", "'", $str);
- $str = preg_replace("/&rsquo/i", "'", $str);
- $str = preg_replace("/>/i", ">", $str);
- $str = preg_replace("/>/i", ">", $str);
- $str = preg_replace("/”/i", '"', $str);
- $str = preg_replace("/&rdquo/i", '"', $str);
- $str = strip_tags($str);
- $str = html_entity_decode($str, ENT_QUOTES, $encode);
- $str = preg_replace("/&#.*?;/i", "", $str);
- return $str;
- }
|
新聞熱點(diǎn)
疑難解答