麻豆小视频在线观看_中文黄色一级片_久久久成人精品_成片免费观看视频大全_午夜精品久久久久久久99热浪潮_成人一区二区三区四区

<strike id="qgaug"></strike>

<ul id="qgaug"><option id="qgaug"></option></ul>

<noscript id="qgaug"><optgroup id="qgaug"></optgroup></noscript>

<bdo id="qgaug"><optgroup id="qgaug"></optgroup></bdo>

首頁 > 編程 > Python > 正文

python對html過濾處理的方法

2020-02-15 23:19:17

字體：大中小

來源：轉(zhuǎn)載

供稿：網(wǎng)友

如下所示：

##過濾HTML中的標(biāo)簽#將HTML中標(biāo)簽等信息去掉#@param htmlstr HTML字符串.def filter_tags(htmlstr): #先過濾CDATA re_cdata=re.compile('//<!/[CDATA/[[^>]*///]/]>',re.I) #匹配CDATA re_script=re.compile('</s*script[^>]*>[^<]*</s*//s*script/s*>',re.I)#Script re_style=re.compile('</s*style[^>]*>[^<]*</s*//s*style/s*>',re.I)#style re_br=re.compile('<br/s*?/?>')#處理換行 re_h=re.compile('</?/w+[^>]*>')#HTML標(biāo)簽 re_comment=re.compile('<!--[^>]*-->')#HTML注釋 re_stopwords=re.compile('/u3000')#去除無用的'/u3000'字符 s=re_cdata.sub('',htmlstr)#去掉CDATA s=re_script.sub('',s) #去掉SCRIPT s=re_style.sub('',s)#去掉style s=re_br.sub('/n',s)#將br轉(zhuǎn)換為換行 s=re_h.sub('',s) #去掉HTML 標(biāo)簽 s=re_comment.sub('',s)#去掉HTML注釋 s=re_stopwords.sub('',s) #去掉多余的空行 blank_line=re.compile('/n+') s=blank_line.sub('/n',s) s=replaceCharEntity(s)#替換實(shí)體 return s##替換常用HTML字符實(shí)體.#使用正常的字符替換HTML中特殊的字符實(shí)體.#你可以添加新的實(shí)體字符到CHAR_ENTITIES中,處理更多HTML字符實(shí)體.#@param htmlstr HTML字符串.def replaceCharEntity(htmlstr): CHAR_ENTITIES={'nbsp':' ','160':' ',    'lt':'<','60':'<',    'gt':'>','62':'>',    'amp':'&','38':'&',    'quot':'"','34':'"',} re_charEntity=re.compile(r'&#?(?P<name>/w+);') sz=re_charEntity.search(htmlstr) while sz:  entity=sz.group()#entity全稱，如>  key=sz.group('name')#去除&;后entity,如>為gt  try:   htmlstr=re_charEntity.sub(CHAR_ENTITIES[key],htmlstr,1)   sz=re_charEntity.search(htmlstr)  except KeyError:   #以空串代替   htmlstr=re_charEntity.sub('',htmlstr,1)   sz=re_charEntity.search(htmlstr) return htmlstr

以上這篇python對html過濾處理的方法就是小編分享給大家的全部內(nèi)容了，希望能給大家一個(gè)參考，也希望大家多多支持武林站長站。

上一篇：python查找指定文件夾下所有文件并按修改時(shí)間倒序排列的方法

下一篇：淺談Python中的bs4基礎(chǔ)

學(xué)習(xí)交流

如何重啟打印機(jī)打印服務(wù)

如何重啟打印機(jī)打印服務(wù)...

熱門圖片

猜你喜歡的新聞

猜你喜歡的關(guān)注

新聞熱點(diǎn)

明兮語文停止運(yùn)營發(fā)展資金鏈斷裂

2020-02-16 09:52:44

2006年李俊編寫了“熊貓燒香”電腦病毒，現(xiàn)在過得怎么樣？

2020-02-15 15:53:44

谷歌合并Alphabet旗下子公司Jigsaw，未來會如何發(fā)展？

2020-02-11 22:02:38

NASA說今天地球引力最小能讓掃帚立起來？原因很簡單

2020-02-11 21:45:12

TCL集團(tuán)宣布今日起正式更名為“TCL科技”

2020-02-07 10:36:18

黑莓曲終落，情懷價(jià)幾何？

2020-02-06 12:16:44

疑難解答

圖片精選

網(wǎng)友關(guān)注

主站蜘蛛池模板：国产一区视频观看 | 毛片免费视频观看 | 大胆在线日本aⅴ免费视频美国黄色毛片女人性生活片 | 好吊色37pao在线观看 | 91免费高清视频 | 999久久国产 | 久久久久久久久成人 | 欧美三级一级 | www.99热视频 | 青青青在线免费 | 成人免费观看在线视频 | 午夜啪视频| 龙床上的呻吟高h | 成人在线视频播放 | 成人国产精品一区 | 亚洲午夜在线观看 | 永久免费毛片 | 色域tv | 国产精品热 | 国产一区二区三区视频在线观看 | 欧美日韩在线看片 | 欧美成人免费电影 | 久久免费视频5 | 国产精品久久久久久久久久三级 | 国产亚洲精品yxsp | 日本欧美一区二区三区视频麻豆 | 97久色| 亚洲不卡 | www.91sp| 亚洲成人精品视频 | av在线免费观看国产 | h色网站在线观看 | 欧美精品1区 | 久久久麻豆 | 欧美激情视频一区二区免费 | 国产亚洲精品久久久久婷婷瑜伽 | www久久久久久 | 深夜免费视频 | 欧美精品一级片 | 久久精品一区二区三区不卡牛牛 | 一本色道久久综合亚洲精品图片 |

<strike id="e0ggw"></strike>

<sup id="e0ggw"></sup>

<samp id="e0ggw"></samp>

<strike id="e0ggw"><rt id="e0ggw"></rt></strike><kbd id="e0ggw"><option id="e0ggw"></option></kbd>

<bdo id="e0ggw"><optgroup id="e0ggw"></optgroup></bdo>

<kbd id="e0ggw"><option id="e0ggw"></option></kbd>