麻豆小视频在线观看_中文黄色一级片_久久久成人精品_成片免费观看视频大全_午夜精品久久久久久久99热浪潮_成人一区二区三区四区

首頁 > 編程 > Regex > 正文

正則表達式的高級技巧分享

2020-03-22 19:11:58
字體:
來源:轉載
供稿:網友
html' target='_blank'>正則表達式(regular expression abbr. regex) 功能強大,能夠用于在一大串字符里找到所需信息。它利用約定俗成的字符結構表達式來發生作用。不幸的是,簡單的正則表達式對于一些高級運用,功能遠遠不夠。若要進行篩選的結構比較復雜,你可能就需要用到高級正則表達式。

本文介紹正則表達式的高級技巧。篩選出了八個常用的概念,并配上實例解析,每個例子都是滿足某種復雜要求的簡單寫法。如果你對正則的基本概念尚缺乏了解,請先閱讀這篇文章,或者這個教程,或者維基條目。

這里的正則語法適用于php,與perl兼容



1. 貪婪/懶惰


所有能多次限定的正則運算符都是貪婪的。他們盡可能多地匹配目標字符串,也就是說匹配結果會盡可能地長。不幸的是,這種做法并不總是我們想要的。因此,我們添加“懶惰”限定符來解決問題。在各個貪婪運算符后添加“?”能讓表達式只匹配盡可能短的長度。另外,修改器“u”也能惰化能多次限定的運算符。理解貪婪與懶惰的區別是運用高級正則表達式的基礎。

貪婪操作符
操作符 匹配之前的表達式零次或零次以上。它是一個貪婪操作符。請看下面的例子:

復制代碼 代碼如下:
preg_match( ' / h1 . /h1 /' ' h1 這是一個標題。 /h1
h1 這是另一個。 /h1 ' $matches )

句點(.)能代表除換行符外的任意字符。上面的正則表達式匹配 h1 標簽以及標簽內的所有內容。它用句點(.)和星號()來匹配標簽內的所有內容。匹配結果如下:

1. h1 這是一個標題。 /h1 h1 這是另一個。 /h1
整個字串都被返回。 操作符會連續匹配所有內容—— 甚至包括中間的 h1 閉合標簽。因為它是貪婪的,匹配整個字串是符合其利益最大化原則。

懶惰操作符
把上面的式子稍作修改,加上一個問號(?),能讓表達式變懶惰:

1./ h1 .? /h1 /
這樣它會覺得,只需匹配到第一個 h1 結尾標簽就完成任務了。

另一個有著類似屬性的貪婪操作符是 {n } 。它代表之前的匹配模式重復n次或n次以上,如果沒有加上問號,它會尋找盡可能多的重復次數,加上的話,則會盡可能少重復(當然也就是“重復n次”最少)。


復制代碼 代碼如下:
# 建立字串
$str = ' hihihi oops hi'
# 使用貪婪的{n }操作符進行匹配
preg_match( ' /(hi){2 }/' $str $matches ) # matches[0] 將是 ' hihihi'
# 使用墮化了的 {n }? 操作符匹配
preg_match( ' /(hi){2 }?/' $str $matches ) # matches[0] 將是 ' hihi'

2. 回返引用(back referencing)

有什么用?
回返引用(back referencing)一般被翻譯成“反向引用”、“后向引用”、“向后引用”,個人覺得“回返引用”更為貼切[笨活兒]。它是在正則表達式內部引用之前捕獲到的內容的方法。例如,下面這個簡單例子的目的是匹配出引號內部的內容:

復制代碼 代碼如下:
# 建立匹配數組
$matches = array()

# 建立字串
$str = " " this is a ' string' " "

# 用正則表達式捕捉內容
preg_match( " /(" |' ).?(" |' )/" $str $matches )

# 輸出整個匹配字串
echo $matches[0]

它會輸出:



1." this is a'
顯然,這并不是我們想要的內容。

這個表達式從開頭的雙引號開始匹配,遭遇單引號之后就錯誤地結束了匹配。這是因為表達式里說:(”|'),也就是雙引號(”)和單引號(')均可。要修正這個問題,你可以用到回返引用。表達式1 2 … 9 是對前面已捕獲到的各個子內容的編組序號,能作為對這些編組的“指針”而被引用。在此例中,第一個被匹配的引號就由 1 代表。

如何運用?
將上面的例子中,后面的閉合引號替換為1:

1.preg_match( ' /(" |' ).?1/' $str $matches )
這會正確地返回字串:

1." this is a ' string' "
譯注思考題:

如果是中文引號,前引號和后引號不是同一個字符,怎么辦?

還記得php函數 preg_replace 嗎?其中也有回返引用。只不過我們沒有用 1 … 9,而是用了 $1 … $9 … $n (此處任意數目均可)作為回返指針。例如,如果你想把所有的段落標簽 p 都替換成文本:

復制代碼 代碼如下:
$text = preg_replace( ' / p (.?) /p /'
" & lt p& gt $1& lt /p& gt " $html )

參數$1是一個回調引用,代表段落標簽 p 內部的文字,并插入到替換后的文本里。這種簡便易用的表達式寫法為我們提供了一個獲取已匹配文字的簡單方法,甚至在替換文本時也能使用。

3. 已命名捕獲組(named groups)
當在一個表達式內多次用到回調引用時,很容易就把事情搞混淆,要弄清那些數字(1 … 9)都代表哪一個子內容是件很麻煩的事。回調引用的一個替代方法是使用帶名字的捕獲組(下文簡稱“有名組”)。有名組使用(?p name pattern)來設定,name代表組名,pattern是配合該有名組的正則結構。請看下面的例子:

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時間聯系我們修改或刪除,多謝。

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 久久精品中文字幕一区二区 | 人人看人人艹 | 国产成人在线网址 | 色婷婷一区二区三区 | 亚洲成人综合网站 | 国产一区二区在线免费观看 | 最近中文字幕一区二区 | 最新一区二区三区 | 日韩电影av在线 | 99日韩精品视频 | 亚洲综合91| 毛片在线免费观看完整版 | 国产色妞影院wwwxxx | 看国产毛片 | free japan xxxxhdsex69 | 一区二区三区视频在线播放 | 国产91在线亚洲 | 91麻豆蜜桃一区二区三区 | 国产一区二区三区四区精 | 久久综合精品视频 | 逼特逼视频在线观看 | 国产69精品久久99不卡免费版 | 久久毛片免费 | 久久777国产线看观看精品 | 海角在线观看91一区二区 | 国产一级淫片免费看 | 羞羞视频免费网站含羞草 | 日本欧美一区二区三区视频麻豆 | 精品国产一区二区三区蜜殿 | 久草导航| 久久久亚洲欧美综合 | 国产亚洲综合一区二区 | 亚洲视色 | 日韩毛片在线看 | 久久久久久三区 | 97超碰资源站 | 中国杭州少妇xxxx做受 | 久久免费观看一级毛片 | 国产精品一品二区三区四区18 | 午夜视频在线在免费 | 中文字幕线观看 |