什么時(shí)候會(huì)用到遞歸正則表達(dá)式呢? 當(dāng)然是待匹配的字串中遞歸地出現(xiàn)某種模式時(shí)(貌似廢話),最經(jīng)典的例子,就是遞歸正則處理嵌套括號(hào)的問題了.
例子如下:假設(shè)你的文本中包含了正確配對(duì)的嵌套括號(hào),括號(hào)的深度可以是無限層,你想捕獲這樣的括號(hào)組.
恕我劇透,標(biāo)準(zhǔn)答案是這樣的,代碼如下:
- <?php
- $string = "some text (a(b(c)d)e) more text";
- if(preg_match("/(([^()]+|(?R))*)/",$string,$matches))
- {
- echo "<pre>"; print_r($matches); echo "</pre>";
- }
- ?>
- /*
- 其輸出結(jié)果是:
- Array
- (
- [0] => (a(b(c)d)e)
- [1] => e
- )
- */
可見,我們所需要的文本,已經(jīng)捕獲到$matches[0]中了.
現(xiàn)在思考原理:上面的正則表達(dá)式中的關(guān)鍵點(diǎn)是(?R).(?R)的作用就是遞歸地替換它所在的整條正則表達(dá)式. 在每次迭代時(shí), PHP 語法分析器都會(huì)將(?R)替換為”(([^()]+|(?R))*)“.
因此,具體到上述的例子,其正則表達(dá)式等價(jià)于如下代碼:
"/(([^()]+|(([^()]+|(([^()]+)*))*))*)/"
但是上面的代碼只適合深度為3層的括號(hào),對(duì)于未知深度的括號(hào)嵌套,就只好使用這種正則了,代碼如下:
"/(([^()]+|(?R))*)/"
它不但能夠匹配無限深度,還簡(jiǎn)化了正則表達(dá)式的語法,功能強(qiáng)大,語法簡(jiǎn)潔,現(xiàn)在來細(xì)看一下"/(([^()]+|(?R))*)/"是怎樣匹配"(a(b(c)d)e)"的:
1."(c)"這部分被正則式 "(([^()]+)*)" 匹配. 請(qǐng)注意, (c) 其實(shí)就相當(dāng)于整個(gè)遞歸的一個(gè)縮影, 麻雀雖小五臟俱全, 因此它用到了整個(gè)正則表達(dá)式,換言之,下一步中的(c), 可以使用(?R) 來匹配.
2.(b(c)d)的匹配過程為:
1."("匹配"(";
2."[^()]+"匹配"b";
3. (?R)匹配"(c)";
4."[^()]+"匹配"d";
5.")"匹配")".
根據(jù)上面的匹配原理,不難理解為什么數(shù)組的第2個(gè)元素$matches[1]與'e'等價(jià).子串'e'是在最后一次匹配迭代中被捕獲,匹配過程中,只有最后一次的捕獲結(jié)果才會(huì)保存到數(shù)組中.
rex注:關(guān)于這個(gè)特性,可以自行嘗試一下,看看使用正則式([a-z]+[0-9]+)+來匹配字串a(chǎn)bc123xyz890, 其捕獲結(jié)果$1是什么,注意,其結(jié)果與 Left Longest 原理并不沖突.
如果我們只需要捕獲 $matches[0],可以這樣做,代碼如下:
- <?php
- $string = "some text (a(b(c)d)e) more text";
- if(preg_match("/((?:[^()]+|(?R))*)/",$string,$matches))
- {
- echo "<pre>"; print_r($matches); echo "</pre>";
- }
- ?>
- //產(chǎn)生的結(jié)果相同:
- Array
- (
- [0] => (a(b(c)d)e)
- )
所做的改動(dòng)是捕獲括號(hào)()改為非捕獲捕獲括號(hào)(?:)了.
還可以進(jìn)一步完善為如下代碼:
- <?php
- $string = "some text (a(b(c)d)e) more text";
- if(preg_match("/((?>[^()]+|(?R))*)/",$string,$matches))
- {
- echo "<pre>"; print_r($matches); echo "</pre>";
- }
- ?>
這里我們用到了所謂的一次性模式(rex注:余晟先生譯的《精通正則表達(dá)式v3.0》中,謂之”固化分組”. 可參考該書.) PHP手冊(cè)也推薦只要條件允許,就盡可能使用這種模式,以便提升正則表達(dá)式的速度.
新聞熱點(diǎn)
疑難解答