PHP正則表達式的逆向引用與子模式分析

2020-03-16 21:11:31

字體：大中小

來源：轉載

供稿：網友

一直沒有弄明白逆向引用(也譯做間接引用或后向引用)到底是什么概念，也一直不知道//1到底怎么就能引用到前面的內容，經過看教程，明白這個是和子模式聯(lián)系在一起的。

正則表達式一個最重要的特性就是將匹配成功的模式的某部分進行存儲供以后使用這一能力。
對一個正則表達式模式或部分模式兩邊添加圓括號()可以把這部分表達式存儲到一個臨時緩沖區(qū)中。

所捕獲的每個子匹配都按照在正則表達式模式中從左至右所遇到的內容按順序存儲。
存儲子匹配的緩沖區(qū)編號從1開始，連續(xù)編號至最大99個子表達式。
每個緩沖區(qū)都可以使用'/n'(或用'$n')訪問，其中n為1至99的阿拉伯數(shù)字，用來按順序標識特定緩沖區(qū)(子表達式)。

例1：最簡單最有用的例子是確定文字中連續(xù)出現(xiàn)兩個相同單詞的位置

復制代碼代碼如下:

		
		<?php 
		$string = "Is is the cost of of gasoline going up up"; 
		$pattern = "//b([a-z]+) //1/b/i"; //這里的//1不能使用/$1或$1 
		$str = preg_replace($pattern, "//1", $string); //這里的//1可以使用/$1或$1，引用第一個子匹配 
		echo $str; //效果是Is the cost of gasoline going up 
		?> 

例中的子表達式就是圓括號內的項。/b匹配單詞的開始或結束。+匹配重復一次或更多次。
該子表達式匹配的是一個或多個字母字符的單詞，即由'[a-z]+'匹配的。

該正則表達式的第二部分是對前面所捕獲的子匹配的引用，也就是由附加表達式所匹配的第二次出現(xiàn)的單詞，用'//1'來引用第一個子匹配，第一個/是轉義符。

i是正則表達式中的修正符。i：忽略大小寫。

例2：

正則表達式的逆向引用($0-99或//0-99)和子模式以(/()/)開始。
這里$0是全部匹配模式的匹配項。$1是第1個子匹配，$2至$99依次是第2個至第99個子匹配。
用$1-99后向引用子匹配時，如果后面的字符是數(shù)字，要用花括號區(qū)別開。例：${1}1 。

函數(shù)
mixed preg_replace ( mixed pattern, mixed replacement, mixed subject [, int limit])

功能
在 subject 中搜索 pattern 模式的匹配項并替換為 replacement。如果指定了 limit，則僅替換 limit 個匹配，如果省略 limit 或者其值為 -1，則所有的匹配項都會被替換。
replacement可以包含//n形式或$n形式的逆向引用，n可以為0到99，//n表示匹配pattern第n個子模式的文本，//0表示匹配整個pattern的文本。

子模式
$pattern參數(shù)中被圓括號括起來的正則表達式，子模式的數(shù)目即從左到右圓括號的數(shù)目。（pattern即模式）

例子

復制代碼代碼如下:

		
		<?php 
		$time=date("Y-m-d H:i:s"); 
		$pattern = "/(/d{4})-(/d{2})-(/d{2}) (/d{2}):(/d{2}):(/d{2})/i"; 
		$replacement = "/$time格式為：$0<BR>替換后的格式為：$1年$2月$3日 $4時$5分$6秒"; 
		print preg_replace($pattern, $replacement, $time); 
		?> 

輸出：
$time格式為：2011-07-25 17:59:26
替換后的格式為：2011年07月25日 17時59分26秒

附正則表達式符號對照表

字符	描述
/	將下一個字符標記為一個特殊字符、或一個原義字符、或一個向后引用、或一個八進制轉義符。例如，'n' 匹配字符 "n"。'/n' 匹配一個換行符。序列 '//' 匹配 "/" 而 "/(" 則匹配 "("。
^	匹配輸入字符串的開始位置。如果設置了 RegExp 對象的 Multiline 屬性，^ 也匹配 '/n' 或 '/r' 之后的位置。
$	匹配輸入字符串的結束位置。如果設置了RegExp 對象的 Multiline 屬性，$ 也匹配 '/n' 或 '/r' 之前的位置。
*	匹配前面的子表達式零次或多次。例如，zo* 能匹配 "z" 以及 "zoo"。* 等價于{0,}。
+	匹配前面的子表達式一次或多次。例如，'zo+' 能匹配 "zo" 以及 "zoo"，但不能匹配 "z"。+ 等價于 {1,}。
?	匹配前面的子表達式零次或一次。例如，"do(es)?" 可以匹配 "do" 或 "does" 中的"do" 。? 等價于 {0,1}。
{n}	n 是一個非負整數(shù)。匹配確定的 n 次。例如，'o{2}' 不能匹配 "Bob" 中的 'o'，但是能匹配 "food" 中的兩個 o。
{n,}	n 是一個非負整數(shù)。至少匹配n 次。例如，'o{2,}' 不能匹配 "Bob" 中的 'o'，但能匹配 "foooood" 中的所有 o。'o{1,}' 等價于 'o+'。'o{0,}' 則等價于 'o*'。
{n,m}	m 和 n 均為非負整數(shù)，其中n <= m。最少匹配 n 次且最多匹配 m 次。例如，"o{1,3}" 將匹配 "fooooood" 中的前三個 o。'o{0,1}' 等價于 'o?'。請注意在逗號和兩個數(shù)之間不能有空格。
?	當該字符緊跟在任何一個其他限制符 (*, +, ?, {n}, {n,}, {n,m}) 后面時，匹配模式是非貪婪的。非貪婪模式盡可能少的匹配所搜索的字符串，而默認的貪婪模式則盡可能多的匹配所搜索的字符串。例如，對于字符串 "oooo"，'o+?' 將匹配單個 "o"，而 'o+' 將匹配所有 'o'。
.	匹配除 "/n" 之外的任何單個字符。要匹配包括 '/n' 在內的任何字符，請使用象 '[./n]' 的模式。
(pattern)	匹配 pattern 并獲取這一匹配。所獲取的匹配可以從產生的 Matches 集合得到，在VBScript 中使用 SubMatches 集合，在JScript 中則使用 $0…$9 屬性。要匹配圓括號字符，請使用 '/(' 或 '/)'。
(?:pattern)	匹配 pattern 但不獲取匹配結果，也就是說這是一個非獲取匹配，不進行存儲供以后使用。這在使用 "或" 字符 (\|) 來組合一個模式的各個部分是很有用。例如， 'industr(?:y\|ies) 就是一個比 'industry\|industries' 更簡略的表達式。
(?=pattern)	正向預查，在任何匹配 pattern 的字符串開始處匹配查找字符串。這是一個非獲取匹配，也就是說，該匹配不需要獲取供以后使用。例如，'Windows (?=95\|98\|NT\|2000)' 能匹配 "Windows 2000" 中的 "Windows" ，但不能匹配 "Windows 3.1" 中的 "Windows"。預查不消耗字符，也就是說，在一個匹配發(fā)生后，在最后一次匹配之后立即開始下一次匹配的搜索，而不是從包含預查的字符之后開始。
(?!pattern)	負向預查，在任何不匹配 pattern 的字符串開始處匹配查找字符串。這是一個非獲取匹配，也就是說，該匹配不需要獲取供以后使用。例如'Windows (?!95\|98\|NT\|2000)' 能匹配 "Windows 3.1" 中的 "Windows"，但不能匹配 "Windows 2000" 中的 "Windows"。預查不消耗字符，也就是說，在一個匹配發(fā)生后，在最后一次匹配之后立即開始下一次匹配的搜索，而不是從包含預查的字符之后開始
x\|y	匹配 x 或 y。例如，'z\|food' 能匹配 "z" 或 "food"。'(z\|f)ood' 則匹配 "zood" 或 "food"。
[xyz]	字符集合。匹配所包含的任意一個字符。例如， '[abc]' 可以匹配 "plain" 中的 'a'。
[^xyz]	負值字符集合。匹配未包含的任意字符。例如， '[^abc]' 可以匹配 "plain" 中的'p'。
[a-z]	字符范圍。匹配指定范圍內的任意字符。例如，'[a-z]' 可以匹配 'a' 到 'z' 范圍內的任意小寫字母字符。
[^a-z]	負值字符范圍。匹配任何不在指定范圍內的任意字符。例如，'[^a-z]' 可以匹配任何不在 'a' 到 'z' 范圍內的任意字符。
/b	匹配一個單詞邊界，也就是指單詞和空格間的位置。例如， 'er/b' 可以匹配"never" 中的 'er'，但不能匹配 "verb" 中的 'er'。
/B	匹配非單詞邊界。'er/B' 能匹配 "verb" 中的 'er'，但不能匹配 "never" 中的 'er'。
/cx	匹配由 x 指明的控制字符。例如， /cM 匹配一個 Control-M 或回車符。x 的值必須為 A-Z 或 a-z 之一。否則，將 c 視為一個原義的 'c' 字符。
/d	匹配一個數(shù)字字符。等價于 [0-9]。
/D	匹配一個非數(shù)字字符。等價于 [^0-9]。
/f	匹配一個換頁符。等價于 /x0c 和 /cL。
/n	匹配一個換行符。等價于 /x0a 和 /cJ。
/r	匹配一個回車符。等價于 /x0d 和 /cM。
/s	匹配任何空白字符，包括空格、制表符、換頁符等等。等價于 [ /f/n/r/t/v]。
/S	匹配任何非空白字符。等價于 [^ /f/n/r/t/v]。
/t	匹配一個制表符。等價于 /x09 和 /cI。
/v	匹配一個垂直制表符。等價于 /x0b 和 /cK。
/w	匹配包括下劃線的任何單詞字符。等價于'[A-Za-z0-9_]'。
/W	匹配任何非單詞字符。等價于 '[^A-Za-z0-9_]'。
/xn	匹配 n，其中 n 為十六進制轉義值。十六進制轉義值必須為確定的兩個數(shù)字長。例如，'/x41' 匹配 "A"。'/x041' 則等價于 '/x04' & "1"。正則表達式中可以使用 ASCII 編碼。.
/num	匹配 num，其中 num 是一個正整數(shù)。對所獲取的匹配的引用。例如，'(.)/1' 匹配兩個連續(xù)的相同字符。
/n	標識一個八進制轉義值或一個向后引用。如果 /n 之前至少 n 個獲取的子表達式，則 n 為向后引用。否則，如果 n 為八進制數(shù)字 (0-7)，則 n 為一個八進制轉義值。
/nm	標識一個八進制轉義值或一個向后引用。如果 /nm 之前至少有 nm 個獲得子表達式，則 nm 為向后引用。如果 /nm 之前至少有 n 個獲取，則 n 為一個后跟文字 m 的向后引用。如果前面的條件都不滿足，若 n 和 m 均為八進制數(shù)字 (0-7)，則 /nm 將匹配八進制轉義值 nm。
/nml	如果 n 為八進制數(shù)字 (0-3)，且 m 和 l 均為八進制數(shù)字 (0-7)，則匹配八進制轉義值 nml。
/un	匹配 n，其中 n 是一個用四個十六進制數(shù)字表示的 Unicode 字符。例如， /u00A9 匹配版權符號 (?)。