正則表達(dá)式使用詳解
簡介
簡單的說,正則表達(dá)式是一種可以用于模式匹配和替換的強(qiáng)有力的工具。其作用如下:
測試字符串的某個模式。例如,可以對一個輸入字符串進(jìn)行測試,看在該字符串是否存在一個電話號碼模式或一個信用卡號碼模式。這稱為數(shù)據(jù)有效性驗(yàn)證。
替換文本。可以在文檔中使用一個正則表達(dá)式來標(biāo)識特定文字,然后可以全部將其刪除,或者替換為別的文字。
根據(jù)模式匹配從字符串中提取一個子字符串。可以用來在文本或輸入字段中查找特定文字。
基本語法
在對正則表達(dá)式的功能和作用有了初步的了解之后,我們就來具體看一下正則表達(dá)式的語法格式。
正則表達(dá)式的形式一般如下:
/love/其中位于“/”定界符之間的部分就是將要在目標(biāo)對象中進(jìn)行匹配的模式。用戶只要把希望查找匹配對象的模式內(nèi)容放入“/”定界符之間即可。為了能夠使用戶更加靈活的定制模式內(nèi)容,正則表達(dá)式提供了專門的“元字符”。所謂元字符就是指那些在正則表達(dá)式中具有特殊意義的專用字符,可以用來規(guī)定其前導(dǎo)字符(即位于元字符前面的字符)在目標(biāo)對象中的出現(xiàn)模式。
較為常用的元字符包括: “+”, “*”,以及 “?”。
“+”元字符規(guī)定其前導(dǎo)字符必須在目標(biāo)對象中連續(xù)出現(xiàn)一次或多次。
“*”元字符規(guī)定其前導(dǎo)字符必須在目標(biāo)對象中出現(xiàn)零次或連續(xù)多次。
“?”元字符規(guī)定其前導(dǎo)對象必須在目標(biāo)對象中連續(xù)出現(xiàn)零次或一次。
下面,就讓我們來看一下正則表達(dá)式元字符的具體應(yīng)用。
/fo+/因?yàn)樯鲜稣齽t表達(dá)式中包含“+”元字符,表示可以與目標(biāo)對象中的 “fool”, “fo”, 或者 “football”等在字母f后面連續(xù)出現(xiàn)一個或多個字母o的字符串相匹配。
/eg*/因?yàn)樯鲜稣齽t表達(dá)式中包含“*”元字符,表示可以與目標(biāo)對象中的 “easy”, “ego”, 或者 “egg”等在字母e后面連續(xù)出現(xiàn)零個或多個字母g的字符串相匹配。
/Wil?/因?yàn)樯鲜稣齽t表達(dá)式中包含“?”元字符,表示可以與目標(biāo)對象中的 “Win”, 或者“Wilson”,等在字母i后面連續(xù)出現(xiàn)零個或一個字母l的字符串相匹配。
有時候不知道要匹配多少字符。為了能適應(yīng)這種不確定性,正則表達(dá)式支持限定符的概念。這些限定符可以指定正則表達(dá)式的一個給定組件必須要出現(xiàn)多少次才能滿足匹配。
{n} n 是一個非負(fù)整數(shù)。匹配確定的 n 次。例如,'o{2}' 不能匹配 "Bob" 中的 'o',但是能匹配 "food" 中的兩個 o。
{n,} n 是一個非負(fù)整數(shù)。至少匹配 n 次。例如,'o{2,}' 不能匹配 "Bob" 中的 'o',但能匹配 "foooood" 中的所有 o。'o{1,}' 等價(jià)于 'o+'。'o{0,}' 則等價(jià)于 'o*'。
{n,m} m 和 n 均為非負(fù)整數(shù),其中n <= m。最少匹配 n 次且最多匹配 m 次。例如,"o{1,3}" 將匹配 "fooooood" 中的前三個 o。'o{0,1}' 等價(jià)于 'o?'。請注意在逗號和兩個數(shù)之間不能有空格。
除了元字符之外,用戶還可以精確指定模式在匹配對象中出現(xiàn)的頻率。例如,/jim {2,6}/ 上述正則表達(dá)式規(guī)定字符m可以在匹配對象中連續(xù)出現(xiàn)2-6次,因此,上述正則表達(dá)式可以同jimmy或jimmmmmy等字符串相匹配。
在對如何使用正則表達(dá)式有了初步了解之后,我們來看一下其它幾個重要的元字符的使用方式。
/s:用于匹配單個空格符,包括tab鍵和換行符;
/S:用于匹配除單個空格符之外的所有字符;
/d:用于匹配從0到9的數(shù)字;
/w:用于匹配字母,數(shù)字或下劃線字符;
/W:用于匹配所有與/w不匹配的字符;
. :用于匹配除換行符之外的所有字符。
(說明:我們可以把/s和/S以及/w和/W看作互為逆運(yùn)算)
下面,我們就通過實(shí)例看一下如何在正則表達(dá)式中使用上述元字符。
//s+/ 上述正則表達(dá)式可以用于匹配目標(biāo)對象中的一個或多個空格字符。
//d000/ 如果我們手中有一份復(fù)雜的財(cái)務(wù)報(bào)表,那么我們可以通過上述正則表達(dá)式輕而易舉的查找到所有總額達(dá)千元的款項(xiàng)。
除了我們以上所介紹的元字符之外,正則表達(dá)式中還具有另外一種較為獨(dú)特的專用字符,即定位符。定位符用于規(guī)定匹配模式在目標(biāo)對象中的出現(xiàn)位置。 較為常用的定位符包括: “^”, “$”, “/b” 以及 “/B”。
“^”定位符規(guī)定匹配模式必須出現(xiàn)在目標(biāo)字符串的開頭
“$”定位符規(guī)定匹配模式必須出現(xiàn)在目標(biāo)對象的結(jié)尾
“/b”定位符規(guī)定匹配模式必須出現(xiàn)在目標(biāo)字符串的開頭或結(jié)尾的兩個邊界之一
“/B”定位符則規(guī)定匹配對象必須位于目標(biāo)字符串的開頭和結(jié)尾兩個邊界之內(nèi),
即匹配對象既不能作為目標(biāo)字符串的開頭,也不能作為目標(biāo)字符串的結(jié)尾。
同樣,我們也可以把“^”和“$”以及“/b”和“/B”看作是互為逆運(yùn)算的兩組定位符。舉例來說: /^hell/ 因?yàn)樯鲜稣齽t表達(dá)式中包含“^”定位符,所以可以與目標(biāo)對象中以 “hell”, “hello”或“hellhound”開頭的字符串相匹配。 /ar$/ 因?yàn)樯鲜稣齽t表達(dá)式中包含“$”定位符,所以可以與目標(biāo)對象中以 “car”, “bar”或 “ar” 結(jié)尾的字符串相匹配。 //bbom/ 因?yàn)樯鲜稣齽t表達(dá)式模式以“/b”定位符開頭,所以可以與目標(biāo)對象中以 “bomb”, 或 “bom”開頭的字符串相匹配。/man/b/ 因?yàn)樯鲜稣齽t表達(dá)式模式以“/b”定位符結(jié)尾,所以可以與目標(biāo)對象中以 “human”, “woman”或 “man”結(jié)尾的字符串相匹配。
為了能夠方便用戶更加靈活的設(shè)定匹配模式,正則表達(dá)式允許使用者在匹配模式中指定某一個范圍而不局限于具體的字符。例如:
/[A-Z]/上述正則表達(dá)式將會與從A到Z范圍內(nèi)任何一個大寫字母相匹配。
/[a-z]/上述正則表達(dá)式將會與從a到z范圍內(nèi)任何一個小寫字母相匹配。
/[0-9]/ 上述正則表達(dá)式將會與從0到9范圍內(nèi)任何一個數(shù)字相匹配。
/([a-z][A-Z][0-9])+/ 上述正則表達(dá)式將會與任何由字母和數(shù)字組成的字符串,如 “aB0” 等相匹配。
這里需要提醒用戶注意的一點(diǎn)就是可以在正則表達(dá)式中使用 “()” 把字符串組合在一起。“()”符號包含的內(nèi)容必須同時出現(xiàn)在目標(biāo)對象中。因此,上述正則表達(dá)式將無法與諸如 “abc”等的字符串匹配,因?yàn)?ldquo;abc”中的最后一個字符為字母而非數(shù)字。
如果我們希望在正則表達(dá)式中實(shí)現(xiàn)類似編程邏輯中的“或”運(yùn)算,在多個不同的模式中任選一個進(jìn)行匹配的話,可以使用管道符 “|”。例如:/to|too|2/ 上述正則表達(dá)式將會與目標(biāo)對象中的 “to”, “too”, 或 “2” 相匹配。
正則表達(dá)式中還有一個較為常用的運(yùn)算符,即否定符 “[^]”。與我們前文所介紹的定位符 “^” 不同,否定符 “[^]”規(guī)定目標(biāo)對象中不能存在模式中所規(guī)定的字符串。例如:/[^A-C]/ 上述字符串將會與目標(biāo)對象中除A,B,和C之外的任何字符相匹配。一般來說,當(dāng)“^”出現(xiàn)在 “[]”內(nèi)時就被視做否定運(yùn)算符;而當(dāng)“^”位于“[]”之外,或沒有“[]”時,則應(yīng)當(dāng)被視做定位符。
最后,當(dāng)用戶需要在正則表達(dá)式的模式中加入元字符,并查找其匹配對象時,可以使用轉(zhuǎn)義符“/”。例如:/Th/*/ 上述正則表達(dá)式將會與目標(biāo)對象中的“Th*”而非“The”等相匹配。
在構(gòu)造正則表達(dá)式之后,就可以象數(shù)學(xué)表達(dá)式一樣來求值,也就是說,可以從左至右并按照一個優(yōu)先級順序來求值。優(yōu)先級如下:
1./ 轉(zhuǎn)義符
2.(), (?:), (?=), [] 圓括號和方括號
3.*, +, ?, {n}, {n,}, {n,m} 限定符
4.^, $, /anymetacharacter 位置和順序
5.|“或”操作
使用實(shí)例
在JavaScript 1.2中帶有一個功能強(qiáng)大的RegExp()對象,可以用來進(jìn)行正則表達(dá)式的匹配操作。其中的test()方法可以檢驗(yàn)?zāi)繕?biāo)對象中是否包含匹配模式,并相應(yīng)的返回true或false。
我們可以使用JavaScript編寫以下腳本,驗(yàn)證用戶輸入的郵件地址的有效性。
正則表達(dá)式對象
本對象包含正則表達(dá)式模式以及表明如何應(yīng)用模式的標(biāo)志。
語法 1 re = /pattern/[flags]
語法 2 re = new RegExp("pattern",["flags"])
參數(shù)
re
必選項(xiàng)。將要賦值為正則表達(dá)式模式的變量名。
Pattern
必選項(xiàng)。要使用的正則表達(dá)式模式。如果使用語法 1,用 "/" 字符分隔模式。如果用語法 2,用引號將模式引起來。
Flags
可選項(xiàng)。如果使用語法 2 要用引號將 flag 引起來。標(biāo)志可以組合使用,可用的有:
g (全文查找出現(xiàn)的所有 pattern)
i (忽略大小寫)
m (多行查找)
示例
下面的示例創(chuàng)建一個包含正則表達(dá)式模式及相關(guān)標(biāo)志的對象(re),向您演示正則表達(dá)式對象的用法。在本例中,作為結(jié)果的正則表達(dá)式對象又用于 match 方法中:
下面是具體的使用:
正則表達(dá)式有多種不同的風(fēng)格。下表是在PCRE中元字符及其在正則表達(dá)式上下文中的行為的一個完整列表:
字符 | 描述 |
---|---|
/ | 將下一個字符標(biāo)記為一個特殊字符、或一個原義字符、或一個向后引用、或一個八進(jìn)制轉(zhuǎn)義符。例如,“n”匹配字符“n”。“/n”匹配一個換行符。序列“//”匹配“/”而“/(”則匹配“(”。 |
^ | 匹配輸入字符串的開始位置。如果設(shè)置了RegExp對象的Multiline屬性,^也匹配“/n”或“/r”之后的位置。 |
$ | 匹配輸入字符串的結(jié)束位置。如果設(shè)置了RegExp對象的Multiline屬性,$也匹配“/n”或“/r”之前的位置。 |
* | 匹配前面的子表達(dá)式零次或多次。例如,zo*能匹配“z”以及“zoo”。*等價(jià)于{0,}。 |
+ | 匹配前面的子表達(dá)式一次或多次。例如,“zo+”能匹配“zo”以及“zoo”,但不能匹配“z”。+等價(jià)于{1,}。 |
? | 匹配前面的子表達(dá)式零次或一次。例如,“do(es)?”可以匹配“do”或“does”中的“do”。?等價(jià)于{0,1}。 |
{n} | n是一個非負(fù)整數(shù)。匹配確定的n次。例如,“o{2}”不能匹配“Bob”中的“o”,但是能匹配“food”中的兩個o。 |
{n,} | n是一個非負(fù)整數(shù)。至少匹配n次。例如,“o{2,}”不能匹配“Bob”中的“o”,但能匹配“foooood”中的所有o。“o{1,}”等價(jià)于“o+”。“o{0,}”則等價(jià)于“o*”。 |
{n,m} | m和n均為非負(fù)整數(shù),其中n<=m。最少匹配n次且最多匹配m次。例如,“o{1,3}”將匹配“fooooood”中的前三個o。“o{0,1}”等價(jià)于“o?”。請注意在逗號和兩個數(shù)之間不能有空格。 |
? | 當(dāng)該字符緊跟在任何一個其他限制符(*,+,?,{n},{n,},{n,m})后面時,匹配模式是非貪婪的。非貪婪模式盡可能少的匹配所搜索的字符串,而默認(rèn)的貪婪模式則盡可能多的匹配所搜索的字符串。例如,對于字符串“oooo”,“o+?”將匹配單個“o”,而“o+”將匹配所有“o”。 |
. | 匹配除“/n”之外的任何單個字符。要匹配包括“/n”在內(nèi)的任何字符,請使用像“[./n]”的模式。 |
(pattern) | 匹配pattern并獲取這一匹配。所獲取的匹配可以從產(chǎn)生的Matches集合得到,在VBScript中使用SubMatches集合,在JScript中則使用$0…$9屬性。要匹配圓括號字符,請使用“/(”或“/)”。 |
(?:pattern) | 匹配pattern但不獲取匹配結(jié)果,也就是說這是一個非獲取匹配,不進(jìn)行存儲供以后使用。這在使用或字符“(|)”來組合一個模式的各個部分是很有用。例如“industr(?:y|ies)”就是一個比“industry|industries”更簡略的表達(dá)式。 |
(?=pattern) | 正向預(yù)查,在任何匹配pattern的字符串開始處匹配查找字符串。這是一個非獲取匹配,也就是說,該匹配不需要獲取供以后使用。例如,“Windows(?=95|98|NT|2000)”能匹配“Windows2000”中的“Windows”,但不能匹配“Windows3.1”中的“Windows”。預(yù)查不消耗字符,也就是說,在一個匹配發(fā)生后,在最后一次匹配之后立即開始下一次匹配的搜索,而不是從包含預(yù)查的字符之后開始。 |
(?!pattern) | 負(fù)向預(yù)查,在任何不匹配pattern的字符串開始處匹配查找字符串。這是一個非獲取匹配,也就是說,該匹配不需要獲取供以后使用。例如“Windows(?!95|98|NT|2000)”能匹配“Windows3.1”中的“Windows”,但不能匹配“Windows2000”中的“Windows”。預(yù)查不消耗字符,也就是說,在一個匹配發(fā)生后,在最后一次匹配之后立即開始下一次匹配的搜索,而不是從包含預(yù)查的字符之后開始 |
x|y | 匹配x或y。例如,“z|food”能匹配“z”或“food”。“(z|f)ood”則匹配“zood”或“food”。 |
[xyz] | 字符集合。匹配所包含的任意一個字符。例如,“[abc]”可以匹配“plain”中的“a”。 |
[^xyz] | 負(fù)值字符集合。匹配未包含的任意字符。例如,“[^abc]”可以匹配“plain”中的“p”。 |
[a-z] | 字符范圍。匹配指定范圍內(nèi)的任意字符。例如,“[a-z]”可以匹配“a”到“z”范圍內(nèi)的任意小寫字母字符。 |
[^a-z] | 負(fù)值字符范圍。匹配任何不在指定范圍內(nèi)的任意字符。例如,“[^a-z]”可以匹配任何不在“a”到“z”范圍內(nèi)的任意字符。 |
/b | 匹配一個單詞邊界,也就是指單詞和空格間的位置。例如,“er/b”可以匹配“never”中的“er”,但不能匹配“verb”中的“er”。 |
/B | 匹配非單詞邊界。“er/B”能匹配“verb”中的“er”,但不能匹配“never”中的“er”。 |
/cx | 匹配由x指明的控制字符。例如,/cM匹配一個Control-M或回車符。x的值必須為A-Z或a-z之一。否則,將c視為一個原義的“c”字符。 |
/d | 匹配一個數(shù)字字符。等價(jià)于[0-9]。 |
/D | 匹配一個非數(shù)字字符。等價(jià)于[^0-9]。 |
/f | 匹配一個換頁符。等價(jià)于/x0c和/cL。 |
/n | 匹配一個換行符。等價(jià)于/x0a和/cJ。 |
/r | 匹配一個回車符。等價(jià)于/x0d和/cM。 |
/s | 匹配任何空白字符,包括空格、制表符、換頁符等等。等價(jià)于[/f/n/r/t/v]。 |
/S | 匹配任何非空白字符。等價(jià)于[^/f/n/r/t/v]。 |
/t | 匹配一個制表符。等價(jià)于/x09和/cI。 |
/v | 匹配一個垂直制表符。等價(jià)于/x0b和/cK。 |
/w | 匹配包括下劃線的任何單詞字符。等價(jià)于“[A-Za-z0-9_]”。 |
/W | 匹配任何非單詞字符。等價(jià)于“[^A-Za-z0-9_]”。 |
/xn | 匹配n,其中n為十六進(jìn)制轉(zhuǎn)義值。十六進(jìn)制轉(zhuǎn)義值必須為確定的兩個數(shù)字長。例如,“/x41”匹配“A”。“/x041”則等價(jià)于“/x04&1”。正則表達(dá)式中可以使用ASCII編碼。. |
/num | 匹配num,其中num是一個正整數(shù)。對所獲取的匹配的引用。例如,“(.)/1”匹配兩個連續(xù)的相同字符。 |
/n | 標(biāo)識一個八進(jìn)制轉(zhuǎn)義值或一個向后引用。如果/n之前至少n個獲取的子表達(dá)式,則n為向后引用。否則,如果n為八進(jìn)制數(shù)字(0-7),則n為一個八進(jìn)制轉(zhuǎn)義值。 |
/nm | 標(biāo)識一個八進(jìn)制轉(zhuǎn)義值或一個向后引用。如果/nm之前至少有nm個獲得子表達(dá)式,則nm為向后引用。如果/nm之前至少有n個獲取,則n為一個后跟文字m的向后引用。如果前面的條件都不滿足,若n和m均為八進(jìn)制數(shù)字(0-7),則/nm將匹配八進(jìn)制轉(zhuǎn)義值nm。 |
/nml | 如果n為八進(jìn)制數(shù)字(0-3),且m和l均為八進(jìn)制數(shù)字(0-7),則匹配八進(jìn)制轉(zhuǎn)義值nml。 |
/un | 匹配n,其中n是一個用四個十六進(jìn)制數(shù)字表示的Unicode字符。例如,/u00A9匹配版權(quán)符號(?)。 |
新聞熱點(diǎn)
疑難解答
圖片精選