學習正則表達式的最好方法是從例子開始,理解例子之后再自己對例子進行修改,實驗。下面給出了不少簡單的例子,并對它們作了詳細的說明。
假設你在一篇英文小說里查找 hi,你可以使用正則表達式hi。
這幾乎是最簡單的正則表達式了,它可以精確匹配這樣的字符串:由兩個字符組成,前一個字符是h,后一個是i。通常,處理正則表達式的工具會提供一個忽略大小寫的選項,如果選中了這個選項,它可以匹配hi,HI,Hi,hI這四種情況中的任意一種。
不幸的是,很多單詞里包含hi這兩個連續的字符,比如him,history,high等等。用hi來查找的話,這里邊的hi也會被找出來。如果要精確地查找hi這個單詞的話,我們應該使用/bhi/b。
1): /b是正則表達式規定的一個特殊代碼(好吧,某些人叫它元字符,metacharacter),代表著單詞的開頭或結尾,也就是單詞的分界處。雖然通常英文的單詞是由空格,標點符號或者換行來分隔的,但是/b并不匹配這些單詞分隔字符中的任何一個,它只匹配一個位置。
假如你要找的是hi后面不遠處跟著一個Lucy,你應該用/bhi/b.*/bLucy/b。
這里,
2):.是另一個元字符,匹配除了換行符以外的任意字符。
3): *同樣是元字符,不過它代表的不是字符,也不是位置,而是數量——它指定*前邊的內容可以連續重復使用任意次以使整個表達式得到匹配。
因此,.*連在一起就意味著任意數量的不包含換行的字符。現在/bhi/b.*/bLucy/b的意思就很明顯了:先是一個單詞hi,然后是任意個任意字符(但不能是換行),最后是Lucy這個單詞。
如果同時使用其它元字符,我們就能構造出功能更強大的正則表達式。比如下面這個例子:0/d/d-/d/d/d/d/d/d/d/d匹配這樣的字符串:以0開頭,然后是兩個數字,然后是一個連字號“-”,最后是8個數字(也就是中國的電話號碼。當然,這個例子只能匹配區號為3位的情形)。
4): 這里的/d是個新的元字符,匹配一位數字(0,或1,或2,或……)。
-不是元字符,只匹配它本身——連字符(或者減號,或者中橫線,或者隨你怎么稱呼它)。
為了避免那么多煩人的重復,我們也可以這樣寫這個表達式:
5): 0/d{2}-/d{8}。這里/d后面的{2}({8})的意思是前面/d必須連續重復匹配2次(8次)。
為了方便后面學習正則表達式知識,可以下載一個正則表達式測試工具或者在線工具
參考博客:http://deerchao.net/tutorials/regex/regex.htm#mission
新聞熱點
疑難解答