本文實(shí)例講述了正則表達(dá)式回溯引用backreference。分享給大家供大家參考,具體如下:
在所有例子中正則表達(dá)式匹配結(jié)果包含在源文本中的【和】之間,有的例子會使用Java來實(shí)現(xiàn),如果是java本身正則表達(dá)式的用法,會在相應(yīng)的地方說明。所有java例子都在JDK1.6.0_13下測試通過。
一、問題引入
一個在HTML頁面中匹配標(biāo)題標(biāo)簽(H1—H6)的問題:
文本:
<body><h1>Welcome to my page</H1>Content is divided into twosections:<br><h2>Introduction</h2>Information about me.<H2>Hobby</H2>Information about my hobby.<h2>This is invalid HTML</h3></body>
正則表達(dá)式:<[hH][1-6]>.*?</[hH][1-6]>
結(jié)果:
<body>
【<h1>Welcome to my page</H1>】
Content is divided into twosections:<br>
【<h2>Introduction</h2>】
Information about me.
【<H2>Hobby</H2>】
Information about my hobby.
【<h2>This is invalid HTML</h3>】
</body>
分析:模式<[hH][1-6]>匹配任何一級標(biāo)題的開始標(biāo)簽,而且不區(qū)分大小寫,在這個例子中它匹配到了<h1>、<h2>,</[hH][1-6]>匹配到了</h1>、</h2>、</h3>;這里使用了懶惰型元字符來匹配標(biāo)簽中的文本,否則會匹配到從第一個開始標(biāo)簽到最后一下結(jié)束標(biāo)簽之間的內(nèi)容。但是從結(jié)果可以看出,有一個無效的標(biāo)簽也匹配上了,即<h2></h3>,它們根本不能配對。要解決這個問題,就需要使用到回溯引用(backreference)。
二、回溯引用匹配
回溯引用是指模式的后半部分引用在前半部分中定義的子表達(dá)式。至于子表達(dá)式的使用、劃分和引用,在前面已經(jīng)介紹過了。現(xiàn)在來解決前面的例子:
文本:
<body><h1>Welcome to my page</H1>Content is divided into twosections:<br><h2>Introduction</h2>Information about me.<H2>Hobby</H2>Information about my hobby.<h2>This is invalid HTML</h3></body>
正則表達(dá)式:<[hH]([1-6])>.*?</[hH]/1>
結(jié)果:
<body>
【<h1>Welcome to my page</H1>】
Content is divided into twosections:<br>
【<h2>Introduction</h2>】
Information about me.
【<H2>Hobby</H2>】
Information about my hobby.
<h2>This is invalid HTML</h3>
分析:首先匹配開始標(biāo)題標(biāo)簽的模式<[hH]([1-6])>,使用括號把[1-6]做為子表達(dá)式,而匹配結(jié)束標(biāo)題標(biāo)簽?zāi)J綖?lt;/[hH]/1>,其中/1表示引用第一個子表達(dá)式,即([1-6]),如果([1-6])匹配到的是1,那/1也匹配到1,如果匹配到2,那/1也匹配到2,所以最后一個無效的標(biāo)題標(biāo)簽就不會被匹配到了。
希望本文所述對大家JavaScript程序設(shè)計有所幫助。
新聞熱點(diǎn)
疑難解答
圖片精選