這幾天在用正則表達(dá)式做一個(gè)小程序,需要替換內(nèi)容中的某些特殊字符串。這些字符串的出現(xiàn)是有規(guī)律的,那就是在它左面總會(huì)特定的內(nèi)容出現(xiàn),右面卻沒有。于是自然就想到了反向預(yù)搜索。
在以前的應(yīng)用,大多是應(yīng)用正向預(yù)搜索情況。也就是說(shuō),在查找內(nèi)容的右面有特定的內(nèi)容限定,例如下面的例子:
復(fù)制代碼代碼如下:
var str3 = 'CPU: Intel Core2 5200; Memory: 2G;OS: Ubuntu 9.04';
var reg3 = /Memory/:/s+(.*(?=/;OS/:))/gim;
str3.match(reg3);
alert(RegExp.$1); //結(jié)果是2G
(.*(?=/;OS/:) 就是典型的正向預(yù)搜索,只有右面內(nèi)容是“;OS: ”才會(huì)被匹配到。
但是現(xiàn)在要實(shí)現(xiàn)的效果,左面的內(nèi)容是固定,而不是右面。可是JavaScript并不支持反向預(yù)搜索。我相信,細(xì)心的朋友已經(jīng)發(fā)現(xiàn)了,其實(shí)上面的例子已經(jīng)達(dá)到了這個(gè)目的(前面的Memory/:/s+ 限定了左面的內(nèi)容)。下面再給出一個(gè)例子:
復(fù)制代碼代碼如下:
//程序目的,去掉圖片路徑中的域名
var str = '<img src="http://news.163.com/sports/yao.jpg" >';
var reg1 = /(/<img)(.*(?=(http|https)/:////))((http|https)/:////[^//]*)/gim;
str.match(reg1);
alert(str.replace(RegExp.$4,''));
那么到底有沒有反向預(yù)搜索呢?答案是肯定的,可是現(xiàn)實(shí)是殘酷的。我查閱了一些資料,上面提到反向預(yù)搜索的形式是以?<= 或者?<! 為引導(dǎo)的。遺憾的是JavaScript并不支持,在高版本的Java中已獲支持,于是就編寫了下面的測(cè)試程序(JRE1.6.0_03):
復(fù)制代碼代碼如下:
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class RegExpTest {
public static void main(String[] args){
Pattern p = Pattern.compile("((?<=//<img.*(?=(http|https)))(http|https))");
Matcher matcher = p.matcher("<img src="http://news.163.com/sports/yao.jpg"/>");
System.out.println(matcher.matches());
}
}
程序本身應(yīng)該沒有什么問(wèn)題,但是運(yùn)行結(jié)果:
Exception in thread "main" java.util.regex.PatternSyntaxException: Look-behind group does not have an obvious maximum length near index 27
((?<=/<img.*(?=(http|https)))(http|https))
我Google了半天,最后得到的唯一結(jié)果就是換種寫法。希望看到這篇文章的朋友,如果已經(jīng)實(shí)現(xiàn)了這種效果,一定要留言不吝賜教。
另外,在我看文檔時(shí)看到了?:引導(dǎo)的正則表達(dá)式,上面說(shuō)是“匹配不存儲(chǔ)”,百思不得其解。感覺還是代碼來(lái)的實(shí)在,寫一個(gè)看一下:
復(fù)制代碼代碼如下:
var str2 = '客戶端名稱';
var reg2 = /(客戶端名(?:稱)?)/;
str2.match(reg2);
alert(RegExp.$1); //客戶端名稱
alert(RegExp.$2); //空字符串
//不使用?:
reg2 = /(客戶端名(稱)?)/;
str2.match(reg2);
alert(RegExp.$1); //客戶端名稱
alert(RegExp.$2); //稱
敏捷開發(fā)思想說(shuō):代碼是最好的文檔。給了我借口,呵呵。