正則基礎(chǔ)之 /b 單詞邊界

2020-03-16 21:16:32

字體：大中小

供稿：網(wǎng)友

1概述
“/b”匹配單詞邊界，不匹配任何字符。
“/b”匹配的只是一個(gè)位置，這個(gè)位置的一側(cè)是構(gòu)成單詞的字符，另一側(cè)為非單詞字符、字符串的開(kāi)始或結(jié)束位置。“/b”是零寬度的。
基本上所有的資料里都會(huì)說(shuō)“/b”是單詞邊界，但是關(guān)于“單詞”的范圍卻是少有提及。通常情況下，正則表達(dá)式中所謂的“單詞”，就是由“/w”所定義的字符所組成的子串。
“/b”表示所在位置的一側(cè)為單詞字符，另一側(cè)為非單詞字符、字符串的開(kāi)始或結(jié)束位置，也就相當(dāng)于
(?<!/w)(?=/w)|(?<=/w)(?!/w)
思考：以下寫(xiě)法為什么不等價(jià)于“/b”
(?<=/W)(?=/w)|(?<=/w)(?=/W)
2/w的范圍
即然涉及到“/w”，那就要先考察一下它的范圍。
在支持ASCII碼的語(yǔ)言中，如JavaScript，“/w”等價(jià)于[a-zA-Z0-9_] ；
在支持Unicode的語(yǔ)言中，如.NET，默認(rèn)情況下，“/w”除可以匹配[a-zA-Z0-9_]外，還可以匹配一些Unicode字符集，如漢字，全角數(shù)字等等。
幾乎所有常見(jiàn)的語(yǔ)言都遵循這樣一個(gè)規(guī)律，只有Java是個(gè)例外。在Java中，“/w”的表現(xiàn)是比較奇怪的，Java是支持Unicode的，但Java的正則中的“/w”卻是等價(jià)于[a-zA-Z0-9_]的。
先來(lái)看一下“/w”在幾種語(yǔ)言中匹配的例子
JavaScript

復(fù)制代碼代碼如下:

	
	<script language="javascript"> 
	var str = "abc_123中文_d3=efg漢字%"; 
	var reg = //w+/g; 
	var arr = str.match(reg); 
	if(arr != null) 
	{ 
	for(var i=0;i<arr.length;i++) 
	{ 
	document.write(arr[i] + "<br />"); 
	} 
	} 
	</script> 
	//JavaScript中輸出 
	abc_123 
	_d3 
	efg 

復(fù)制代碼代碼如下:

	
	string test = "abc_123中文_d3=efg漢字%"; 
	MatchCollection mc = Regex.Matches(test, @"/w+"); 
	foreach (Match m in mc) 
	{ 
	richTextBox2.Text += m.Value + "/n"; 
	} 
	//C#中輸出 
	abc_123中文_d3 
	efg漢字 

Java

復(fù)制代碼代碼如下:

	
	String test = "abc_123中文_d3=efg漢字%"; 
	String reg = "//w+"; 
	Matcher m = Pattern.compile(reg).matcher(test); 
	while(m.find()) 
	{ 
	System.out.println(m.group()); 
	} 
	//Java中輸出 
	abc_123 
	_d3 
	efg 

可以看到，“/w”在Java中的輸出和JavaScript中是一樣的，都是只支持ASCII字符。
3 /b的范圍
常見(jiàn)語(yǔ)言中“/w”的范圍確定了，那么是不是可以認(rèn)為“/b”的匹配范圍與“/w”也是一致的呢？
再看下下面的例子：
源字符串：abc_123中文_d3=漢字efg
正則表達(dá)式：./b.
JavaScript

復(fù)制代碼代碼如下:

	
	<script language="javascript"> 
	var str = "abc_123中文_d3=efg漢字%"; 
	var reg = /./b./g; 
	var arr = str.match(reg); 
	if(arr != null) 
	{ 
	for(var i=0;i<arr.length;i++) 
	{ 
	document.write(arr[i] + "<br />"); 
	} 
	} 
	</script> 
	//JavaScript中輸出 
	3中 
	文_ 
	3= 
	g漢 

復(fù)制代碼代碼如下:

	
	string test = "abc_123中文_d3=efg漢字%"; 
	MatchCollection mc = Regex.Matches(test, @"./b."); 
	foreach (Match m in mc) 
	{ 
	richTextBox2.Text += m.Value + "/n"; 
	} 
	//C#中輸出 
	3= 
	字% 

Java

復(fù)制代碼代碼如下:

	
	String test = "abc_123中文_d3=efg漢字%"; 
	String reg = ".//b."; 
	Matcher m = Pattern.compile(reg).matcher(test); 
	while(m.find()) 
	{ 
	System.out.println(m.group()); 
	} 
	//Java中輸出 
	3= 
	字% 

可以看到，Java的輸出和.NET是一致的，“/b”在Java中是支持Unicode的。
所以總的來(lái)說(shuō)，Java中的“/w”是很奇怪的，而“/b”是與其它語(yǔ)言表現(xiàn)一致的，在使用時(shí)需要注意。
4 /b應(yīng)用場(chǎng)景
4.1 基礎(chǔ)應(yīng)用
“/b”一般應(yīng)用在需要匹配某一單詞字符組成的子串，但這一字符不能包含在同樣由單詞字符組成的更長(zhǎng)的子串中。
比如要替換掉一段英文中的單詞“to”，而“today”顯然不在替換的范圍內(nèi)，所以正則可以用“/bto/b”來(lái)限定。
用得比較多的場(chǎng)景是在HTML標(biāo)簽的匹配中，用以區(qū)分相互包含的標(biāo)簽，比如要過(guò)濾掉<b>、</b>、<p…>、<img…>等標(biāo)簽，但要保留<br />標(biāo)簽，正則可以寫(xiě)成“<(/?b|p|img)/b[^>]*>”。
舉例：統(tǒng)計(jì)以“,”分割的元素中“3”的個(gè)數(shù)
string test = "137,1,33,4,3,6,21,3,35,93,2,98";
int count = Regex.Matches(test, @"/b3/b").Count; //結(jié)果：2
4.2 進(jìn)階應(yīng)用
稍復(fù)雜一些的應(yīng)用通常都是與其它一些正則語(yǔ)法規(guī)則一起使用的，參考一個(gè)帖子
求一正則表達(dá)式
4.3 特殊情況
“/b”用在正則中，通常情況下都是表示單詞邊界的，只有在字符組中，它表示的是退格鍵，即
[a-z/b]
此處的“/b”表示的是退格鍵，而不是單詞邊界

上一篇：正則基礎(chǔ)之環(huán)視 Lookaround

下一篇：正則表達(dá)式學(xué)習(xí)參考推薦入門(mén)者看