麻豆小视频在线观看_中文黄色一级片_久久久成人精品_成片免费观看视频大全_午夜精品久久久久久久99热浪潮_成人一区二区三区四区

首頁(yè) > 編程 > Regex > 正文

正則基礎(chǔ)之 /b 單詞邊界

2020-03-16 21:16:32
字體:
來(lái)源:轉(zhuǎn)載
供稿:網(wǎng)友
1概述 
“/b”匹配單詞邊界,不匹配任何字符。 
“/b”匹配的只是一個(gè)位置,這個(gè)位置的一側(cè)是構(gòu)成單詞的字符,另一側(cè)為非單詞字符、字符串的開(kāi)始或結(jié)束位置。“/b”是零寬度的。 
基本上所有的資料里都會(huì)說(shuō)“/b”是單詞邊界,但是關(guān)于“單詞”的范圍卻是少有提及。通常情況下,正則表達(dá)式中所謂的“單詞”,就是由“/w”所定義的字符所組成的子串。 
“/b”表示所在位置的一側(cè)為單詞字符,另一側(cè)為非單詞字符、字符串的開(kāi)始或結(jié)束位置,也就相當(dāng)于 
(?<!/w)(?=/w)|(?<=/w)(?!/w) 
思考:以下寫(xiě)法為什么不等價(jià)于“/b” 
(?<=/W)(?=/w)|(?<=/w)(?=/W) 
2/w的范圍 
即然涉及到“/w”,那就要先考察一下它的范圍。 
在支持ASCII碼的語(yǔ)言中,如JavaScript,“/w”等價(jià)于[a-zA-Z0-9_] ; 
在支持Unicode的語(yǔ)言中,如.NET,默認(rèn)情況下,“/w”除可以匹配[a-zA-Z0-9_]外,還可以匹配一些Unicode字符集,如漢字,全角數(shù)字等等。 
幾乎所有常見(jiàn)的語(yǔ)言都遵循這樣一個(gè)規(guī)律,只有Java是個(gè)例外。在Java中,“/w”的表現(xiàn)是比較奇怪的,Java是支持Unicode的,但Java的正則中的“/w”卻是等價(jià)于[a-zA-Z0-9_]的。 
先來(lái)看一下“/w”在幾種語(yǔ)言中匹配的例子 
JavaScript 
復(fù)制代碼代碼如下:

<script language="javascript"> 
var str = "abc_123中文_d3=efg漢字%"; 
var reg = //w+/g; 
var arr = str.match(reg); 
if(arr != null) 

for(var i=0;i<arr.length;i++) 

document.write(arr[i] + "<br />"); 


</script> 
//JavaScript中輸出 
abc_123 
_d3 
efg 

C# 
復(fù)制代碼代碼如下:

string test = "abc_123中文_d3=efg漢字%"; 
MatchCollection mc = Regex.Matches(test, @"/w+"); 
foreach (Match m in mc) 

richTextBox2.Text += m.Value + "/n"; 

//C#中輸出 
abc_123中文_d3 
efg漢字 

Java 
復(fù)制代碼代碼如下:

String test = "abc_123中文_d3=efg漢字%"; 
String reg = "//w+"; 
Matcher m = Pattern.compile(reg).matcher(test); 
while(m.find()) 

System.out.println(m.group()); 

//Java中輸出 
abc_123 
_d3 
efg 

可以看到,“/w”在Java中的輸出和JavaScript中是一樣的,都是只支持ASCII字符。 
3 /b的范圍 
常見(jiàn)語(yǔ)言中“/w”的范圍確定了,那么是不是可以認(rèn)為“/b”的匹配范圍與“/w”也是一致的呢? 
再看下下面的例子: 
源字符串:abc_123中文_d3=漢字efg 
正則表達(dá)式:./b. 
JavaScript 
復(fù)制代碼代碼如下:

<script language="javascript"> 
var str = "abc_123中文_d3=efg漢字%"; 
var reg = /./b./g; 
var arr = str.match(reg); 
if(arr != null) 

for(var i=0;i<arr.length;i++) 

document.write(arr[i] + "<br />"); 


</script> 
//JavaScript中輸出 
3中 
文_ 
3= 
g漢 

C# 
復(fù)制代碼代碼如下:

string test = "abc_123中文_d3=efg漢字%"; 
MatchCollection mc = Regex.Matches(test, @"./b."); 
foreach (Match m in mc) 

richTextBox2.Text += m.Value + "/n"; 

//C#中輸出 
3= 
字% 

Java 
復(fù)制代碼代碼如下:

String test = "abc_123中文_d3=efg漢字%"; 
String reg = ".//b."; 
Matcher m = Pattern.compile(reg).matcher(test); 
while(m.find()) 

System.out.println(m.group()); 

//Java中輸出 
3= 
字% 

可以看到,Java的輸出和.NET是一致的,“/b”在Java中是支持Unicode的。 
所以總的來(lái)說(shuō),Java中的“/w”是很奇怪的,而“/b”是與其它語(yǔ)言表現(xiàn)一致的,在使用時(shí)需要注意。 
4 /b應(yīng)用場(chǎng)景 
4.1 基礎(chǔ)應(yīng)用 
“/b”一般應(yīng)用在需要匹配某一單詞字符組成的子串,但這一字符不能包含在同樣由單詞字符組成的更長(zhǎng)的子串中。 
比如要替換掉一段英文中的單詞“to”,而“today”顯然不在替換的范圍內(nèi),所以正則可以用“/bto/b”來(lái)限定。 
用得比較多的場(chǎng)景是在HTML標(biāo)簽的匹配中,用以區(qū)分相互包含的標(biāo)簽,比如要過(guò)濾掉<b>、</b>、<p…>、<img…>等標(biāo)簽,但要保留<br />標(biāo)簽,正則可以寫(xiě)成“<(/?b|p|img)/b[^>]*>”。 
舉例:統(tǒng)計(jì)以“,”分割的元素中“3”的個(gè)數(shù) 
string test = "137,1,33,4,3,6,21,3,35,93,2,98"; 
int count = Regex.Matches(test, @"/b3/b").Count; //結(jié)果:2 
4.2 進(jìn)階應(yīng)用 
稍復(fù)雜一些的應(yīng)用通常都是與其它一些正則語(yǔ)法規(guī)則一起使用的,參考一個(gè)帖子 
求一正則表達(dá)式 
4.3 特殊情況 
“/b”用在正則中,通常情況下都是表示單詞邊界的,只有在字符組中,它表示的是退格鍵,即 
[a-z/b] 
此處的“/b”表示的是退格鍵,而不是單詞邊界
發(fā)表評(píng)論 共有條評(píng)論
用戶(hù)名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 夜间福利网站 | 久久久久久三区 | 亚洲自拍第一 | 日韩精品一二三 | 91精品久久久久久久久网影视 | 成年免费视频黄网站在线观看 | 日韩中文字幕一区二区三区 | 特黄一区二区三区 | 涩涩天堂| 在线亚州| 色999久久久精品人人澡69 | 日韩视频在线一区二区三区 | 国产亚洲精品久久777777 | 日本精品中文字幕 | 亚洲人成免费 | 爱草在线 | 又黄又爽免费无遮挡在线观看 | 爽爽视频免费看 | 亚洲午夜久久久久 | av影院在线播放 | 999精品久久久 | av免费在线免费观看 | 在线观看中文字幕av | 亚洲第一页中文字幕 | 中文字幕在线亚洲 | 中文字幕一区二区三区四区 | 失禁高潮抽搐喷水h | 香蕉视频1024 | 午夜人体 | 久久精品com| 国产69精品久久99不卡免费版 | 自拍亚洲伦理 | 久久精品性视频 | 精品一区二区三区免费 | 一级α片 | 日本成人在线免费 | 亚洲欧美一区二区三区在线观看 | 国产 一区 精品 | 免费高潮在线国 | 欧美囗交 | 久久久国产视频 |