使用正則表達式找出不包含特定字符串的條目

2020-03-16 21:06:03

字體：大中小

來源：轉載

供稿：網友

今天在寫一個功能的時候，需要替換不包含指定字符串的正則，看到了一篇好文章特整理分享下，方便需要的朋友

做日志分析工作的經常需要跟成千上萬的日志條目打交道，為了在龐大的數據量中找到特定模式的數據，常常需要編寫很多復雜的正則表達式。例如枚舉出日志文件中不包含某個特定字符串的條目，找出不以某個特定字符串打頭的條目，等等。

使用否定式前瞻

正則表達式中有前瞻（Lookahead）和后顧（Lookbehind）的概念，這兩個術語非常形象的描述了正則引擎的匹配行為。需要注意一點，正則表達式中的前和后和我們一般理解的前后有點不同。一段文本，我們一般習慣把文本開頭的方向稱作“前面”，文本末尾方向稱為“后面”。但是對于正則表達式引擎來說，因為它是從文本頭部向尾部開始解析的（可以通過正則選項控制解析方向），因此對于文本尾部方向，稱為“前”，因為這個時候，正則引擎還沒走到那塊，而對文本頭部方向，則稱為“后”，因為正則引擎已經走過了那一塊地方。如下圖所示：

所謂的前瞻就是在正則表達式匹配到某個字符的時候，往“尚未解析過的文本”預先看一下，看是不是符合/不符合匹配模式，而后顧，就是在正則引擎已經匹配過的文本看看是不是符合/不符合匹配模式。符合和不符合特定匹配模式我們又稱為肯定式匹配和否定式匹配。

現代高級正則表達式引擎一般都支持都支持前瞻，對于后顧支持并不是很廣泛，因此我們這里采用否定式前瞻來實現我們的需求。

實現

測試數據：

復制代碼代碼如下:

		
		2009-07-07 04:38:44 127.0.0.1 GET /robots.txt
		2009-07-07 04:38:44 127.0.0.1 GET /posts/robotfile.txt
		2009-07-08 04:38:44 127.0.0.1 GET /

例如上面這幾條簡單的日志條目，我們想實現兩個目標：

1. 把8號的數據過濾掉
2. 把那些不包含robots.txt字符串的條目給找出來（只要Url中包含robots.txt的都給過濾掉）。

前瞻的語法是：

(?!匹配模式)我們先來實現第一個目標——匹配不以特定字符串開頭的條目。

這里我們因為要排除一段連續的字符串，因此匹配模式非常簡單，就是2009-07-08。實現如下：

復制代碼代碼如下:

^(?!2009-07-08).*?$

用Expresso我們可以看到結果確實過濾掉8號的數據。

接下來，我們來實現第二個目標——排除包含特定字符串的條目。

按照我們上面寫法，我照葫蘆畫瓢了一下：

復制代碼代碼如下:

^.*?(?!robots/.txt).*?$

這段正則用大白話描述就是：開頭任意字符，然后后面不要跟著robots.txt連續字符串，然后再跟著任意個字符，字符串結尾。
運行測試，結果發現：

沒有達到我們想要的效果。這是為什么呢？我們給上面的正則表達式加上兩個捕獲分組調試一下：

復制代碼代碼如下:

^(.*?)(?!robots/.txt)(.*?)$

測試結果：

我們看到，第一個分組啥都沒有匹配到，而第二個分組卻匹配了整個字符串。再回過頭來好好分析一下剛才那個正則表達式。實際上，當正則引擎解析到A區域的時候，就已經開始執行B區域的前瞻工作。這個時候發現當A區域為Null的時候匹配成功——.*本來就允許匹配空字符，前瞻條件又滿足，A區域后面緊跟著的是“2009”字符串，而并不是robots。因此整個匹配過程成功匹配到所有條目。

分析出原因之后我們對上述的正則進行修正，將.*?移入前瞻表達式，如下：

復制代碼代碼如下:

^(?!.*?robots).*$

測試結果:

完成

php中用正則實現不包括某個字符串的實現方法

preg_match("/^((?!abc).)*$/is", $str);

完整代碼示例

復制代碼代碼如下:

		
		$str = "dfadfadf765577abc55fd";
		$pattern_url = "/^((?!abc).)*$/is";
		if (preg_match($pattern_url, $str))
		{
		echo "不含有abc！";
		}
		else
		{
		echo "含有abc！";
		}

結果為：false，含有abc！

同時匹配，包含字符串 "abc"，而且不包含字符串 "xyz"的正則表達式：

preg_match("/(abc)[^((?!xyz).)*$]/is", $str);

該方法有效,本人使用方法如下:

(?:(?!<//div>).|/n)*? //匹配不含</div>的一個字符串

但最終使用中結果是發現,該方法效率極其低下,在處理非常短文字(要匹配該正則式的相同部分的有十幾個字,或者最多幾十個)時間可以考慮使用,但當用于大篇幅文章解析或多處需要改種匹配時間應不使用,考慮用其他方法替代(如:先解析出要匹配該段正則式的文字,然后驗證其中是否存在某段文字),正則表達式對于匹配不含特定字符串的文字段時并不是非常有效的方法.

上一篇：js正則表達式中的問號幾種用法小結

下一篇：常用的正則表達式集錦