正則表達式簡介及在C++11中的簡單使用教程

2020-03-16 20:55:06

字體：大中小

來源：轉載

供稿：網友

正則表達式Regex(regular expression)是一種強大的描述字符序列的工具。在許多語言中都存在著正則表達式，C++11中也將正則表達式納入了新標準的一部分，不僅如此，它還支持了6種不同的正則表達式的語法，分別是：ECMASCRIPT、basic、extended、awk、grep和egrep。其中ECMASCRIPT是默認的語法，具體使用哪種語法我們可以在構造正則表達式的時候指定。

正則表達式是一種文本模式。正則表達式是強大、便捷、高效的文本處理工具。正則表達式本身，加上如同一門袖珍編程語言的通用模式表示法(general pattern notation)，賦予使用者描述和分析文本的能力。配合上特定工具提供的額外支持，正則表達式能夠添加、刪除、分離、疊加、插入和修整各種類型的文本和數據。

完整的正則表達式由兩種字符構成：特殊字符(special characters)稱為”元字符”(meta characters)，其它為”文字”(literal)，或者是普通文本字符(normal text characters，如字母、數字、漢字、下劃線)。正則表達式的元字符提供了更強大的描述能力。

和文本編輯器一樣，絕大多數高級編程語言均支持正則表達式，如Perl、Java、Python、C/C++，這些語言都有各自的正則表達式包。

一個正則表達式僅僅為一個字符串，它沒有長度限制。“子表達式”指的是整個正則表達式中的一部分，通常是括號內的表達式，或者是由”|”分割的多選分支。

默認情況下，表達式中的字母是要區分大小寫的。

常用的元字符：

1. “.”：匹配除"/n"之外的任何單個字符，若要匹配包括"/n"在內的任意字符，需使用諸如"[/s/S]"之類的模式；

2. “^”：匹配輸入字符串的開始位置，不匹配任何字符，要匹配”^”字符本身，需使用”/^”；

3. “$”：匹配輸入字符串結尾的位置，不匹配任何字符，要匹配”$”字符本身，需使用”/$”；

4. “*”：零次或多次匹配前面的字符或子表達式，”*”等效于”{0,}”，如”/^*b”可以匹配”b”、”^b”、”^^b”、…；

5. “+”：一次或多次匹配前面的字符或子表達式，等效于”{1,}”，如”a+b”可以匹配”ab”、”aab”、”aaab”、…；

6. “?”：零次或一次匹配前面的字符或子表達式，等效于”{0,1}”，如”a[cd]?”可以匹配”a”、”ac”、”ad”；當此字符緊隨任何其他限定符”*”、”+”、”?”、”{n}”、”{n,}”、”{n,m}”之后時，匹配模式是"非貪心的"。"非貪心的"模式匹配搜索到的、盡可能短的字符串，而默認的"貪心的"模式匹配搜索到的、盡可能長的字符串。如，在字符串"oooo"中，"o+?"只匹配單個"o"，而"o+"匹配所有"o"；

7. “|”：將兩個匹配條件進行邏輯"或"(Or)運算,如正則表達式”(him|her)”匹配"itbelongs to him"和"it belongs to her"，但是不能匹配"itbelongs to them."；

8. “/”：將下一字符標記為特殊字符、文本、反向引用或八進制轉義符，如，”n”匹配字符”n”,”/n”匹配換行符，序列”//”匹配”/”,”/(“匹配”(“；

9. “/w”：匹配字母或數字或下劃線，任意一個字母或數字或下劃線，即A~Z，a~z,0~9,_中任意一個；

10. “/W”：匹配任意不是字母、數字、下劃線的字符；

11. “/s”：匹配任意的空白符，包括空格、制表符、換頁符等空白字符的其中任意一個，與”[ /f/n/r/t/v]”等效；

12. “/S”：匹配任意不是空白符的字符，與”[^/f/n/r/t/v]”等效；

13. “/d”：匹配數字，任意一個數字，0~9中的任意一個，等效于”[0-9]”；

14. “/D”：匹配任意非數字的字符，等效于”[^0-9]”；

15. “/b”：匹配一個字邊界，即字與空格間的位置，也就是單詞和空格之間的位置，不匹配任何字符，如，"er/b"匹配"never"中的"er"，但不匹配"verb"中的"er";

16. “/B”：非字邊界匹配,"er/B"匹配"verb"中的"er"，但不匹配"never"中的"er"；

17. “/f”：匹配一個換頁符，等價于”/x0c”和”/cL”；

18. “/n”：匹配一個換行符，等價于”/x0a”和”/cJ”；

19. “/r”：匹配一個回車符，等價于”/x0d”和”/cM”；

20. “/t”：匹配一個制表符，等價于”/x09”和”/cI”；

21. “/v”：匹配一個垂直制表符，等價于”/x0b”和”/cK”；

22. “/cx”：匹配”x”指示的控制字符,如，/cM匹配Control-M或回車符，”x”的值必須在”A-Z”或”a-z”之間,如果不是這樣，則假定c就是"c"字符本身；

23. “{n}”：”n”是非負整數，正好匹配n次，如，"o{2}"與"Bob"中的"o"不匹配，但與"food"中的兩個"o"匹配；

24. “{n,}”：”n”是非負整數,至少匹配n次,如，"o{2,}"不匹配"Bob"中的"o"，而匹配"foooood"中的所有”o”，"o{1,}"等效于"o+"，"o{0,}"等效于"o*"；

25. “{n,m}”：”n”和”m”是非負整數，其中n<=m，匹配至少n次，至多m次，如，"o{1,3}"匹配"fooooood"中的頭三個o，'o{0,1}'等效于'o?'，注意,不能將空格插入逗號和數字之間；如”ba{1,3}”可以匹配”ba”或”baa”或”baaa”；

26. “x|y”：匹配”x”或”y”，如，”z|food”匹配"z"或"food"；”(z|f)ood”匹配"zood"或"food"；

27. “[xyz]”：字符集，匹配包含的任一字符，如，"[abc]"匹配"plain"中的"a";

28. “[^xyz]”：反向字符集，匹配未包含的任何字符，匹配除了”xyz”以外的任意字符，如，"[^abc]"匹配"plain"中的"p"；

29. “[a-z]”：字符范圍，匹配指定范圍內的任何字符，如，"[a-z]"匹配"a"到"z"范圍內的任何小寫字母；

30. “[^a-z]”：反向范圍字符，匹配不在指定的范圍內的任何字符，如，"[^a-z]"匹配任何不在"a"到"z"范圍內的任何字符；

31. “( )”：將”(“和”)”之間的表達式定義為”組”group，并且將匹配這個表達式的字符保存到一個臨時區域,一個正則表達式中最多可以保存9個，它們可以用”/1”到”/9”的符號來引用；

32. “(pattern)”：匹配pattern并捕獲該匹配的子表達式，可以使用$0…$9屬性從結果”匹配”集合中檢索捕獲的匹配；

33. “(?:pattern)”：匹配pattern但不捕獲該匹配的子表達式，即它是一個非捕獲匹配，不存儲供以后使用的匹配，這對于用”or”字符” (|)”組合模式部件的情況很有用, 如，”industr(?:y|ies)”是比”industry|industries”更簡略的表達式；

34. “(?=pattern)”：非獲取匹配，正向肯定預查，在任何匹配pattern的字符串開始處匹配查找字符串，該匹配不需要獲取供以后使用。如，"Windows(?=95|98|NT|2000)"能匹配"Windows2000"中的"Windows"，但不能匹配"Windows3.1"中的"Windows"。預查不消耗字符，也就是說，在一個匹配發生后，在最后一次匹配之后立即開始下一次匹配的搜索，而不是從包含預查的字符之后開始；

35. “(?!pattern)”：非獲取匹配，正向否定預查，在任何不匹配pattern的字符串開始處匹配查找字符串，該匹配不需要獲取供以后使用。如"Windows(?!95|98|NT|2000)"能匹配"Windows3.1"中的"Windows"，但不能匹配"Windows2000"中的"Windows"；

要匹配某些特殊字符，需在此特殊字符前面加上”/”，如要匹配字符”^”、”$”、”()”、”[]”、”{}”、”.”、”?”、”+”、”*”、”|”，需使用” /^”、” /$”、” / (“、”/)”、” / [“、”/]”、” /{“、”/}”、” /.”、” /?”、” /+”、” /*”、” /|”。

在C++/C++11中，GCC版本是4.9.0及以上，VS版本為VS2013及以上時，會有regex頭文件，此頭文件中會有regex_match、regex_search、regex_replace等函數可供調用，以下是測試代碼：

#include "regex.hpp" #include <regex> #include <string> #include <vector> #include <iostream> int test_regex_match() {  std::string pattern{ "//d{3}-//d{8}|//d{4}-//d{7}" }; // fixed telephone  std::regex re(pattern);  std::vector<std::string> str{ "010-12345678", "0319-9876543", "021-123456789"};  /* std::regex_match:   判斷一個正則表達式(參數re)是否匹配整個字符序列str,它主要用于驗證文本   注意，這個正則表達式必須匹配被分析串的全部，否則返回false;如果整個序列被成功匹配，返回true  */  for (auto tmp : str) {   bool ret = std::regex_match(tmp, re);   if (ret) fprintf(stderr, "%s, can match/n", tmp.c_str());   else fprintf(stderr, "%s, can not match/n", tmp.c_str());  }  return 0; } int test_regex_search() {  std::string pattern{ "http|hppts:////w*$" }; // url  std::regex re(pattern);  std::vector<std::string> str{ "http://blog.csdn.net/fengbingchun", "https://github.com/fengbingchun",   "abcd://124.456", "abcd https://github.com/fengbingchun 123" };  /* std::regex_search:   類似于regex_match,但它不要求整個字符序列完全匹配   可以用regex_search來查找輸入中的一個子序列，該子序列匹配正則表達式re  */  for (auto tmp : str) {   bool ret = std::regex_search(tmp, re);   if (ret) fprintf(stderr, "%s, can search/n", tmp.c_str());   else fprintf(stderr, "%s, can not search/n", tmp.c_str());  }  return 0; } int test_regex_search2() {  std::string pattern{ "[a-zA-z]+://[^//s]*" }; // url  std::regex re(pattern);  std::string str{ "my csdn blog addr is: http://blog.csdn.net/fengbingchun , my github addr is: https://github.com/fengbingchun " };  std::smatch results;  while (std::regex_search(str, results, re)) {   for (auto x : results)    std::cout << x << " ";   std::cout << std::endl;   str = results.suffix().str();  }  return 0; } int test_regex_replace() {  std::string pattern{ "//d{18}|//d{17}X" }; // id card  std::regex re(pattern);  std::vector<std::string> str{ "123456789012345678", "abcd123456789012345678efgh",   "abcdefbg", "12345678901234567X" };  std::string fmt{ "********" };  /* std::regex_replace:   在整個字符序列中查找正則表達式re的所有匹配   這個算法每次成功匹配后，就根據參數fmt對匹配字符串進行替換  */  for (auto tmp : str) {   std::string ret = std::regex_replace(tmp, re, fmt);   fprintf(stderr, "src: %s, dst: %s/n", tmp.c_str(), ret.c_str());  }  return 0; } int test_regex_replace2() {  // reference: http://www.cplusplus.com/reference/regex/regex_replace/  std::string s("there is a subsequence in the string/n");  std::regex e("//b(sub)([^ ]*)"); // matches words beginning by "sub"  // using string/c-string (3) version:  std::cout << std::regex_replace(s, e, "sub-$2");  // using range/c-string (6) version:  std::string result;  std::regex_replace(std::back_inserter(result), s.begin(), s.end(), e, "$2");  std::cout << result;  // with flags:  std::cout << std::regex_replace(s, e, "$1 and $2", std::regex_constants::format_no_copy);  std::cout << std::endl;  return 0; }

GitHub：https://github.com/fengbingchun/Messy_Test

以上所述是小編給大家介紹的正則表達式簡介及在C++11中的簡單使用教程，希望對大家有所幫助，如果大家有任何疑問請給我留言，小編會及時回復大家的。在此也非常感謝大家對VEVB武林網網站的支持！

注：相關教程知識閱讀請移步到正則表達式頻道。

上一篇：正則表達式實現最小匹配功能的方法

下一篇：正則表達式實現匹配連續數字的方法