前言
正則表達(dá)式,又稱規(guī)則表達(dá)式。(英語:Regular Expression,在代碼中常簡寫為regex、regexp或RE),計(jì)算機(jī)科學(xué)的一個概念。正則表通常被用來檢索、替換那些符合某個模式(規(guī)則)的文本。
正則表達(dá)式(Regular expression, regex)允許我們在幾秒鐘內(nèi)在成千上萬文檔間進(jìn)行復(fù)雜檢索與替換,自從誕生50多年來它依舊廣泛使用。
Swift雖然是一個新出的語言,但卻不提供專門的處理正則的語法和類。所以我們只能使用古老的NSRegularExpression類進(jìn)行正則匹配。
在這篇文章中,我會講解在Swift中正則表達(dá)式的基本用法。我們會從易到難,詳細(xì)講解一些最重要的正則表達(dá)式語法,以及一些有用的擴(kuò)展。
NSRegularExpression:如何在字符串中匹配正則表達(dá)式
NSRegularExpression類讓我們可以用正則表達(dá)式查找替換子字符串,它可以簡潔靈活地描述文本。例如,如果你想從"My name is Taylor Swift"中提取出"Taylor Swift",可以寫一個匹配文本“My name is”的正則表達(dá)式,它的后面可以是任何文本,之后把它傳遞給NSRegularExpression類。
具體可見下面代碼。注意我們要提取出的是第二范圍,因?yàn)榈谝环秶瞧ヅ涞淖址诙秶攀?quot;Taylor Swift"部分。
do { let input = "My name is Taylor Swift" let regex = try NSRegularExpression(pattern: "My name is (.*)", options: NSRegularExpression.Options.caseInsensitive) let matches = regex.matches(in: input, options: [], range: NSRange(location: 0, length: input.utf16.count)) if let match = matches.first { let range = match.range(at:1) if let swiftRange = Range(range, in: input) { let name = input[swiftRange] } }} catch { // regex was bad!}
正則表達(dá)式的詳細(xì)講解
讓我們從幾個簡單例子開始,方便不熟悉的人了解正則表達(dá)式。正則表達(dá)式,簡稱regex,用于讓我們在字符串中進(jìn)行模糊檢索。例如我們知道”cat”包含”at”,但如果我們檢索所有以“at”結(jié)尾的3字母單詞該怎么做呢?
正則表達(dá)式就用于解決這個問題,盡管由于Objective-C的基礎(chǔ),它們的語法有些不太靈巧。
1. 首先,定義你想檢索的字符串:
let testString = "hat"
之后創(chuàng)建NSRange實(shí)例來表示整個字符串的長度
let range = NSRange(location: 0, length: testString.utf16.count)
這里使用utf16來避免類似表情符號等帶來的問題
2. 之后使用正則表達(dá)式語法創(chuàng)建NSRegularExpression實(shí)例
let regex = try! NSRegularExpression(pattern: "[a-z]at")
[a-z]在正則表達(dá)式中用于指定a到z之間任意字母。實(shí)際使用中你可能會提供一個無效的正則表達(dá)式,但是這里我們有了一個硬編碼的正確正則表達(dá)式,所以就不需要查找錯誤了。
3. 最后在創(chuàng)建好的正則表達(dá)式調(diào)用firstMatch(in:),輸入要檢索的字符串,一些特殊選項(xiàng),和字符串的范圍。如果字符串匹配正則表達(dá)式,就會返回?cái)?shù)據(jù),否則就是nil。所以如果你想檢查字符串是否完全匹配,就用firstMatch(in:)的結(jié)果和nil比較:
regex.firstMatch(in: testString, options: [], range: range) != nil
這里必須要用到NSRange——盡管這個API是為NSString設(shè)計(jì),和Swift銜接的不太好。Swift String Manifesto可能會替換它,但看起來還要很久。
正則表達(dá)式“[a-z]at”會成功匹配“hat”,和“cat”, “sat”, “mat”, “bat”等等——我們只要關(guān)注想匹配什么,NSRegularExpression會處理好它。
讓NSRegularExpression用起來更簡單
接下里會展示更多的正則表達(dá)式語法,首先來看看如何讓NSRegularExpression稍微好用一些
現(xiàn)在我們的要3行Swift代碼來匹配一個簡單字符串
let range = NSRange(location: 0, length: testString.utf16.count)let regex = try! NSRegularExpression(pattern: "[a-z]at")regex.firstMatch(in: testString, options: [], range: range) != nil
我們可以從多種方式改進(jìn),不過最有效的是擴(kuò)展NSRegularExpression,讓創(chuàng)建和匹配表達(dá)式更簡單。
首先第一行:
let regex = try! NSRegularExpression(pattern: "[a-z]at")
我提到過,創(chuàng)建一個NSRegularExpression實(shí)例可能導(dǎo)致錯誤,因?yàn)榭赡軙峁┮粋€非法的正則表達(dá)式。比如[a-zat,忘記了]
結(jié)果就是,通常會用try!創(chuàng)建NSRegularExpression實(shí)例。然而這會導(dǎo)致lint工具(如SwiftLint)的破壞。所以好一點(diǎn)的方法是創(chuàng)建一個方便的初始化,能正確創(chuàng)建正則表達(dá)式,或者在開發(fā)時能生成一個斷言失敗。
extension NSRegularExpression { convenience init(_ pattern: String) { do { try self.init(pattern: pattern) } catch { preconditionFailure("Illegal regular expression: /(pattern).") } }}
注意:如果你的app需要用戶寫正則表達(dá)式,你需要使用NSRegularExpression(pattern:)初始化,這樣可以更好的處理錯誤。
之后這些行:
let range = NSRange(location: 0, length: testString.utf16.count)regex.firstMatch(in: testString, options: [], range: range) != nil
第一行創(chuàng)建了一個包含整個字符串的NSRange,第二行則是在文本中查找first match。但這是很笨的方法,因?yàn)榇蠖鄷r候你想查找輸入的整個字符串,用firstMatch(in:)與nil判定會弄混你的意圖。
所以,用另一個擴(kuò)展來替代它,它把下面代碼包含在一個簡單的matches()方法中。
extension NSRegularExpression { func matches(_ string: String) -> Bool { let range = NSRange(location: 0, length: string.utf16.count) return firstMatch(in: string, options: [], range: range) != nil }}
如果你把這兩個擴(kuò)展合并,就可以更輕松的創(chuàng)建和檢索正則表達(dá)式了。
let regex = NSRegularExpression("[a-z]at")regex.matches("hat")
我們可以進(jìn)一步通過運(yùn)算符重載讓Swift包含的,~=,運(yùn)算符適用于正則表達(dá)式:
extension String { static func ~= (lhs: String, rhs: String) -> Bool { guard let regex = try? NSRegularExpression(pattern: rhs) else { return false } let range = NSRange(location: 0, length: lhs.utf16.count) return regex.firstMatch(in: lhs, options: [], range: range) != nil }}
通過上面代碼,我們可以在一句話的左邊使用任意字符,右邊用正則表達(dá)式。
"hat" ~= "[a-z]at"
注意:創(chuàng)建NSRegularExpression實(shí)例會有一定消耗,所以如果你想要反復(fù)使用一個正則表達(dá)式,最好把NSRegularExpression實(shí)例保存起來。
正則表達(dá)式語法學(xué)之旅
我們已經(jīng)使用了[a-z]來表示“a”到“z”之間任意字母,在正則表達(dá)式中這是一個字符類。它讓你指定要匹配的一組字母,可以通過制定的字母列表匹配,或者通過一段字符范圍匹配。
正則表達(dá)式范圍不一定是整個字母表,你可以用[a-t] 來排除“u”到“z”之間的字母。另外,如果你想特別指定一些字母,只需要像這樣單獨(dú)列出它們:
[csm]at
正則表達(dá)式默認(rèn)區(qū)分大小姐寫,也就是說“Cat”和“Mat”不會在“[a-z]at”被匹配。如果你想忽略大小寫,可以使用“[a-zA-Z]at”,或者創(chuàng)建你自己的NSRegularExpression對象,并標(biāo)記.caseInsensitive
除了大小寫以外,你可以通過字符類指定數(shù)字范圍。最常用的是[0-9]表示任何數(shù)字,或[A-Za-z0-9]表示任何字母數(shù)字混編字符,也可以用[A-Fa-f0-9]來表示16進(jìn)制數(shù)字。
如果你想匹配一個字符序列,還需要一個叫做量詞(quantifier)的概念。它用于表示字符出現(xiàn)的數(shù)量。
最常用的是星號量詞,*,意思是匹配0個或更多。量詞在它們修飾的字符后出現(xiàn),就像下面這樣:
let regex = NSRegularExpression("ca[a-z]*d")
這句話先查找“ca”,之后是0或多個從“a”到“z”的字母,最后是“d”——它能匹配“cad”, “card”, “clamped”等等。
除了*之外,還有2個類似的量詞 + 和 ? 。 + 意味著“1個或更多”,與 * 的“0個或更多”有點(diǎn)區(qū)別。而 ? 的意思是”0或1個”
這些量詞是正則表達(dá)式基礎(chǔ)內(nèi)容,希望大家能確實(shí)理解它們的區(qū)別,比如下面3個正則表達(dá)式
并想想如果給出字符串“cd”或“clamped”,哪些能夠匹配。
如果需要,可以用大括號 { 和 } 來更詳細(xì)的指定匹配數(shù)量,比如[a-z]{3}意味著匹配3個小寫字母。
考慮一個電話號碼格式比如111-1111。如果要正好匹配這個格式,用[0-9-]+是行不通的。所以我們需要用這樣的正則表達(dá)式[0-9]{3}-[0-9]{4},即先是3個數(shù)字,之后連接號,之后4個數(shù)字。
此外還可以用大括號指定范圍,它可以是有界限的或無界限的。比如[a-z]{1,3}代表匹配1,2,或3個小寫字母。[a-z]{3,}代表匹配3個或更多個
最后,元字符(meta-characters)是特殊字符,正則表達(dá)式中有特別的意義,在這里介紹其中幾個使用最頻繁的。
首先其中是最常用,也是最濫用的 . 字符。它可以匹配除了換行符以外任意一個字符。比如正則表達(dá)式c.t可以匹配“cat”,但不能匹配“cart”。如果你把 . 和 * 量詞共同使用,就意味著匹配1個或多個除了換行符以外所有字符,這可能是你最常見的正則表達(dá)式了。
.* 常用的原因也顯而易見:不需要具體設(shè)計(jì)一個特別的正則表達(dá)式,.* 就可以匹配幾乎一切了。然而問題是,特定化本來就是正則表達(dá)式的要點(diǎn)之一,你可以在文本中精確查找一些字符并操作它們。而太多人完全依賴 .* ,卻沒有意識到這可能會給他們的表達(dá)式帶來難以察覺的錯誤。
用前面電話號碼的例子來說,我們用[0-9]{3}-[0-9]{4}匹配類似555-5555的電話號碼。考慮到有些人會寫成“555 5555”或“5555555”,我們可能就會把正則表達(dá)式條件放寬一些,改成[0-9]{3}.*[0-9]{4}
但是這樣就帶來一個問題,它會匹配“123-4567”, “123-4567890”, 或 “123-456-789012345”。為了讓[0-9]{3}與[0-9]{4}匹配上,.* 會匹配盡可能多的字符
所以這里要用字符類與量詞,比如[0-9]{3}[ -]*[0-9]{4},代表3個數(shù)字,之后0個或更多空格與連接線,之后4個數(shù)字?;蛘呤褂貌话址?,即用它來匹配數(shù)字以外的字符,如[0-9]{3}[^0-9]+[0-9]{4},會匹配空格,連接線,斜杠等等,而不會匹配數(shù)字。
總結(jié)
以上就是這篇文章的全部內(nèi)容了,希望本文的內(nèi)容對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,如果有疑問大家可以留言交流,謝謝大家對VEVB武林網(wǎng)的支持。
新聞熱點(diǎn)
疑難解答
圖片精選