麻豆小视频在线观看_中文黄色一级片_久久久成人精品_成片免费观看视频大全_午夜精品久久久久久久99热浪潮_成人一区二区三区四区

首頁 > 編程 > Regex > 正文

正則表達式之 Unicode 匹配特殊字符

2020-03-16 21:04:04
字體:
來源:轉載
供稿:網友
本篇文章由武林網小編給大家分享正則表達式巧用 Unicode關鍵字 匹配特殊字符,感興趣的朋友一起學習吧
 

首先聲明,本文所有的代碼都是在 ES6 下面運行,ES5需要修改之后才能運行,但是本文沒有涉及到太多的ES6新特性,而且由于v8對u修飾符不支持,最后的實現也基本是用ES5的知識寫的代碼。

最初我只是想記錄下正則表達式用unicode的方式來匹配特殊字符,寫著寫著發現 v8 對 u 修飾符的不支持,又轉而去研究怎么轉換字符串到utf-16的格式,在研究怎么轉換的過程中發現ES5的正則對 unicode 編碼單元 > 0x10000 的字符串不支持,再轉而去實現了一遍對大于 0x10000 的字符串的轉換,特此記錄。

之前有遇到過一個實用正則表達式匹配特殊字符的需求,例如一段文本 'ab*cd$你好我也好]/nseg$me*ntfault/nhello,world' ,用戶可以選擇用 * 或者 $ 來分割字符串。

在javascript中, $ 和 * 都是預定義的特殊字符,不能直接寫在正則表達式中,而需要轉義,寫成 //$/ 或者 //*/ 。

我們需要根據用戶的選擇來寫正則表達式,封裝成一個函數就是:

 

復制代碼代碼如下:

function reg(input) {
    return new RegExp(`//${input}`)
}

 

這種寫法初看上去很美好,將字符都轉義之后遇到一些特殊的字符可以匹配,然而現實是殘酷的:當用戶輸入的是 n 或者 t 這一類的字符的話,返回的正則表達式為 //n/ 或者 //t/ ,匹配的就是所有的制表符,這就違背了用戶的初衷。

通常有一種寫法就是把所有需要轉義的特殊字符都列出來,然后再逐一匹配,這種寫法很耗費精力,而且可能因為沒有統計到的特殊字符而出現漏匹配的情況。

這個時候unicode就隆重登場了,在 JavaScript 中,我們也可以用unicode來表示一個字符,例如 'a' 可以寫成'/u{61}', '你' 也可以寫成 '/u{4f60}'。

關于unicode的介紹大家可以看 Unicode與JavaScript詳解

ES5 中提供了 charCodeAt() 方法來返回指定索引處字符的 Unicode 數值,但是 Unicode 編碼單元 > 0x10000 的除外, ES2015 中又增加了一個新的方法 codePointAt() 可以返回大于 0x10000 字符串的數值。返回的數值是十進制的,此時我們還需要通過 toString(16) 轉成16進制。

封裝之后的函數如下

 

復制代碼代碼如下:

function toUnicode(s) {
    return `//u{${s.codePointAt().toString(16)}}`
}
toUnicode('$') -> '/u{24}'

 

重新封裝reg函數為

 

復制代碼代碼如下:

function reg(input) {
    return new RegExp(`${toUnicode(input)}`, 'u')
}

 

其實寫到這里,我希望是對的,但是很不幸,V8 不支持 RegExp 的 u 修飾符。V8支持的話,寫到這里就應該結束了,沒關系,這里只是提供一種用unicode的方式來轉義特殊字符的思想。

雖然v8不支持u修飾符,作為一個有追求的碼農,當然不能止步于此,我們也可以使用其他方法繼續把這個完善
 

  1. function toUnicode(s) { 
  2.  var a = `//u${utf(s.charCodeAt(0).toString(16))}` 
  3.  if(s.charCodeAt(1)) 
  4.  a = `${a}//u${utf(s.charCodeAt(1).toString(16))}`  
  5.  return a   
  6. function utf(s) { 
  7.  return Array.from('00').concat(Array.from(s)).slice(-4).join(''
  8. // 這里用var而沒有用let聲明,是因為這些代碼直接復制到 chrome 的控制臺下就可以看到執行結果 
  9. // 測試一下 
  10. // toUnicode('a')  --> "/u0061" 
  11. // toUnitcode('??') --> "/ud842/udfb7" 
  12. function reg(input) { 
  13.  return new RegExp(`${toUnicode(input)}`) 
  14. // 再測試一下 
  15. reg('$').test('$') --> true 
?

以上內容就是武林網小編給大家分享的正則表達式之 Unicode 匹配特殊字符


發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 精品国产91一区二区三区 | 免费一区二区三区 | 国产久草视频在线 | 亚洲国产精久久久久久久 | 香蕉视频h | 国产一国产一级毛片视频在线 | 免费专区 - 91爱爱 | 精品久久久久久久久久久αⅴ | 中文字幕在线不卡视频 | 精品一区二区三区免费爱 | 久久美女免费视频 | 国产精品久久久av | 精品亚洲网站 | 久久艹精品视频 | 久久91精品久久久久清纯 | 欧美性videofree精品 | 欧美一级特黄特色大片免费 | 日本一区二区三区视频在线 | 毛片在哪看 | 黄污在线观看 | 福利一区二区三区视频在线观看 | 毛片视频网址 | 亚洲一级毛片 | 一区二区三区无码高清视频 | 国产精品自拍99 | 色妞视频男女视频 | 午夜视频在线观看免费视频 | 久久蜜桃精品一区二区三区综合网 | chinese-xvideos | 香蕉视频h | av手机在线免费播放 | 国产91影院 | 日本娇小videos高潮 | 国产精品视频一区二区三区四 | 91专区在线观看 | 国产一级片91 | 亚洲一区 国产精品 | 中文字幕欧美视频 | 91精品国产日韩91久久久久久360 | 色播视频网站 | 国产一区日韩精品 |