校园春色亚洲色图_亚洲视频分类_中文字幕精品一区二区精品_麻豆一区区三区四区产品精品蜜桃

主頁 > 知識庫 > 正則表達式的高級技巧分享

正則表達式的高級技巧分享

熱門標簽:惠安地圖標注 遼寧秒客來電話機器人 地圖標注店鋪地圖標注酒店 上海銷售電銷機器人軟件 哈爾濱公司外呼系統代理 自己做的電銷機器人 淄博市張店區地圖標注 浙江營銷外呼系統有哪些 山東外呼系統聯系方式
正則表達式(regular expression abbr. regex) 功能強大,能夠用于在一大串字符里找到所需信息。它利用約定俗成的字符結構表達式來發生作用。不幸的是,簡單的正則表達式對于一些高級運用,功能遠遠不夠。若要進行篩選的結構比較復雜,你可能就需要用到高級正則表達式。

本文介紹正則表達式的高級技巧。篩選出了八個常用的概念,并配上實例解析,每個例子都是滿足某種復雜要求的簡單寫法。如果你對正則的基本概念尚缺乏了解,請先閱讀這篇文章,或者這個教程,或者維基條目。

這里的正則語法適用于php,與perl兼容。



1. 貪婪/懶惰


所有能多次限定的正則運算符都是貪婪的。他們盡可能多地匹配目標字符串,也就是說匹配結果會盡可能地長。不幸的是,這種做法并不總是我們想要的。因此,我們添加“懶惰”限定符來解決問題。在各個貪婪運算符后添加“?”能讓表達式只匹配盡可能短的長度。另外,修改器“u”也能惰化能多次限定的運算符。理解貪婪與懶惰的區別是運用高級正則表達式的基礎。

貪婪操作符
操作符 匹配之前的表達式零次或零次以上。它是一個貪婪操作符。請看下面的例子:

復制代碼 代碼如下:

preg_match( ' / h1> . /h1> /' ' h1> 這是一個標題。 /h1>
h1> 這是另一個。 /h1> ' $matches )

句點(.)能代表除換行符外的任意字符。上面的正則表達式匹配 h1 標簽以及標簽內的所有內容。它用句點(.)和星號()來匹配標簽內的所有內容。匹配結果如下:

1. h1> 這是一個標題。 /h1> h1> 這是另一個。 /h1>
整個字串都被返回。 操作符會連續匹配所有內容—— 甚至包括中間的 h1 閉合標簽。因為它是貪婪的,匹配整個字串是符合其利益最大化原則。

懶惰操作符
把上面的式子稍作修改,加上一個問號(?),能讓表達式變懶惰:

1./ h1> .? /h1> /
這樣它會覺得,只需匹配到第一個 h1 結尾標簽就完成任務了。

另一個有著類似屬性的貪婪操作符是 {n } 。它代表之前的匹配模式重復n次或n次以上,如果沒有加上問號,它會尋找盡可能多的重復次數,加上的話,則會盡可能少重復(當然也就是“重復n次”最少)。


復制代碼 代碼如下:

# 建立字串
$str = ' hihihi oops hi'
# 使用貪婪的{n }操作符進行匹配
preg_match( ' /(hi){2 }/' $str $matches ) # matches[0] 將是 ' hihihi'
# 使用墮化了的 {n }? 操作符匹配
preg_match( ' /(hi){2 }?/' $str $matches ) # matches[0] 將是 ' hihi'

2. 回返引用(back referencing)

有什么用?
回返引用(back referencing)一般被翻譯成“反向引用”、“后向引用”、“向后引用”,個人覺得“回返引用”更為貼切[笨活兒]。它是在正則表達式內部引用之前捕獲到的內容的方法。例如,下面這個簡單例子的目的是匹配出引號內部的內容:

復制代碼 代碼如下:

# 建立匹配數組
$matches = array()

# 建立字串
$str = " " this is a ' string' " "

# 用正則表達式捕捉內容
preg_match( " /(" |' ).?(" |' )/" $str $matches )

# 輸出整個匹配字串
echo $matches[0]

它會輸出:



1." this is a'
顯然,這并不是我們想要的內容。

這個表達式從開頭的雙引號開始匹配,遭遇單引號之后就錯誤地結束了匹配。這是因為表達式里說:(”|'),也就是雙引號(”)和單引號(')均可。要修正這個問題,你可以用到回返引用。表達式1 2 … 9 是對前面已捕獲到的各個子內容的編組序號,能作為對這些編組的“指針”而被引用。在此例中,第一個被匹配的引號就由 1 代表。

如何運用?
將上面的例子中,后面的閉合引號替換為1:

1.preg_match( ' /(" |' ).?1/' $str $matches )
這會正確地返回字串:

1." this is a ' string' "
譯注思考題:

如果是中文引號,前引號和后引號不是同一個字符,怎么辦?

還記得php函數 preg_replace 嗎?其中也有回返引用。只不過我們沒有用 1 … 9,而是用了 $1 … $9 … $n (此處任意數目均可)作為回返指針。例如,如果你想把所有的段落標簽 p> 都替換成文本:

復制代碼 代碼如下:

$text = preg_replace( ' / p> (.?) /p> /'
" lt p gt $1 lt /p gt " $html )

參數$1是一個回調引用,代表段落標簽 p> 內部的文字,并插入到替換后的文本里。這種簡便易用的表達式寫法為我們提供了一個獲取已匹配文字的簡單方法,甚至在替換文本時也能使用。

3. 已命名捕獲組(named groups)
當在一個表達式內多次用到回調引用時,很容易就把事情搞混淆,要弄清那些數字(1 … 9)都代表哪一個子內容是件很麻煩的事?;卣{引用的一個替代方法是使用帶名字的捕獲組(下文簡稱“有名組”)。有名組使用(?p name> pattern)來設定,name代表組名,pattern是配合該有名組的正則結構。請看下面的例子:

1./(?p quote> " |' ).?(?p=quote)/
上式中,quote就是組名,”|' 的是匹配內容的正則。后面的(?p=quote)是在調用組名為quote的有名組。這個式子的效果和上面的回調引用實例一樣,只不過是用了有名組來實現。是不是更加易讀易懂了?

有名組也能用于處理已匹配內容之數組的內部數據。賦予特定正則的組名也能作為所匹配到的內容在數組內部的索引詞。

復制代碼 代碼如下:

preg_match( ' /(?p quote> " |' )/' " ' string' " $matches )

# 下面的語句輸出“' ”(不包括雙引號)
echo $matches[1]

# 使用組名調用,也會輸出“' ”
echo $matches[' quote' ]

所以,有名組并不只是讓寫代碼更容易,它也能用于組織代碼。

4. 字詞邊界(word boundaries)

字詞邊界是字串里的字詞字符(包括字母、數字和下劃線,自然也包括漢字)和非字詞字符之間的位置。其特殊之處就在于,它并不匹配某個實在的字符。它的長度是零。 b 匹配所有字詞邊界。

不幸的是,字詞邊界一般都被忽視掉了,大部分人都沒有在意他的現實意義。 例如,如果你想要匹配單詞“import”:

1./import/
注意了!正則表達式有時候很調皮的。下面的字串也能和上面的式子匹配成功:

1.important
你或許覺得,只要在import前后加上空格,不就可以匹配這個獨立的單詞了:

1./ import /
那如果遇上這種情況呢:

1.the trader voted for the import
當 import 這個詞在字串開頭或者結尾時,修改后的表達式仍然不能用。因此,考慮各種情況是必須的:

1./(^import | import | import$)/i
別慌,還沒完呢。如果遇到標點符號了呢?就為了滿足這一個單詞的匹配,你的正則可能就需要這樣寫:

1./(^import(:| | )? | import(:| | )? | import(.|?|!)?$)/i
對于只匹配一個單詞來說,這樣做實在是有點大動干戈了。正因如此,字詞邊界才顯得意義重大。要適應上述要求,以及很多其他情況變種,有了字符邊界,我們所需寫的代碼只是:

1./bimportb/
上面所有情況都得到了解決。 b 的靈活性就在于,它是一個沒有長度的匹配。它只匹配兩個實際字符之間想象出的位置。它檢查兩個相鄰字符是否是一個為單字,另一個為非單字。情況符合,就返回匹配。如果遇到了單詞的開頭或結尾, b 會把它當成是非單詞字符對待。由于import里面的 i 仍然被看成是單詞字符,import 就被匹配出來了。

注意,與b相對,我們還有 b,此操作符匹配兩個單字或者兩個非單字之間的位置。因此,如果你想匹配在某個單詞內部的‘hi',可以使用:

1.bhib
“this”、“hight”,都會返回匹配,而“hi there”則會返回不匹配。

5. 最小組團(atomic groups)

最小組團是無捕捉的特殊正則表達式分組。通常用來提高正則表達式的效能,也能用于消除特定匹配。一個最小組團可以用(?> pattern) 來定義,其中pattern是匹配式。

1./(?> his|this)/
當正則引擎針對最小組團進行匹配時,它會跳過組團內標記的回溯位置。以單詞“smashing”為例,當用上面的正則表達式匹配時,正則引擎會先嘗 試在“smashing”里尋找“his”。顯然,找不到任何匹配。此時,最小組團就發揮作用了:正則引擎會放棄所有回溯位置。也就是說,它不會嘗試再從 “smashing”里查找“this”。為什么要這樣設置?因為“his”都沒有返回匹配結果,包含有“his”的“this”當然就更匹配不了了!

上面的例子并沒有什么實用性,我們用/t?his?/ 也能達到效果。再看看下面的例子:

1./b(engineer|engrave|end)b/
如果把“engineering”拿去匹配,正則引擎會先匹配到“engineer”,但接下來就遇到了字詞邊界,b,所以匹配不成功。然后,正則 引擎又會嘗試在字串里尋找下一個匹配內容:engrave。匹配到eng的時候,后面的又對不上了,匹配失敗。最后,嘗試“end”,結果同樣是失敗。仔 細觀察,你會發現,一旦engineer匹配失敗,并且都抵達了字詞邊界,“engrave”和“end”這兩個詞就已經不可能匹配成功了。這兩個詞都比 engineer短小,正則引擎不應該再多做無謂的嘗試。

1./b(?> engineer|engrave|end)b/
上面的替代寫法更能節省正則引擎的匹配時間,提高代碼的工作效率。

6. 遞歸(recursion)

遞歸(recursion)用于匹配嵌套結構,例如括弧嵌套, (this (that)),html標簽嵌套 div> div> /div> /div> 。我們使用(?r)來代表遞歸過程中的子模式。下面是一個匹配嵌套括弧的例子:

1./(((?> [^()]+)|(?r)))/
最外層使用了反義符的括號“(”匹配嵌套結構的開端。然后是一個多選項操作符( | ),可能匹配除括號外的所有字符 “(?> [^()]+)”,也可能是通過子模式“(?r)”來再次匹配整個表達式。請注意,這個操作符會盡量多地匹配所有嵌套。

遞歸的另一個實例如下:

1./ ([w]+).?> ((?> [^ > ]+)|((?r))) /1> /
以上表達式綜合運用了字符分組,貪婪操作符、回溯,以及最小化組團來匹配嵌套標簽。第一個括弧內分組([w]+)匹配出標簽名,用于接下來的應用。若找到這尖括號樣式的標簽,則嘗試尋找標簽內容的剩余部分。下一個括弧括起來的子表達式和上一個實例非常相似:要么匹配不包括尖括號的所有字符 (?> [^ > ]+),要么遞歸匹配整個表達式(?r)。整個表達式最后一部分就是尖括號樣式的閉合標簽 /1> 。

7. 回調(callbacks)

匹配結果中的特定內容有時可能會需要某種特別的修改。要應用多重而復雜的修改,正則表達式的回調就有了用武之地。回調是用于函數preg_replace_callback中的動態修改字串的方式。你可以為preg_replace_callback指定某個函數為參數,此函數能接收匹配結果數組為參數,并將數組修改后返回,作為替換的結果。

例如,我們想將某字串中的字母全部轉變成大寫。十分不巧,php沒有直接轉化字母大小寫的正則操作符。要完成這項任務,就可以用到正則回調。首先,表達式要匹配出所有需要被大寫的字母:

1./bw/
上式同時使用了字詞邊界和字符類。光有這個式子還不夠,我們還需要一個回調函數:
復制代碼 代碼如下:

function upper_case( $matches ) {
return strtoupper( $matches[0] )
}

函數upper_case接收匹配結果數組,并將整個匹配結果轉化成大寫。 在此例中,$matches[0]代表需要被大寫化的字母。然后,我們再利用preg_replace_callback實現回調:

1.preg_replace_callback( ' /bw/' " upper_case" $str )
一個簡單的回調即有這般強大的力量。

8. 注釋(commenting)

注釋不用來匹配字串,但確實是正則表達式中最重要的部分。當正則越寫越深入,越寫越復雜,要推譯出究竟什么東西被匹配就會變得越來越困難。在正則表達式中間加上注釋,是最小化將來的迷糊和困惑的最佳方式。

要在正則表達式內部加上注釋,使用(?#comment)格式。把“comment”替換成你的注釋語句:

1./(?#數字)d/
如果你打算把代碼公之于眾,為正則表達式加上注釋就顯得尤為重要。這樣別人才能更容易看懂和修改你的代碼。和其他場合的注釋一樣,這樣做也能為你重訪自己以前寫的程序時提供方便。

考慮使用“x”或“(?x)”修改器來格式化注釋。這個修改器讓正則引擎忽略表達式參數之間的空格?!坝杏玫摹笨崭袢匀荒軌蛲ㄟ^[ ]或(反義符加空格)來匹配。

復制代碼 代碼如下:

/
d #digit
[ ] #space
w+ #word
/x

上面的代碼與下面的式子作用一樣:

1./d(?#digit)[ ](?#space)w+(?#word)/
請時刻注意代碼的可讀性。

模式修正符
是為正則表達式增強和補充的一個功能,使用在正則之外
例子:/正則/U U就表示一個模式修正符
一下幾個為php中常用的:(注意:區分大小寫)
i 正則內容在匹配時候不區分大小寫(默認是區分的)
m 在匹配首內容或者尾內容時候采用多行識別匹配
s 將轉義回車取消是為單位匹配

x 忽略正則中的空白
A 強制從頭開始匹配
D 強制$匹配尾部任何內容\n
U 禁止貪mei匹配,只跟蹤到最近的一個匹配符并結束,常用在采集程序的正則表達式
您可能感興趣的文章:
  • 正則表達式高級學習技巧
  • ASP正則表達式技巧
  • PHP 正則表達式的幾則使用技巧
  • 正則表達式高級技巧及實例詳解 笨活兒
  • javascript 正則表達式(二) 使用技巧說明
  • 模板引擎正則表達式調試小技巧
  • .NET 正則表達式使用高級技巧之替換類介紹
  • 正則表達式匹配不包含某些字符串的技巧
  • 寫出高效率的正則表達式技巧總結

標簽:西安 長沙 宣城 綿陽 無錫 重慶 銅川 泰州

巨人網絡通訊聲明:本文標題《正則表達式的高級技巧分享》,本文關鍵詞  正則,表達式,的,高級,技巧,;如發現本文內容存在版權問題,煩請提供相關信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《正則表達式的高級技巧分享》相關的同類信息!
  • 本頁收集關于正則表達式的高級技巧分享的相關信息資訊供網民參考!
  • 推薦文章
    校园春色亚洲色图_亚洲视频分类_中文字幕精品一区二区精品_麻豆一区区三区四区产品精品蜜桃
    亚洲超碰97人人做人人爱| 日韩亚洲国产中文字幕欧美| 中文字幕色av一区二区三区| 国产精品一区在线观看乱码| 久久久蜜桃精品| 东方欧美亚洲色图在线| 国产精品短视频| 欧美日韩在线播放三区四区| 午夜视频一区二区三区| 欧美电影精品一区二区| 国产精一区二区三区| 中文字幕亚洲成人| 欧美三区在线观看| 久久se精品一区二区| 久久久久国产精品厨房| 91蜜桃在线观看| 日韩福利电影在线观看| 久久久777精品电影网影网| av亚洲精华国产精华精| 亚洲国产精品久久艾草纯爱| 亚洲精品一区二区在线观看| 成人免费毛片嘿嘿连载视频| 亚洲一本大道在线| 久久久国产精品不卡| 欧美性猛交xxxx黑人交| 九色|91porny| 亚洲男人天堂一区| 欧美成人video| 91小视频免费观看| 美女爽到高潮91| 中文字幕一区二区三区在线观看| 欧美色中文字幕| 国产精品一级在线| 亚洲国产欧美在线| 欧美韩国一区二区| 5858s免费视频成人| av在线不卡网| 久久电影网电视剧免费观看| 亚洲激情六月丁香| 欧美精品一区二区蜜臀亚洲| 欧美亚洲综合色| 国产成人午夜精品影院观看视频| 一区二区三区四区国产精品| 久久久久久夜精品精品免费| 在线不卡中文字幕播放| 成人av在线资源网| 狠狠色丁香婷婷综合久久片| 亚洲福利一区二区三区| 国产精品视频观看| 国产亚洲精品免费| 日韩亚洲欧美在线| 精品婷婷伊人一区三区三| 不卡的av电影| 国产精品12区| 国产一区二区在线视频| 免费在线看成人av| 亚洲成精国产精品女| 亚洲色图第一区| 国产精品夫妻自拍| 26uuu亚洲综合色欧美| 欧美一区二区三区在| 欧美优质美女网站| 成人app在线观看| 成人看片黄a免费看在线| 久久99久久精品欧美| 首页国产丝袜综合| 日韩经典一区二区| 五月激情六月综合| 亚洲第一搞黄网站| 亚洲国产精品久久久男人的天堂| 亚洲色图色小说| 亚洲男人的天堂在线aⅴ视频| 国产精品三级av在线播放| 国产视频一区二区在线观看| 亚洲精品一区二区三区香蕉 | 日本一区二区久久| 国产偷国产偷亚洲高清人白洁| 久久网站热最新地址| 欧美不卡一区二区| 久久久久久黄色| 国产人伦精品一区二区| 欧美激情一区二区三区全黄| 国产精品欧美一区二区三区| 国产免费观看久久| 亚洲欧美国产高清| 一区二区高清视频在线观看| 亚洲一级二级在线| 舔着乳尖日韩一区| 久久精品国产成人一区二区三区| 国产伦精品一区二区三区视频青涩| 国产永久精品大片wwwapp| 成人黄色在线视频| 91黄色在线观看| 91精品久久久久久久91蜜桃| 精品电影一区二区| 中文字幕精品—区二区四季| 亚洲天堂av一区| 五月激情综合婷婷| 国产伦精一区二区三区| 97久久精品人人做人人爽50路| 在线中文字幕不卡| 日韩欧美的一区| 国产精品免费视频观看| 亚洲午夜视频在线观看| 极品美女销魂一区二区三区免费| 国产不卡高清在线观看视频| 91蝌蚪porny九色| 91麻豆精品国产无毒不卡在线观看 | 一区二区久久久久久| 日日夜夜免费精品| 粉嫩嫩av羞羞动漫久久久| 一本色道久久综合狠狠躁的推荐| 欧美日韩一区二区电影| 久久亚洲综合色一区二区三区| 国产精品成人在线观看| 五月婷婷激情综合网| 国产一区91精品张津瑜| 在线视频观看一区| 欧美精品一区二区三| 亚洲中国最大av网站| 久久99精品久久久久久动态图| 99精品偷自拍| 精品国产成人在线影院 | 奇米精品一区二区三区四区| 国产成人av一区| 欧美日韩精品一区二区三区蜜桃| 久久尤物电影视频在线观看| 亚洲激情综合网| 高清成人在线观看| 4438x成人网最大色成网站| 国产精品久久久久7777按摩| 麻豆精品在线视频| 欧美中文一区二区三区| 中文字幕免费一区| 免费在线观看日韩欧美| 一本一道久久a久久精品| 久久精品一区八戒影视| 日本不卡在线视频| 91麻豆精品在线观看| 国产欧美日韩另类视频免费观看| 午夜精品一区二区三区免费视频 | 成人精品小蝌蚪| 精品日韩一区二区三区免费视频| 一二三四社区欧美黄| 成人黄色a**站在线观看| 精品对白一区国产伦| 天堂在线亚洲视频| 欧美中文字幕不卡| 一区二区三区鲁丝不卡| 岛国av在线一区| 337p粉嫩大胆噜噜噜噜噜91av| 免费视频一区二区| 欧美日韩成人综合| 亚洲成a人片综合在线| 色综合 综合色| 亚洲人成亚洲人成在线观看图片| 国产精品小仙女| 久久蜜桃av一区精品变态类天堂| 男女视频一区二区| 欧美一区午夜精品| 蜜乳av一区二区| 欧美一级欧美三级| 美国十次综合导航| 欧美一区二区久久| 久久精品国产一区二区| 欧美v日韩v国产v| 国产在线精品国自产拍免费| 久久婷婷久久一区二区三区| 极品少妇xxxx精品少妇| 久久老女人爱爱| 成人性生交大片免费看中文| 中文字幕电影一区| 91网站在线播放| 亚洲午夜久久久| 9191久久久久久久久久久| 视频一区欧美精品| 精品国产人成亚洲区| 国产精品18久久久久久久久久久久 | 久久午夜国产精品| 国产成a人亚洲| 亚洲欧美激情一区二区| 欧美自拍丝袜亚洲| 日本美女视频一区二区| 精品国产乱码久久久久久图片| 国产成人精品aa毛片| 亚洲日本电影在线| 欧美日韩免费在线视频| 精品一区二区三区视频| 中文字幕av在线一区二区三区| 99久久婷婷国产综合精品电影| 亚洲欧美另类综合偷拍| 欧美高清性hdvideosex| 麻豆国产欧美一区二区三区| 国产欧美视频一区二区三区| 94-欧美-setu| 日本欧美一区二区三区| 国产午夜久久久久| 欧美午夜不卡在线观看免费| 毛片不卡一区二区| 欧美激情一区三区|