使用說明:正則表達式
“ | 正則表達式使用單個字符串來描述、匹配一系列匹配某個句法規則的字符串。在很多文本編輯器里,正則表達式通常被用來檢索、替換那些匹配某個模式的文本。 | ” |
——維基百科 |
本文介紹的大部分正則語法,在不同的正則表達式引擎中都可以使用,但也有一些會有所差異。僅會進行基礎性講解,畢竟深層次的也不會來萌百找。
如要在萌百使用,見段落在萌百。
基本語法
學習正則表達式的最好方法是理解例子後再自己對例子進行修改、實驗。
一個最簡單的匹配例子:ab
,在大部分正則工具中,都有忽略大小寫的選項,所以它會匹配ab
、aB
、Ab
、AB
,而在沒有忽略大小寫的匹配中,它僅僅只能匹配ab
。
不過通過正則表達式中的元字符,它就可以匹配更多...
元字符
元字符能匹配除其本身之外的更多東西,舉個例子:
.
:匹配換行符(\n
)外所有字符,如h.b
能匹配
hab
hfb
h
b
這就是一個典型的元字符,其中提到了不能匹配的\n
,也是一個元字符。
\n
:匹配換行,如uwh\npo
能匹配
uwh
po
uwhpo
你也可以嘗試以下這些常用的元字符來深入了解正則:
\w
:匹配字母不分大小寫、數字或下劃線[1],如\wu\wb\w
能匹配
au_b4
_uhb5
啊u b不
au bb
也就是說它不能匹配漢字或空格。
\d
:匹配純數字,如yuo\dliu
能匹配
yuo7liu
yuo2liu
yuowliu
yuo你liu
\s
:匹配空白字符(包括\n \f\r\t\v
,其中一些後面會談到),如\s\s
能匹配
y
\uXXXX
:匹配Unicode字符,其中XXXX
為四位16進位數字,可見網站(英文)Regex Tutorial - Unicode Characters and Properties,建議在學完本單元後慢慢了解。此處放一些例子,\u4e00
僅匹配漢字「一」
一
二
單詞邊界
以下介紹兩個特殊的元字符:
^
:匹配字符串的開始;$
:匹配字符串的結束,根據概念很難理解,那舉些例子:
642
能匹配
4254642
42546424254
6424254
642
145
但^642$
只能匹配
4254642
42546424254
6424254
642
145
還有些類似的
\b
、\y
:匹配單詞開始或結束處[2],類似於^
和$
之一。如\b\w5\w
會匹配
a5das
4461854274
44424a5a
b5a
以下這些同樣是元字符,但它有了更多的用法...
字符轉義
如果你想查找元字符本身的話,比如你查找.
,就出現了問題:你沒辦法找到它們,因為它們會被解釋未元字符的意義。這時你就得使用
\
來取消這些字符的特殊意義。如\\
匹配
\d
重複
你是不是感覺\w\w\w\w
太累贅了,那就使用以下元字符吧:
*
:重複零次或更多次;+
:重複一次或更多次;?
:重複零次或一次,不懂?邊講邊練練。
如啊5*啊
,匹不匹配5
或多個都一樣:
啊5啊
啊5555555555555啊
啊啊
啊6啊
同一個例子,換成啊5+啊
就不一樣了:
啊5啊
啊5555555555555啊
啊啊
啊6啊
還是同一個例子,換成啊5?啊
又雙叒叕不一樣了:
啊5啊
啊5555555555555啊
啊啊
啊6啊
看明白例子了嗎?其實很簡單的。明白了後還有另一類重複方式:
{n}
:重複n次,可以看做一個數的集合;{n,}
:重複n次或更多次,類似區間 (當然學校沒學到就往下看);{n,m}
:重複n到m次,類似區間 。
如啊5{1}啊
只能匹配到1個5
的
啊5啊
啊5555555555555啊
啊啊
啊6啊
而啊5{1,}啊
能匹配到大於等於1個5
的
啊5啊
啊5555555555555啊
啊啊
啊6啊
同理,啊5{0,}啊
能匹配到大於等於0個5
的
啊5啊
啊5555555555555啊
啊啊
啊6啊
而啊5{0,1}啊
能匹配到大於等於0個、小於等於1個5
的
啊5啊
啊5555555555555啊
啊啊
啊6啊
字符類
如果你想匹配沒有預定義元字符的字符集合...
[xyz]
:字符集合,匹配所包含的任意一個字符,如,你想找字母「a」、數字「6」、漢字「貓」和符號「?」,就可以用[a6猫?]
:
啊a468448d
so6
噬元獸是貓娘
是嗎?
嫌寫太多?可以這樣簡寫一點:
[a-z]
:字符範圍,匹配指定範圍內的任意字符,如果想找「f」到「p」的英文字母,就可以用[f-p]
:
ab14cb4gq
454awahaas
f
**k
當然,你可以同時使用,如[. a-c1-4]
7588746568
eyhtr.ghyuy
iyreh poijlio
人設就誒聽b額皮膚
同時,\uXXXX
也是能指定範圍,如[\u4e00-\uf9a5]+
可以匹配所有中文字符
其實,\w
相當於[A-Za-z0-9_]
,\d
相當於[0-9]
,\s
相當於[ \f\n\r\t\v]
。
用上面的例子,[A-Za-z0-9_]u[A-Za-z0-9_]b[A-Za-z0-9_]
也能匹配
au_b4
_uhb5
啊u b不
au bb
有時候,我們想找的不屬於某個能簡單定義的字符類的字符怎麼辦呢?
反義
[^x]
:匹配除了x以外的字符,如[^a-zA-Z]+
能匹配
adsasafsa4245%(#*&42adfsaf
uyhkuyhk按發@)$*放shrgs
\D
:匹配一個非數字字符,等價於[^\d]
或[^0-9]
,如\D+
能匹配
720720adfs)(#%*af428738393
75085720按@$()*發放4542354
\W
:匹配非字母不分大小寫、數字或下劃線[1][^\w]
,如\W+\w+\W+
能匹配
72__OHSF)fhf(#%*4afaf73ADA93
75afva720按@$(452)*發放4542354
\S
:匹配非空白符的字符,等價於[^\s]
,而[\S\s]+
就能匹配全文
4eaohfoUIDAGUI648
sfukhkuse)$@*(&@4)sofeho adda
)()*&¥@)()@¥*58
如果想查找多次,那我們有什麼簡便方法嗎?
分枝條件
x|y
:有x條件和y條件,滿足其中任意一種條件都能匹配,對整個正則表達式生效,如abc|123
可以匹配
gkytgkc79876
seydut276877687
有了這個,我們可以將多次查詢綜合成一次查詢,如新曲|知名度|歌姫|涙
可以匹配
謎(知名度的な意味で)のP集団によって
奇跡の新曲が生み出されようとしている。
われらの歌姫が名作絵本のコンセプトをもとに歌い上げる、
感動巨編一大スペクタクル
止まらぬ涙・そして謎の物体
スイミーとは…オランダ出身の絵本作家レオ・レオニ (Leo Lionni) 作の名作絵本。
他の仲間と違い一匹だけ真っ黒な小魚・スイミーが、仲間たちと協力し合って
自分の何十倍もの大きさの魚に立ち向かう、勇気と友情の物語。
有人說,想用<div>.+</div>
匹配<div><div></div></div>
中內層div
,卻把全文匹配了,為什麼?因為
貪婪之罪和怠惰之罪
*?
:重複任意次,但儘可能少重複;+?
:重複1次或更多次,但儘可能少重複;??
:重複0次或1次,但儘可能少重複;{n,m}?
:重複n到m次,但儘可能少重複;{n,}?
:重複n次以上,但儘可能少重複。
通過一段話和b[ab]*b
來區分不同的效果
bbbabaabaabaaabaaaab
沒有?
,它會一次匹配完b[ab]*b
:
bbbabaabaabaaabaaaab
有了?
,它四次才匹配完b[ab]*?b
:
bb
babaa
baabaaa
baaaab
這時候有人說了,哎呀你這個|
在有相同內容時總是要重複寫...
分組語法
(abc)
:將小括號內的內容視為一個整體,並捕獲文本到自動命名組「x」里;(?:abc)
:非捕獲組,內容不會被捕獲,也不會占用捕獲組的序號,僅用於條件判斷。a(?:x|y)c
:分枝條件僅對小括號內生效。
沒學這個之前,寫累贅的寫成絶対絶対絶対絶対絶対|僕は絶対|そして絶対
,現在,寫成((?:絶対){4}|僕は|そして)絶対
也能達到同樣效果
僕は絶対
絶対絶対絶対絶対絶対
何者にもなれず
繰り返してく街の中で窒息する
そして絶対
絶対絶対絶対絶対
Unicode、POSIX
本段落之全部或部分原來自中文維基百科的正則表達式,依 CC BY-SA 3.0 授權引入;原貢獻者可以在這裡看到。 |
其它
- 摘自正則表達式引擎/風味對比(更新時間:2019-11-27),有改動。
在萌百
使用正則表達式編輯
在萌百,你可以在編輯器中使用正則語法進行替換,只需要打開默認編輯器中的「高級」,點擊最右側的圖標,並在彈出的窗口中勾選「使用正則表達式」。
同時各種編輯器,如Wiki+、IPE等也均支持使用正則表達式進行查找的替換。
在模板/頁面中使用正則表達式
萌百有一系列模板可以進行正則表達式的匹配和替換,其中{{regex}}調用了PHP的正則表達式,功能最為強大,而其他模板(如{{Str test}}、{{Str match}}、{{Str replace}}等)則使用的是Lua正則表達式,無法實現部分功能,而且還要占用Lua運行限時。關於這些模板的使用可以直接查看對應模板的文檔,在此不再贅述。