[原創(chuàng)文章,轉(zhuǎn)載請保留或注明出處:http://www.regexlab.com/zh/regref.htm]
正則表達式(regular expression)作為一種強大的字符串匹配工具,其核心在于定義特定模式,以實現(xiàn)兩大核心功能:其一,檢測字符串中是否存在符合規(guī)則的子串,并精準(zhǔn)定位該子串的內(nèi)容與位置;其二,依據(jù)匹配規(guī)則對字符串進行靈活的替換操作,極大提升文本處理的效率。
正則表達式的學(xué)習(xí)門檻遠低于大眾認知,其核心概念抽象性有限,易于理解。然而,多數(shù)學(xué)習(xí)者感到困惑的根源往往在于兩方面:部分教學(xué)文檔未能遵循由淺入深的邏輯順序,概念講解缺乏條理性,導(dǎo)致讀者理解障礙;各引擎自帶文檔常側(cè)重介紹其特有功能,而這類非通用特性并非初學(xué)者優(yōu)先掌握的重點。本文將通過實例演示與交互式測試(文中每個舉例均可點擊進入測試頁面),系統(tǒng)化梳理正則表達式的知識體系,助力讀者快速掌握其精髓。
普通字符包括字母、數(shù)字、漢字、下劃線,以及未在后續(xù)章節(jié)中被賦予特殊含義的標(biāo)點符號。在匹配過程中,普通字符需與目標(biāo)字符串中的字符完全一致方可實現(xiàn)匹配。例如,表達式“c”在匹配字符串“abcde”時,成功匹配到字符“c”,其位置為索引2至3(注:索引起始值因編程語言而異);而表達式“bcd”在匹配同一字符串時,則成功匹配子串“bcd”,位置為索引1至4。
部分難以直接書寫的字符需通過轉(zhuǎn)義符號“\”進行表示,這些字符均為開發(fā)者所熟知的控制字符。具體而言:
- `\r`與`\n`分別代表回車符與換行符;
- `\t`代表制表符;
- `\\`代表反斜杠“\”本身。
部分標(biāo)點符號在正則表達式中具有特殊含義(如`^`、`$`),若需匹配其字面值,需在符號前添加“\”。例如:
- `\^`匹配“^”字符本身;
- `\$`匹配“$”字符本身;
- `\.`匹配小數(shù)點“.”本身。
此類轉(zhuǎn)義字符的匹配邏輯與普通字符一致,均要求與目標(biāo)字符完全對應(yīng)。例如,表達式`\$d`在匹配字符串“abc$de”時,成功匹配子串“$d”,位置為索引3至5。
正則表達式通過特定元字符實現(xiàn)“匹配任意一個字符”的靈活功能,此類元字符雖能匹配多種字符之一,但每次僅匹配單個字符,類似于撲克牌中“萬能牌”的使用邏輯。常用元字符包括:
- `\d`:匹配任意數(shù)字(0-9);
- `\w`:匹配任意字母、數(shù)字或下劃線(A-Z、a-z、0-9、_);
- `\s`:匹配任意空白字符(如空格、制表符、換頁符);
- `.`:匹配除換行符(`\n`)外的任意字符。
例如,表達式`\d\d`在匹配字符串“abc123”時,成功匹配子串“12”,位置為索引3至5;表達式`a.\d`在匹配“aaa100”時,匹配到“aa1”,位置為索引1至4。
方括號`[]`提供了自定義字符集匹配的功能:`[字符序列]`匹配序列中的任意一個字符,而`[^字符序列]`則匹配序列外的任意一個字符。需注意的是,此類匹配同樣限定為單字符。例如:
- `[ab5@]`匹配“a”“b”“5”“@”中的任意一個;
- `[^abc]`匹配非“a”“b”“c”的任意字符;
- `[f-k]`匹配“f”至“k”范圍內(nèi)的任意小寫字母;
- `[^A-F0-3]`匹配非“A”至“F”且非“0”至“3”的任意字符。
舉例而言,表達式`[bcd][bcd]`在匹配“abc123”時,成功匹配“bc”,位置為索引1至3;表達式`[^abc]`在匹配同一字符串時,匹配到“1”,位置為索引3至4。
為避免重復(fù)書寫表達式,正則表達式引入了修飾匹配次數(shù)的元符號,此類符號置于被修飾表達式之后,實現(xiàn)重復(fù)匹配功能。常用符號包括:
- `{n}`:表達式重復(fù)n次(如`\w{2}`等價于`\w\w`);
- `{m,n}`:表達式重復(fù)m至n次(如`ba{1,3}`匹配“ba”“baa”“baaa”);
- `{m,}`:表達式至少重復(fù)m次(如`\w\d{2,}`匹配“a12”“_456”等);
- `?`:匹配0次或1次(等價于`{0,1}`,如`a[cd]?`匹配“a”“ac”“ad”);
- `+`:至少匹配1次(等價于`{1,}`,如`a+b`匹配“ab”“aab”等);
- ``:匹配0次或任意次(等價于`{0,}`,如`\^b`匹配“b”“^^^b”等)。
例如,表達式`\d+\.?\d`在匹配“It costs $12.5”時,成功匹配“12.5”,位置為索引10至14;表達式`go{2,8}gle`在匹配“Ads by goooooogle”時,匹配到“goooooogle”,位置為索引7至17。
部分符號在表達式中具有抽象的定位或邏輯功能:
- `^`:匹配字符串開頭位置(不匹配字符);
- `$`:匹配字符串結(jié)尾位置(不匹配字符);
- `\b`:匹配單詞邊界(單詞與空格之間的位置,不匹配字符);
- `|`:實現(xiàn)“或”邏輯(匹配左側(cè)或右側(cè)表達式);
- `( )`:作用包括:① 作為整體被修飾次數(shù)修飾;② 提取子匹配結(jié)果。
舉例說明:表達式`^aaa`僅匹配字符串開頭的“aaa”(如“aaa xxx xxx”),在“xxx aaa xxx”中匹配失敗;表達式`\bend\b`在“weekend,endfor,end”中僅匹配最后一個“end”(位置索引15至18);表達式`Tom|Jack`在“I'm Tom, he is Jack”中先后匹配“Tom”與“Jack”;表達式`¥(\d+\.?\d)`在匹配“$10.9,¥20.5”時,可提取子匹配結(jié)果“20.5”。
默認情況下,修飾匹配次數(shù)的符號(如`{m,n}`、``、`+`等)采用“貪婪模式”,即盡可能多地匹配字符。例如,表達式`(d)(\w+)`在匹配“dxxxdxxxd”時,`\w+`會匹配“xxxdxxxd”;而表達式`(d)(\w+)(d)`中,`\w+`為使整體匹配成功,會“讓出”最后一個“d”,匹配“xxxdxxx”。
“非貪婪模式”(或稱“勉強模式”)通過在修飾符號后添加`?`實現(xiàn),此時表達式會盡可能少地匹配字符。例如,表達式`(d)(\w+?)`在匹配“dxxxdxxxd”時,`\w+?`僅匹配第一個“x”;表達式`(.?)`在匹配`aa bb`時,會分別匹配兩個``標(biāo)簽內(nèi)的內(nèi)容,而非貪婪地匹配整個字符串。
正則表達式引擎會記錄括號`()`內(nèi)子表達式匹配的內(nèi)容,并在后續(xù)匹配中通過`\數(shù)字`引用。例如:
- 表達式`('|")(.?)\1`在匹配` 'Hello', "World" `時,`\1`引用第一個括號匹配的`'`或`"`,確保引號配對;
- 表達式`(\w)\1{4,}`匹配“aa bbbb abcdefg ccccc 111121111 999999999”時,`\1`引用第一個`\w`匹配的字符,匹配“ccccc”與“999999999”(要求同一字符重復(fù)至少5次)。
預(yù)搜索(正向與反向)用于對“字符縫隙”附加條件,但不匹配字符本身:
- 正向預(yù)搜索`(?=xxxxx)`:要求右側(cè)匹配`xxxxx`,如`Windows (?=NT|XP)`僅匹配“Windows NT”中的“Windows ”;
- 正向否定預(yù)搜索`(?!xxxxx)`:要求右側(cè)不匹配`xxxxx`,如`do(?!\w)`匹配“done, do, dog”中的“do”(后跟非單詞字符);
- 反向預(yù)搜索`(?<=xxxxx)`:要求左側(cè)匹配`xxxxx`,如`(?<=\d{4})\d+(?=\d{4})`匹配“1234567890123456”中間8位數(shù)字;
- 反向否定預(yù)搜索`(?
- `\xXX`:表示0-255范圍內(nèi)的字符(如`\x20`表示空格);
- `\uXXXX`:通過Unicode編碼表示任意字符(如`\u4E2D`表示“中”)。
- `\S`:非空白字符(`\s`的相反);
- `\D`:非數(shù)字字符(`\d`的相反);
- `\W`:非字母、數(shù)字、下劃線字符(`\w`的相反);
- `\B`:非單詞邊界(`\b`的相反)。
需通過`\`轉(zhuǎn)義的字符包括:`^`、`$`、`( )`、`[ ]`、`{ }`、`.`、`?`、`+`、``、`|`。
`(?:xxxxx)`表示括號內(nèi)表達式不記錄匹配結(jié)果,如表達式`(?:(\w)\1)+`匹配“a bbccdd efg”時,“(?:)”內(nèi)的`\w`匹配結(jié)果不被記錄,`\1`仍可引用外層括號內(nèi)容。
- `Ignorecase`:忽略大小寫;
- `Singleline`:`.`匹配包括換行符在內(nèi)的所有字符;
- `Multiline`:`^`與`$`匹配每行開頭與結(jié)尾;
- `Global`:替換所有匹配項(而非僅第一個)。
- 完整匹配:使用`^`與`$`確保匹配整個字符串(如`^\d+$`匹配純數(shù)字字符串);
- 完整單詞匹配:使用`\b`(如`\b(if|while|else)\b`匹配程序關(guān)鍵詞);
- 避免空字符串匹配:如匹配“123”“123.”“123.5”“.5”時,避免`\d\.?\d`(可匹配空),改用`\d+\.?\d|\.\d+`;
- 防止死循環(huán):避免“可匹配0次的子表達式+無限次修飾”(如`(\d)`可能導(dǎo)致引擎死循環(huán));
- 合理選擇貪婪/非貪婪模式:根據(jù)需求平衡匹配精度與效率;
- 優(yōu)化“或”邏輯:確保`|`兩側(cè)表達式對同一字符的匹配范圍互斥,避免結(jié)果因順序變化而不同。