正则表达式简介 – 川陀知识库

正则表达式（Regular Expression, 简称 Regex）全面详解

正则表达式（Regex）是一种强大的文本匹配工具，广泛应用于字符串搜索、文本处理和数据验证等场景。它通过特定的模式（pattern）匹配字符串，并支持复杂的搜索、替换和解析操作。

1. 正则表达式的基本概念

1.1 正则表达式的作用

• 字符串匹配：检查字符串是否符合某种规则（如邮箱、手机号等）。

• 搜索与提取：从文本中提取特定内容（如网页爬取、日志分析）。

• 替换与格式化：使用模式匹配替换字符串中的内容（如去除多余空格）。

1.2 常见的正则表达式语法

正则表达式由普通字符和**元字符（Metacharacters）**组成。

普通字符会被直接匹配，而元字符用于定义匹配规则。

2. 正则表达式的基础语法

2.1 普通字符匹配

普通字符（如 a, b, c）在正则表达式中匹配自身。例如：

hello

匹配字符串 “hello”。

2.2 特殊字符（元字符）

正则表达式包含多个元字符，它们有特殊的意义：

2.3 重复匹配（量词）

量词用于指定某个模式出现的次数：

2.4 边界匹配

边界匹配用于确定匹配的位置：

2.5 分组与引用

分组用于提取子模式，反向引用用于匹配前面捕获的内容。

2.6 字符集（字符类）

字符集用于匹配某一类字符。

3. 进阶用法

3.1 断言（零宽度匹配）

断言用于匹配前后环境，而不消耗字符。

3.2 贪婪与懒惰匹配

默认情况下，量词是贪婪的（尽可能多匹配）。

语法	说明	示例
.*	贪婪匹配	“<b>text</b>” 匹配 “<b>text</b>”
.*?	懒惰匹配	“<b>text</b>” 只匹配 “<b>”

4. 常见正则表达式示例

总结

正则表达式是一种强大但复杂的工具，掌握它可以极大提高文本处理效率。建议通过**在线工具（如 regex101）**测试不同表达式，以加深理解。