【Python】100个Python正则表达式技巧，让你从入门到精通

学研妹 2025-07-25 12:03 浙江

掌握 Python 正则表达式：100个实用技巧与案例。

正则表达式（regex 或 regexp）是 Python 中用于模式匹配与文本处理的强大工具。其语法简洁灵活，能够精准描述字符串中的各类模式，在数据提取、格式验证、文本清洗等场景中发挥着重要作用。

本文系统梳理了 Python 正则表达式的高级特性与一系列使用技巧，帮助读者快速掌握！

一、特性

1.正则表达式简介正则表达式是定义搜索模式的字符序列，是用于字符串匹配和处理的多功能工具。在 Python 中，re 模块提供了对正则表达式的支持。

import re

2.基本模式2.1 字面字符

pattern = re.compile(r'hello')
result = pattern.match('hello world')
print(result.group())  # 输出：'hello'

2.2 字符类

pattern = re.compile(r'[aeiou]')
result = pattern.findall('hello world')
print(result)  # 输出：['e', 'o', 'o']

2.3 通配符 .

pattern = re.compile(r'he..o')
result = pattern.match('hello world')
print(result.group())  # 输出：'hello'

3.量词3.1 *、+、?

pattern = re.compile(r'ab*c')
result = pattern.match('ac')
print(result.group())  # 输出：'ac'

4.锚点4.1 ^（字符串开头）和 $（字符串结尾）

pattern = re.compile(r'^hello')
result = pattern.match('hello world')
print(result.group())  # 输出：'hello'

5.字符转义

pattern = re.compile(r'\d+')  # 匹配一个或多个数字
result = pattern.match('123')
print(result.group())  # 输出：'123'

6.字符集和范围

pattern = re.compile(r'[a-z]')
result = pattern.findall('Hello World')
print(result)  # 输出：['e', 'l', 'l', 'o', 'o', 'r', 'l', 'd']

7.分组和捕获

pattern = re.compile(r'(\d+)-(\d+)-(\d+)')
result = pattern.match('2023-11-25')
print(result.groups())  # 输出：('2023', '11', '25')

8.高级模式8.1 前瞻和后顾

pattern = re.compile(r'(?<=@)\w+')
result = pattern.findall('user@example.com')
print(result)  # 输出：['example']

8.2 非捕获组

pattern = re.compile(r'(?:\d+)-(\d+)-(\d+)')
result = pattern.match('2023-11-25')
print(result.groups())  # 输出：('11', '25')

9.Python 中正则表达式的使用9.1 match 与 search

pattern = re.compile(r'world')
result = pattern.match('hello world')
print(result)  # None
result = pattern.search('hello world')
print(result.group())  # 输出：'world'

9.2 findall

pattern = re.compile(r'\d+')
result = pattern.findall('There are 25 apples and 30 oranges')
print(result)  # 输出：['25', '30']

10.替换和替换操作

pattern = re.compile(r'\d+')
result = pattern.sub('X', 'There are 25 apples and 30 oranges')
print(result)  # 输出：'There are X apples and X oranges'

11.不区分大小写

pattern = re.compile(r'hello', re.IGNORECASE)
result = pattern.match('HeLLo World')
print(result.group())  # 输出：'HeLLo'

二、有效使用正则表达式的100个技巧

1.通用技巧

使用原始字符串（如 r'\d+'）以避免意外的转义字符。

若需多次使用正则表达式模式，建议编译模式以提升性能。

import re
# 不编译模式（重复编译）
for _ in range(1000):
    result = re.match(r'\d+', '123')
# 编译模式（仅编译一次）
pattern = re.compile(r'\d+')
for _ in range(1000):
    result = pattern.match('123')

针对多种情况测试正则表达式，确保其正确性。

import re
# 示例：匹配电子邮件地址
pattern = re.compile(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b')
# 测试用例
test_cases = [
    "user@example.com",             # 有效的电子邮件
    "user@company.co.uk",           # 带国家代码的有效电子邮件
    "name123@sub.domain.org",       # 带子域名的有效电子邮件
    "invalid_email@no_tld",         # 无效的电子邮件（无顶级域名）
    "@missing_username.com",        # 无效的电子邮件（无用户名）
    "user@invalid_domain",          # 无效的电子邮件（域名无效）
    "name@server.c",                # 无效的电子邮件（顶级域名过短）
    "name@server.with_space.com",   # 无效的电子邮件（域名含空格）
    "user@@double_at.com",          # 无效的电子邮件（含两个@）
    "user@excessive_length_domain." + "a" * 255# 无效的电子邮件（域名过长）
]
# 用每个测试用例测试模式
for email in test_cases:
    match = pattern.match(email)
    print(f"{email}：{'有效' if match else '无效'}")

2.字符类

利用字符类（如 [a-z]）匹配指定范围内的任意字符。

使用否定（字符类中的 ^）匹配不在指定范围内的字符（如 [^0-9] 匹配非数字）。

3.量词

需匹配最小内容时，优先使用非贪婪量词（*?、+?）。

使用贪婪量词（*、+）时需谨慎，避免意外的长匹配。

4.锚点和边界

使用 ^ 和 $ 分别将模式锚定到行的开头和结尾。

利用单词边界（\b）匹配完整单词。

5.选择和分组

使用选择（|）匹配多个模式（如 cat|dog）。

需对模式的特定部分（而非整个模式）应用量词（*、+、{}）或选择（|）时，分组非常有用。

6.字符转义

熟悉常见的字符转义（\d、\w、\s），分别用于匹配数字、单词字符和空白字符。

若需匹配特殊字符（如 .），需转义（如 \.）。

7.环视

使用正向前瞻（(?=...)）匹配后面跟有特定模式的内容。

利用负向前瞻（(?!...)）匹配后面不跟特定模式的内容。

8.替换

使用捕获组在替换中提取并引用匹配字符串的部分内容。

import re
# 示例：替换日期格式
pattern = re.compile(r'(\d{1,2})/(\d{1,2})/(\d{4})')
# 原始字符串
text = "Meeting on 12/25/2022. Deadline is 3/8/2023."
# 使用捕获组进行替换
result = pattern.sub(r'\3-\1-\2', text)
# 打印结果
print(f"原始：{text}")
print(f"修改后：{result}")

尝试使用反向引用（\1、\2）在替换中引用捕获组。

9.常见模式

使用 \d+ 匹配一个或多个数字。

使用 ? 匹配可选字符（如 colou?r 匹配 color 或 colour）。

使用 \s+ 匹配空白字符。

10.不区分大小写

使用 re.IGNORECASE 标志启用不区分大小写的匹配。

11.注释

使用 (?#comment) 在正则表达式中添加注释，提高可读性。

12.验证

使用健壮的正则表达式模式验证电子邮件地址。

import re
def validate_email(email):
    # 电子邮件验证的正则表达式模式
    pattern = re.compile(r'^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$')
    return bool(pattern.match(email))
# 测试用例
emails = [
    "user@example.com",          # 有效的电子邮件
    "user.name@company.co.uk",   # 带国家代码的有效电子邮件
    "invalid_email@no_tld",      # 无效的电子邮件（无顶级域名）
    "@missing_username.com",     # 无效的电子邮件（无用户名）
    "user@invalid_domain",       # 无效的电子邮件（域名无效）
    "user@@double_at.com",       # 无效的电子邮件（含两个@）
    "user@excessive_length_domain." + "a" * 255# 无效的电子邮件（域名过长）
]
# 验证每个电子邮件并打印结果
for email in emails:
    result = validate_email(email)
    print(f"{email}：{'有效' if result else '无效'}")

^[a-zA-Z0-9._%+-]+：匹配用户名部分中一个或多个允许的字符。

@：匹配 @ 符号。

[a-zA-Z0-9.-]+：匹配域名部分中一个或多个允许的字符。

\.：匹配顶级域名前的点（.）。

[a-zA-Z]{2,}$：匹配两个或多个字母的顶级域名。

为电话号码创建正则表达式模式。

import re
def validate_phone_number(phone_number):
    # 带或不带连字符的美国电话号码的正则表达式模式
    pattern = re.compile(r'^\+?1?\s*[-.]?\s*\(?\d{3}\)?[-.]?\s*\d{3}[-.]?\s*\d{4}$')
    return bool(pattern.match(phone_number))
# 测试用例
phone_numbers = [
    "+1 123-456-7890",     # 带国家代码的有效电话号码
    "123.456.7890",        # 带点的有效电话号码
    "(123) 456-7890",      # 带括号的有效电话号码
    "1234567890",          # 无连字符的有效电话号码
    "987-654-3210",        # 无国家代码的有效电话号码
    "invalid_phone_number"# 无效的电话号码
]
# 验证每个电话号码并打印结果
for phone_number in phone_numbers:
    result = validate_phone_number(phone_number)
    print(f"{phone_number}：{'有效' if result else '无效'}")

一、特性

二、有效使用正则表达式的100个技巧

1.通用技巧

2.字符类

3.量词

4.锚点和边界

5.选择和分组

6.字符转义

7.环视

8.替换

9.常见模式

10.不区分大小写

11.注释

12.验证

13.转义用户输入

14.命名组

15.详细模式

16.非捕获组

17.Unicode 字符

18.转义点号

19.验证 URL

20.提取信息

21.字符集和范围

22.非贪婪字符匹配

23.匹配整个单词

24.匹配特殊字符

25.组上的量词

26.匹配日期

27.匹配 HTML 标签

28.密码验证

29.替换空白字符

30.提取数字

31.提取 URL

32.匹配 HTML 实体

33.匹配文件路径

34.提取电子邮件地址

35.匹配 IPv4 地址

36.转义符上的量词

37.匹配信用卡号

38.匹配特定单词

39.转义字符

40.Unicode 和单词边界

41.匹配或排除字符

42.量词组合

43.分组和选择

44.替换中的捕获组

45.环视

46.命名捕获组

47.详细模式

48.标志和模式

49.验证和提取电子邮件域名

50.匹配平衡括号

51.验证 IP 地址

52.匹配 Markdown 链接

53.匹配带引号的字符串

54.提取 HTML 属性

55.组上的量词

56.匹配十六进制颜色

57.验证信用卡有效期

58.匹配函数调用

59.匹配 SQL 查询

60.匹配 XML 标签

61.匹配句子

62.提取 HTML 注释

63.匹配浮点数

64.验证 MAC 地址

65.验证 URL

66.匹配社会安全号码

67.提取哈希标签

68.匹配 Python 文档字符串

69.匹配 Markdown 标题

70.验证十六进制颜色代码

71.匹配时间格式

72.匹配嵌套括号

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签