首页Python7.正则表达式

7.正则表达式

1.正则表达式:

正则表达式是处理字符串的强大工具,它有自己特定的语法结构,通过正则表达式可以很方便的实现字符串的检索、替换、匹配验证等。

  • 通用的字符串表达框架;
  • 简洁表达一组字符串的表达式;
  • 针对字符串表达“简洁”和“特征”思想的工具;
  • 判断某字符串的特征归属。

正则表达式就是通过一定的规则将特定文本提取出来。正则表达式在文本处理中的应用主要为以下三方面:

  • 表达文本类型的特征;
  • 同时查找或替换一组字符串;
  • 匹配字符串的全部或部分。

正则表达式是由字符和操作符构成的一组表达式。
下面是正则表达式的常用操作符:

操作符说明实例
.匹配任意字符,除了换行符
[...]字符集,对单个字符给出取值范围[abc]表示a、b、c,[a-z]表示a到z的单个字符
[^...]非字符集,对单个字符给出排除范围[^abc]表示非a或b或c的单个字符
*前一个字符0次或无限次扩展abc*表示ab、abc、abcc、abccc等
+前一个字符1次或无限次扩展abc+表示abc、abcc、abccc等
前一个字符0次或1次扩展abc?表示ab、abc
|左右表达式任意一个abc|def表示abc、def
{m}扩展前一个字符m次ab{2}c表示abbc
{m,n}扩展前一个字符m至n次ab{1,2}c表示abc、abbc
^匹配字符串开头^abc表示abc且在一个字符串的开头
\$匹配字符串结尾abc$表示abc且在一个字符串的结尾
()分组标记,内部只能使用|操作符(abc)表示abc,(abc|def)表示abc、def
\d数字,等价于[0-9]
\w单词字符,等价于[A-Za-z]

下面是一些经典正则表达式实例,可以进一步加深对正则表达式的理解:

正则表达式说明
^[A-Za-z]+\$由26个字母组成的字符串
^[A-Za-z0-9]+\$由26个字母和数字组成的字符串
^-?\d+$整数形式的字符串
^[0-9]\*[1-9][0-9]*\$正整数形式的字符串
[1-9]\d{5}中国境内邮政编码,6位
[\u4e00-\u9fa5]利用utf-8编码,匹配中文字符
\d{3}-\d{8}|\d{4}-\d{7}国内电话号码,例如010-12345678

2.Re库:

Re库是Python的标准库,提供了整个正则表达式的实现,利用这个库可以在python中使用正则表达式,主要用于字符串匹配。
通过import re命令调用。
Re库使用raw string类型(原生字符串类型)来表达正则表达式,表示为r'text',例如:
中国地区的邮政编码可以表示为,r'[1-9]\d{5}'
raw string类型是指不包含转移符的字符串
Re库也可以使用string类型来表达正则表达式,会相对繁琐(出现斜杠的地方都需要增加斜杠表示),例如:
中国地区的邮政编码可以表示为,[1-9]\\d{5}

Tips:
因此,建议当正则表达式中包含转义符的时候,使用raw string类型。

Re库主要的功能函数有以下几种:

功能函数说明
re.search()在一个字符串中搜索匹配正则表达式的第一个位置,返回match对象
re.match()从一个字符串的开始位置起匹配正则表达式,返回match对象
re.findall()搜索字符串,以列表类型返回全部能匹配的子串
re.split()将一个字符串按照正则表达式匹配结果进行分割,返回列表类型
re.finditer()搜索字符串,返回一个匹配正则表达式的子串,每个迭代元素是吗,match对象
re.sub()在一个字符串中替换所有匹配正则表达式的子串,返回替换后的字符串

更多内容可以前往Re库官方文档查看。

2.1 match()函数

re.match(pattern,string,flag=0)
在一个字符串的开始位置匹配正则表达式,返回match对象。
pattern——正则表达式的字符串或原生字符串表示;
string——待匹配字符串;
flag——标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。

返回的match对象,有两个方法:
group()方法可以输出匹配到的内容;
span()方法可以输出匹配的范围,及匹配到的内容在原字符串中的索引位置。

另外,可以使用()标记一个子表达式的开始和结束为止,因为可以使用()将想提取的字符串括起来,被标记的每个子表达式依次对应每个分组,调用group()方法时传入索引即可获取提取结果。

实例展示:

import re

content = '''This 123456 is a number demo,this 9876 is another number'''

match = re.match(r'^Th.*?(\d+).*?(\d+).*?number$' , content)
print(match.group())
print(match.span())
print(match.group(1))
print(match.group(2))

运行结果如下:

This 123456 is a number demo,this 9876 is another number
(0, 56)
123456
9876

需要注意的是,match()函数是从字符串的开头就开始匹配的,一旦开头不匹配,整个匹配就会失败。
例如,下面代码运行后,会报AttributeError: 'NoneType' object has no attribute 'group'错误,说明匹配结果为None,并没有匹配成功。

import re

content = '''This 123456 is a number demo,this 9876 is another number'''

match = re.match(r'^h.*?(\d+).*?(\d+).*?number$' , content)
print(match.group())
print(match.span())
  • 修饰符

在正则表达式中,flag参数为标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。
当上面的字符前面加了换行符,同样的正则表达式则无法匹配到字符串。
这是因为正则表达式匹配的内容是除换行符以外的任意字符,因此会导致匹配失败。
这时就需要添加修饰符re.S来修正错误。

import re

content = '''This
123456 is a number demo,this 9876 is another number'''

match = re.match(r'^Th.*?(\d+).*?(\d+).*?number$' , content , re.S)
print(match.group())
print(match.span())
print(match.group(1))
print(match.group(2))
常用标记说明
re.I忽略正则表达式的大小写,[A-Z]能够匹配小写字符
re.M正则表达式中的^操作符能够将给定字符串的每行当作匹配开始
re.S正则表达式中的.操作符能够匹配所有字符,默认匹配除换行外的所有
re.L实现本地化识别(locale-aware)匹配
re.U根据Unicode字符集解析字符
re.X能够给予更灵活的格式,以便将正则表达式书写得更易于理解

2.2 search()函数

re.search(pattern,string,flag=0)
在一个字符串中搜索匹配正则表达式的第一个位置,返回match对象。
pattern——正则表达式的字符串或原生字符串表示;
string——待匹配字符串;
flag——标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。

match()函数不同,search()函数在匹配时会扫描整个字符串,然后返回第一个匹配成功的结果。,也就是说,正则表达式可以是字符串的一部分。

Tips:
为了匹配方便,建议使用search()函数。

实例展示:

import re

content = '''This 123456 is a number demo,this 9876 is another number'''

result = re.search(r'(\d+).*?(\d+).*?number$' , content)
print(result)
print(result.group())
print(result.span())
print(result.group(1))
print(result.group(2))

运行结果如下:

<_sre.SRE_Match object; span=(5, 56), match='123456 is a number demo,this 9876 is another numb>
123456 is a number demo,this 9876 is another number
(5, 56)
123456
9876

2.3 findall()函数

re.findall(pattern,string,flag=0)
搜索字符串,以列表类型返回全部能匹配的子串。
pattern——正则表达式的字符串或原生字符串表示;
string——待匹配字符串;
flag——标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。

实例展示:

import re

content = '''This 123456 is a number demo,this 9876 is another number'''

result = re.findall(r'(\d+)' , content)
print(result)

运行结果如下:

['123456', '9876']

2.4 split()函数

re.split(pattern,string,maxsplit=0,flag=0)
将一个字符串按照正则表达式匹配结果进行分割,返回列表类型。
pattern——正则表达式的字符串或原生字符串表示;
string——待匹配字符串;
maxsplit——最大分割数,剩余部分作为最后一个元素输出;
flag——标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。

实例展示:

import re

content = '''This 123456 is a number demo,this 9876 is another number'''

result_1 = re.split(r'\d+' , content)
print(result_1)

result_2 = re.split(r'\d+' , content , maxsplit=1)
print(result_2)

运行结果如下:

['This ', ' is a number demo,this ', ' is another number']
['This ', ' is a number demo,this 9876 is another number']

2.5 finditer()函数

re.finditer(pattern,string,flag=0)
搜索字符串,返回一个匹配结果的迭代类型,每个迭代元素是match对象。
pattern——正则表达式的字符串或原生字符串表示;
string——待匹配字符串;
flag——标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。

实例展示:

import re

content = '''This 123456 is a number demo,this 9876 is another number'''

result = re.finditer(r'\d+' , content)
print(result)
print('-------')
for r in result:
    print(r)
    print(r.span())
    print(r.group())
    print('-------')

运行结果如下:

<callable_iterator object at 0x00000229F5A4F9B0>
-------
<_sre.SRE_Match object; span=(5, 11), match='123456'>
(5, 11)
123456
-------
<_sre.SRE_Match object; span=(34, 38), match='9876'>
(34, 38)
9876
-------

2.6 sub()函数

re.sub(pattern,repl,string,count=0,flag=0)
在一个字符串中替换所有匹配正则表达式的子串,返回替换后的字符串。
pattern——正则表达式的字符串或原生字符串表示;
repl——替换匹配字符串的字符串;
string——待匹配字符串;
count——匹配的最大替换次数;
flag——标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。

实例展示:

import re

content = '''This 123456 is a number demo,this 9876 is another number'''

result = re.sub(r'\d+' , 'code' , content)
print(result)

运行结果如下:

This code is a number demo,this code is another number

2.7 compile()函数

re.compile(pattern,flag=0)
compile()可以将正则字符串编译成正则表达式对象,以便在后面的匹配中使用。
pattern——正则表达式的字符串或原生字符串表示;
flag——标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。

因此Re库有两种等价的用法:

mport re

content_1 = '''This 123456 is a number demo,this 9876 is another number'''
content_2 = '''This 6666 is a number demo,this 9999 is another number'''

# 函数式用法:一次性操作
result_1 = re.search(r'(\d+).*?(\d+).*?number$' , content_1)
print(result_1.group(1))

result_2 = re.search(r'(\d+).*?(\d+).*?number$' , content_2)
print(result_2.group(1))
print('-----------')

# 面向对象用法:编译后的多次操作
pattern = re.compile(r'(\d+).*?(\d+).*?number$')

result_3 = pattern.search(content_1)
print(result_3.group(1))

result_4 = pattern.search(content_2)
print(result_4.group(1))

运行结果如下:

123456
6666
-----------
123456
6666
RELATED ARTICLES

欢迎留下您的宝贵建议

Please enter your comment!
Please enter your name here

- Advertisment -

Most Popular

Recent Comments