1.正则表达式:
正则表达式是处理字符串的强大工具,它有自己特定的语法结构,通过正则表达式可以很方便的实现字符串的检索、替换、匹配验证等。
- 通用的字符串表达框架;
- 简洁表达一组字符串的表达式;
- 针对字符串表达“简洁”和“特征”思想的工具;
- 判断某字符串的特征归属。
正则表达式就是通过一定的规则将特定文本提取出来。正则表达式在文本处理中的应用主要为以下三方面:
- 表达文本类型的特征;
- 同时查找或替换一组字符串;
- 匹配字符串的全部或部分。
正则表达式是由字符和操作符构成的一组表达式。
下面是正则表达式的常用操作符:
操作符 | 说明 | 实例 |
---|---|---|
. | 匹配任意字符,除了换行符 | |
[...] | 字符集,对单个字符给出取值范围 | [abc] 表示a、b、c,[a-z]表示a到z的单个字符 |
[^...] | 非字符集,对单个字符给出排除范围 | [^abc] 表示非a或b或c的单个字符 |
* | 前一个字符0次或无限次扩展 | abc* 表示ab、abc、abcc、abccc等 |
+ | 前一个字符1次或无限次扩展 | abc+ 表示abc、abcc、abccc等 |
? | 前一个字符0次或1次扩展 | abc? 表示ab、abc |
| | 左右表达式任意一个 | abc|def 表示abc、def |
{m} | 扩展前一个字符m次 | ab{2}c 表示abbc |
{m,n} | 扩展前一个字符m至n次 | ab{1,2}c 表示abc、abbc |
^ | 匹配字符串开头 | ^abc 表示abc且在一个字符串的开头 |
\$ | 匹配字符串结尾 | abc$ 表示abc且在一个字符串的结尾 |
() | 分组标记,内部只能使用|操作符 | (abc) 表示abc,(abc|def) 表示abc、def |
\d | 数字,等价于[0-9] | |
\w | 单词字符,等价于[A-Za-z] |
下面是一些经典正则表达式实例,可以进一步加深对正则表达式的理解:
正则表达式 | 说明 |
---|---|
^[A-Za-z]+\$ | 由26个字母组成的字符串 |
^[A-Za-z0-9]+\$ | 由26个字母和数字组成的字符串 |
^-?\d+$ | 整数形式的字符串 |
^[0-9]\*[1-9][0-9]*\$ | 正整数形式的字符串 |
[1-9]\d{5} | 中国境内邮政编码,6位 |
[\u4e00-\u9fa5] | 利用utf-8编码,匹配中文字符 |
\d{3}-\d{8}|\d{4}-\d{7} | 国内电话号码,例如010-12345678 |
2.Re库:
Re库是Python的标准库,提供了整个正则表达式的实现,利用这个库可以在python中使用正则表达式,主要用于字符串匹配。
通过import re
命令调用。
Re库使用raw string
类型(原生字符串类型)来表达正则表达式,表示为r'text'
,例如:
中国地区的邮政编码可以表示为,r'[1-9]\d{5}'
。raw string
类型是指不包含转移符的字符串
Re库也可以使用string
类型来表达正则表达式,会相对繁琐(出现斜杠的地方都需要增加斜杠表示),例如:
中国地区的邮政编码可以表示为,[1-9]\\d{5}
。
Tips:
因此,建议当正则表达式中包含转义符
的时候,使用raw string
类型。
Re库主要的功能函数有以下几种:
功能函数 | 说明 |
---|---|
re.search() | 在一个字符串中搜索匹配正则表达式的第一个位置,返回match对象 |
re.match() | 从一个字符串的开始位置起匹配正则表达式,返回match对象 |
re.findall() | 搜索字符串,以列表类型返回全部能匹配的子串 |
re.split() | 将一个字符串按照正则表达式匹配结果进行分割,返回列表类型 |
re.finditer() | 搜索字符串,返回一个匹配正则表达式的子串,每个迭代元素是吗,match对象 |
re.sub() | 在一个字符串中替换所有匹配正则表达式的子串,返回替换后的字符串 |
更多内容可以前往Re库官方文档查看。
2.1 match()函数
re.match(pattern,string,flag=0)
在一个字符串的开始位置匹配正则表达式,返回match对象。pattern
——正则表达式的字符串或原生字符串表示;string
——待匹配字符串;flag
——标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。
返回的match对象,有两个方法:group()
方法可以输出匹配到的内容;span()
方法可以输出匹配的范围,及匹配到的内容在原字符串中的索引位置。
另外,可以使用()
标记一个子表达式的开始和结束为止,因为可以使用()
将想提取的字符串括起来,被标记的每个子表达式依次对应每个分组,调用group()
方法时传入索引即可获取提取结果。
实例展示:
import re
content = '''This 123456 is a number demo,this 9876 is another number'''
match = re.match(r'^Th.*?(\d+).*?(\d+).*?number$' , content)
print(match.group())
print(match.span())
print(match.group(1))
print(match.group(2))
运行结果如下:
This 123456 is a number demo,this 9876 is another number
(0, 56)
123456
9876
需要注意的是,match()
函数是从字符串的开头就开始匹配的,一旦开头不匹配,整个匹配就会失败。
例如,下面代码运行后,会报AttributeError: 'NoneType' object has no attribute 'group'
错误,说明匹配结果为None
,并没有匹配成功。
import re
content = '''This 123456 is a number demo,this 9876 is another number'''
match = re.match(r'^h.*?(\d+).*?(\d+).*?number$' , content)
print(match.group())
print(match.span())
- 修饰符
在正则表达式中,flag
参数为标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。
当上面的字符前面加了换行符,同样的正则表达式则无法匹配到字符串。
这是因为正则表达式匹配的内容是除换行符以外的任意字符,因此会导致匹配失败。
这时就需要添加修饰符re.S
来修正错误。
import re
content = '''This
123456 is a number demo,this 9876 is another number'''
match = re.match(r'^Th.*?(\d+).*?(\d+).*?number$' , content , re.S)
print(match.group())
print(match.span())
print(match.group(1))
print(match.group(2))
常用标记 | 说明 |
---|---|
re.I | 忽略正则表达式的大小写,[A-Z]能够匹配小写字符 |
re.M | 正则表达式中的^操作符能够将给定字符串的每行当作匹配开始 |
re.S | 正则表达式中的.操作符能够匹配所有字符,默认匹配除换行外的所有 |
re.L | 实现本地化识别(locale-aware)匹配 |
re.U | 根据Unicode字符集解析字符 |
re.X | 能够给予更灵活的格式,以便将正则表达式书写得更易于理解 |
2.2 search()函数
re.search(pattern,string,flag=0)
在一个字符串中搜索匹配正则表达式的第一个位置,返回match对象。pattern
——正则表达式的字符串或原生字符串表示;string
——待匹配字符串;flag
——标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。
与match()
函数不同,search()
函数在匹配时会扫描整个字符串,然后返回第一个匹配成功的结果。,也就是说,正则表达式可以是字符串的一部分。
Tips:
为了匹配方便,建议使用search()
函数。
实例展示:
import re
content = '''This 123456 is a number demo,this 9876 is another number'''
result = re.search(r'(\d+).*?(\d+).*?number$' , content)
print(result)
print(result.group())
print(result.span())
print(result.group(1))
print(result.group(2))
运行结果如下:
<_sre.SRE_Match object; span=(5, 56), match='123456 is a number demo,this 9876 is another numb>
123456 is a number demo,this 9876 is another number
(5, 56)
123456
9876
2.3 findall()函数
re.findall(pattern,string,flag=0)
搜索字符串,以列表类型返回全部能匹配的子串。pattern
——正则表达式的字符串或原生字符串表示;string
——待匹配字符串;flag
——标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。
实例展示:
import re
content = '''This 123456 is a number demo,this 9876 is another number'''
result = re.findall(r'(\d+)' , content)
print(result)
运行结果如下:
['123456', '9876']
2.4 split()函数
re.split(pattern,string,maxsplit=0,flag=0)
将一个字符串按照正则表达式匹配结果进行分割,返回列表类型。pattern
——正则表达式的字符串或原生字符串表示;string
——待匹配字符串;maxsplit
——最大分割数,剩余部分作为最后一个元素输出;flag
——标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。
实例展示:
import re
content = '''This 123456 is a number demo,this 9876 is another number'''
result_1 = re.split(r'\d+' , content)
print(result_1)
result_2 = re.split(r'\d+' , content , maxsplit=1)
print(result_2)
运行结果如下:
['This ', ' is a number demo,this ', ' is another number']
['This ', ' is a number demo,this 9876 is another number']
2.5 finditer()函数
re.finditer(pattern,string,flag=0)
搜索字符串,返回一个匹配结果的迭代类型,每个迭代元素是match对象。pattern
——正则表达式的字符串或原生字符串表示;string
——待匹配字符串;flag
——标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。
实例展示:
import re
content = '''This 123456 is a number demo,this 9876 is another number'''
result = re.finditer(r'\d+' , content)
print(result)
print('-------')
for r in result:
print(r)
print(r.span())
print(r.group())
print('-------')
运行结果如下:
<callable_iterator object at 0x00000229F5A4F9B0>
-------
<_sre.SRE_Match object; span=(5, 11), match='123456'>
(5, 11)
123456
-------
<_sre.SRE_Match object; span=(34, 38), match='9876'>
(34, 38)
9876
-------
2.6 sub()函数
re.sub(pattern,repl,string,count=0,flag=0)
在一个字符串中替换所有匹配正则表达式的子串,返回替换后的字符串。pattern
——正则表达式的字符串或原生字符串表示;repl
——替换匹配字符串的字符串;string
——待匹配字符串;count
——匹配的最大替换次数;flag
——标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。
实例展示:
import re
content = '''This 123456 is a number demo,this 9876 is another number'''
result = re.sub(r'\d+' , 'code' , content)
print(result)
运行结果如下:
This code is a number demo,this code is another number
2.7 compile()函数
re.compile(pattern,flag=0)
compile()可以将正则字符串编译成正则表达式对象,以便在后面的匹配中使用。pattern
——正则表达式的字符串或原生字符串表示;flag
——标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。
因此Re库有两种等价的用法:
mport re
content_1 = '''This 123456 is a number demo,this 9876 is another number'''
content_2 = '''This 6666 is a number demo,this 9999 is another number'''
# 函数式用法:一次性操作
result_1 = re.search(r'(\d+).*?(\d+).*?number$' , content_1)
print(result_1.group(1))
result_2 = re.search(r'(\d+).*?(\d+).*?number$' , content_2)
print(result_2.group(1))
print('-----------')
# 面向对象用法:编译后的多次操作
pattern = re.compile(r'(\d+).*?(\d+).*?number$')
result_3 = pattern.search(content_1)
print(result_3.group(1))
result_4 = pattern.search(content_2)
print(result_4.group(1))
运行结果如下:
123456
6666
-----------
123456
6666