python正则表达式-白红宇

python正则表达式

阅读量：5058 次

发布时间：2019-06-12

本文共 4398 字，大约阅读时间需要 14 分钟。

字符串是我们在编程的时候很常用的一种数据类型，检查会在字符串里面查找一些内容，对于比较简单的查找，字符串里面就有一些内置的方法可以处理，对于比较复杂的字符串查找，或者是有一些内容经常变化的字符串里面查找，那么字符串内置的查找方法已经不好使了，满足不了我们的要求，这个时候就得用正则表达式了，正则表达式就是用来匹配一些比较复杂的字符串。

在python中，如果使用正则表达式的话，需要导入re模块，re模块是一个内置模块，直接import就可以使用。

匹配字符串的几个方法

import re

s='besttest is good'

print(re.match('best',s))

#match方法接收3个参数，第一个是匹配的规则，也就是正则表达式，第二个是要查找的字符串，

#第三个参数不是必填的，用于控制正则表达式的匹配方式，看下面正则表达式的匹配模式。是从字符串的第一个单词中匹配字符串，如果匹配到返回一个对象，如果匹配不到，则返回None

#>>><_sre.SRE_Match object; span=(0, 4), match='best'>

print(re.search('best',s))

#search方法的参数和match一样，和match方法不一样的是，match是从字符串里面的第一个单词里面找，而search方法则是从字符串的整个内容里面找，如果找到了就返回第一个，找不到就返回None

#>>> <_sre.SRE_Match object; span=(0, 4), match='best'>

print(re.findall('best',s))

#findall方法的参数上面的match、search一样，和他们不一样的是，findall会返回所有一个list，把所有匹配到的字符串，放到这个list里面，如果找不到的话，就返回一个空的list

#>>> ['best']

print(re.sub('best','Best',s))

#sub方法和字符串的replace方法一样，是用来替换字符串的，把匹配到的值替换成一个新的字符串，接收3个参数，第一个是正则表达式，第二个是要替换成什么，第三个就是要查找的字符串，会返回一个新的字符串，如果匹配不到的话，返回原来的字符串

#>>> Besttest is good

print(re.split('best',s))

#split 方法和字符串的split方法一样，是用来分割字符的，按照匹配到的字符串进行分割，返回的是一个list，如果匹配不到的话，那返回的list中还是原来的字符串

#>>> ['', 'test is good']

常用正则表达式符号

1、数量词

'*' 匹配*号前的字符0次或多次，只是*前面的一个字符

print(re.findall(r'be*','besttest very best'))

>>> ['be']

'+' 匹配前一个字符1次或多次，只是+前面的一个字符

print(re.findall(r'st+','besttest is best'))

>>> ['stt', 'st', 'st']

'?' 匹配前一个字符1次或0次,只是?前面的一个字符

print(re.findall(r'st?','besttest is best'))

'{m}' 匹配前一个字符m次

print(re.findall(r't{2}','besttest is best'))

>>> ['tt']

'{n,m}' 匹配前一个字符n到m次

print(re.findall(r't{1,2}','besttest is best'))

>>> ['tt', 't', 't']

2、一般字符串

'.' 默认匹配除\n之外的任意一个字符

print(re.findall(r'b.','besttest is good'))

'[....]',字符集合，

>>> ['be']

>>> ['st', 'st', 's', 'st']

'\' 转译符，前面的* + ?这样的字符都有特殊含义了，如果你想就想找它的话，那就得转译了

意思就是说如果你想让特殊字符失去以前的含义，那么就得给它前面加上\

print(re.findall(r'\?','besttest is best????'))

>>> ['?', '?', '?', '?']

'|' 匹配|左或|右的字符

print(re.findall(r'best|is','besttest is best'))

>>> ['best', 'is', 'best']

'[]' 字符集合，某些字符的集合，匹配的时候是这个集合里面的任意一个就行

print(re.findall(r'be[stacj]','besttest is best bejson'))

>>>['bes', 'bes', 'bej']

在[]里面如果用^的话代表取反，也就是不包括的这些字符串的

print(re.findall(r'be[^stac]','besttest is best bejson'))

3、边界匹配

'^' 匹配以什么字符开头,多行情况下匹配每一行的开头

print(re.findall(r'^b','besttest is good'))

>>> ['b']

print(re.findall(r'^b','besttest is good\nbest',re.M))#多行模式

>>> ['b','b']

'$' 匹配以什么字符结尾,多行情况下匹配每一行的结尾

print(re.findall(r'd$','besttest is good'))

>>> ['d']

print(re.findall(r'd$','besttest is good\nbest is good',re.M<span style="line-height:1.5;">))#多行模式</span> >>>['d','d']

'\A' 仅以什么字符开头，和^不同的是它不能用多行模式

print(re.findall(r'\Ab','besttest is good'))

>>> ['b']

'\Z' 仅以什么字符结尾，和$不同的是它不能用多行模式

print(re.findall(r'd\Z','besttest is good'))

>>> ['d']

4、预定义字符集合

'\d' 匹配数字0-9

print(re.findall(r'\d+','sdf2342312sdfs'))

>>> ['2342312']

'\D' 匹配非数字

print(re.findall(r'\D','sdf2342312sdfs'))

>>>['sdf', 'sdfs']

'\w' 匹配[A-Za-z0-9],也就是所有的字母和数字

print(re.findall(r'\w','sdf234%^2312sdfs&'))

>>>['sdf234', '2312sdfs']

'\W' 匹配不是[A-Za-z0-9]，也就是不是字母和数字

print(re.findall(r'\W','sdf234%^2312sdfs&'))

>>>['%', '^', '&']

'\s' 匹配空白字符、\t、\n、\r,空格

print(re.findall('\s','axss\n\tsdf\t\r\t'))

>>> ['\n', '\t', '\t', '\r', '\t']

'\S'匹配空白字符,不是\t、\n、\r,空格

print(re.findall('\s','axss\n\tsdf\t\r\t'))

>>>['\n', '\t', '\t', '\r', '\t']

5、分组匹配

'(...)' 分组匹配，把某些规则写成在一个组里，这样就可以直接对这个进行一些匹配了，举个例子的话，如果要匹配ip地址的话

ip地址是类似这样的192.168.5.1，每一位都是1位或者3位的数字然后后面有个点正常写的话,得这么写

print(re.findall(r'\d{1,3}.\d{1,3}.\d{1,3}.\d{1,3}',"192.168.1.3"))

>>> ['192.168.1.3']

这样写的话，有点麻烦了，通过上面的我们可以发现规律，除了第一个后面的全都是

'.\d{1,3}'，写重复的代码就是低级的，这样的话就可以用分组了

就把

'.\d{1,3}'当做一个整体，然后让他们出现3次就ok了，可以改成下面这样的

print(re.search(r'\d{1,3}(.\d{1,3}){3}',"192.168.1.3").group())这个是用search方法的，结果和上面的一样的

>>> 192.168.1.3

print(re.findall(r'\d{1,3}(.\d{1,3}){3}',"192.168.1.3"))咱们继续用findall方法，发现结果是下面的

>>> ['.3']

为啥会这样呢，用

match方法和search方法都是正常的，findall方法这里有个坑，就是如果findall方法里面有分组的话，那结果就只是分组里面的内容

，如果想让结果正确的话就在分组最前面写上

'?:'，一个问号和一个冒号就好了，启用“不捕捉模式”

print(re.findall(r'\d{1,3}(?:.\d{1,3}){3}',"192.168.1.3"))

这么写结果就对了

正则表达式匹配模式

正则匹配模式是用在match、search、findall里面的第三个参数，还有其他的模式，但是一般也用不到，就这两种能用到，别的就不记了

re.I: #忽略大小写

re.M: #多行模式，改变'^'和'$'的行为

re.findall('pattern', 'string',re.I)

转载于:https://www.cnblogs.com/chunyanxu/p/8732699.html

你可能感兴趣的文章

codeforces global round 1题解搬运

查看>>

python os模块

查看>>

Codeforces 719B Anatoly and Cockroaches

Jmeter学习系列----3 配置元件之计数器

jquery datagrid 后台获取datatable处理成正确的json字符串