学Python一定要过的神奇坎---正则表达式(超详细)
off999 2024-11-18 15:34 33 浏览 0 评论
用正则表达式查找电话号码(\d在正则中表示0-9中任一数字)
用 import re 导入正则表达式模块
用re.compile()函数创建一个Regex对象
向Regex对象的search()方法传入想查找的字符串。他返回一个Match对象(Match对象的group方法可获取search到的内容并返回)
调用Match对象的group()方法,返回实际匹配的字符串
import re
geshi=re.compile(r'\d{11}')#\d 表示0-9任一数字,{11}表示这样的数字要有11个才行,如果不嫌麻烦你也可以用\d\d\d\d\d\d\d\d\d\d\d
phonenumber = geshi.search('这里面藏着我的电话号码假设这个文本超级超级超级长15673271781')
print('我的电话号码是:'+ phonenumber.group())运行结果
这些貌似有点简单于是我去网页copy了一些电话号码建了个txt文档多查找一些
import re
import os
phonenumbe=re.compile(r'\d{4}-\d{8}|\d{11}')#竖杠”|“表示或的意思(or)
f=open ('D:\\recent\\code\\venv\\phone.txt','r',encoding='utf-8')
#打开文档phone.txt,'r'表示以只读模式打开,并转码为utf-8,txt打开默认gbk模式,
#我试了试gbk模式一旦有特殊字符就读不出来了
ph=f.read()#读取
mo=phonenumber.findall(ph)#在ph中查找并返回所有的满足phonenumbe格式的一个字符串列表
n=1
for i in mo:#遍历列表打印文本
print('photonumber found '+str(n)+': ' + i)
n+=1
f.close()执行结果
D:\recent\code\venv\Scripts\python.exe D:/recent/code/venv/test.py
photonumber found 1: 13738450312
photonumber found 2: 13362488361
photonumber found 3: 15862413006
photonumber found 4: 0574-87245828
photonumber found 5: 0574-56176485
photonumber found 6: 13056822332
photonumber found 7: 0574-86062413
photonumber found 8: 13968371215
photonumber found 9: 0574-87664179
photonumber found 10: 0574-89115294
photonumber found 11: 0574-62995006
photonumber found 12: 0574-62821458
photonumber found 13: 0574-88412332
photonumber found 14: 15957411508
photonumber found 15: 18267496379
photonumber found 16: 18058531330
photonumber found 17: 13777103739
photonumber found 18: 13454786113
photonumber found 19: 15824227808
进程已结束,退出代码then 继续学习…
- 匹配更多模式
假设你只想我的电话号码尾号四位
这是上面代码
import re
geshi=re.compile(r'\d{11}')#\d 表示0-9任一数字,{11}表示这样的数字要有11个才行,如果不嫌麻烦你也可以用\d\d\d\d\d\d\d\d\d\d\d
phonenumber = geshi.search('这里面藏着我的电话号码假设这个文本超级超级超级长15673271781')
print('我的电话号码是:'+ phonenumber.group())把上面的代码改一下(自己diy)
import re
geshi=re.compile(r'(\d{7})(\d{4})')
phonenumber = geshi.search('这里面藏着我的电话号码假设这个文本超级超级超级长15673271781')
print('我的电话号码尾号四位是:'+ phonenumber.group(2))执行结果
D:\recent\code\venv\Scripts\python.exe D:/recent/code/venv/test3.py
我的电话号码尾号四位是:1781
进程已结束,退出代码0如果想获取所有分组可以改成 phonenumber.groups(),他的类型是元组
最后一句要改成print( phonenumber.group(s))
D:\recent\code\venv\Scripts\python.exe D:/recent/code/venv/test3.py
('1567327', '1781')
进程已结束,退出代码0
前面有用到这个符号|,我理解的他就是or的意思
>>> import re
>>> bat=re.compile(r'Bat(man|mobile|copter|bat)')
>>> mo=bat.search('Batmobile lost a wheel')
>>> mo.group()
'Batmobile'
>>> mo.group(1)
'mobile'字符?表示他前面的分组在这个模式中是可选的
瞅瞅代码就明白啥意思了
>>> Bt=re.compile('super(wo)?man')
>>> mo=Bt.search('I am superman')
>>> mo.group()
'superman'
>>> mo=Bt.search('you are superwoman')
>>> mo.group()
'superwoman'即星号 * 之前的分组可以在文本中出现任意此
继续用上个例子来理解
>> Bt=re.compile('super(wo)*man')#问号改成了星号
>>> mo=Bt.search('i am superwowowowowowowowowowoman')
>>> mo.group()
'superwowowowowowowowowowoman'>>> Bt=re.compile('super(wo)+man')
>>> mo=Bt.search('i am superwowowowowowowowowowoman')
>>> mo.group()
'superwowowowowowowowowowoman'用花括号{}匹配特定次数
super(wo){3}man表示 superwowowoman
上面用过了,这里详细解释一下
花括号还可以传入其它参数
super(wo){3,5}man表示wo只要在min值-max值之间都可以被匹配到即3-5次之间
贪心和非贪心匹配
前面(wo){3-5}可以匹配3,4或者5个wo,如果wo出现了5次,Match对象的group()调用会返回
‘wowowowowowo’而不是‘wowowo’,这是为什么?
>>> Bt=re.compile(r'(wo){3,5}')
>>> mo1=Bt.search('wowowowowo')
>>> mo1.group()
'wowowowowo'#这里为啥不返回wowowopython的正则表达式默认是’贪心‘的,这表示在有二义的情况下,它们会尽可能匹配最长的字符串。那可能我就要问了,我就想它匹配最短的,这时候我们可以向python发起灵魂的质问:你为什么要那么贪心呢?
我们一质问他,他就不贪心了
我们通过在花括号后面加个问号?向他发起质问
>>> Bt=re.compile(r'(wo){3,5}?')
>>> mo1=Bt.search('wowowowowo')
>>> mo1.group()
'wowowo'Regex方法还有一个findall方法。
search()返回一个对象,包含被查找字符串中第一次匹配的文本
findall()方法将返回一组字符串列表包含被查找字符串中的所有匹配search是这样的:
>>> import re
>>> wyphone=re.compile(r'\d{11}')
>>> phonenumber=wyphone.search('现在的手机号17682515555以前的手机号17682501111')
>>> phonenumber.group()
'17682515555'findall是这样的
>>> wyphone.findall('现在的手机号17682515555以前的手机号17682501111')
['17682515555', '17682501111']findall()不用调用Match对象,直接返回列表
如果正则表达式中有分组,findall()将返回元组的列表
>>> wyphone=re.compile(r'(\d{7})(\d{4})')
>>> wyphone.findall('现在的手机号17682515555以前的手机号17682501111')
[('1768251', '5555'), ('1768250', '1111')]前面学到了\d表示0-9的整数,那其它字符怎么表示?
方法很简单 用中括号把你想要建立的字符分类包起来就好了举个栗子
>>> yuanyin=re.compile(r'[aeiouAEIOU]')
>>> yuanyin.findall('adjfkdjfkajkllkdgjroueriuituirt')
['a', 'a', 'o', 'u', 'e', 'i', 'u', 'i', 'u', 'i']通过在前面加一个"^"符号,就可以得到非字符类
>>> yuanyin=re.compile(r'[^aeiouAEIOU]')
>>> yuanyin.findall('adjfkdjfkajkllkdgjroueriuituirt')
['d', 'j', 'f', 'k', 'd', 'j', 'f', 'k', 'j', 'k', 'l', 'l', 'k', 'd', 'g', 'j', 'r', 'r', 't', 'r', 't']在正则表达式开始处插入符号(^),表面匹配必须发生在被查找文本开始处
在正则表达式的末尾加上($)符号,表示该字符串必须以这个正则表达式的模式结束.(句点)字符称为“通配符”,句点字符值匹配一个字符>>> atgex=re.compile(r'..dog')
>>> atgex.findall('11dog 12dog 13dog')
['11dog', '12dog', '13dog']>>> atgex=re.compile(r'.{2}dog')
>>> atgex.findall('11dog 12dog 13dog')
['11dog', '12dog', '13dog']上面俩是一样的,因吹斯挺
要匹配真正的句点,要用反斜杠转义 \ .
用点星匹配所有字符( .*)即任意文本
>> nameregex=re.compile(r'firstname:(.*) lastname:(.*)')
>>> mo=nameregex.search('firstname:alen lastname:pyouthon')
>>> mo.group(1)
'alen'
>>> mo.group(2)
'pyouthon'
>>> mo.groups()
('alen', 'pyouthon').* 点星 使用贪心模式:它总是匹配尽可能多的文本。要用“非贪心”模式匹配所有文本,就使用
.*? 点星问
>>> nr=re.compile(r'<.*?>')
>>> mo=nr.search('<to eat > more>')
>>> mo.group()
'<to eat >'不用?号的话
>>> mo=nr.search('<to eat > more>')
>>> mo.group()
'<to eat > more>'>>> nw=re.compile('.*')
>>> nw.search('srhakg. \n proto').group()
'srhakg. '>>> nw2=re.compile('.*',re.DOTALL)
>>> nw2.search('srhakg. \n proto').group()
'srhakg. \n proto'向re.compile()传入 re.IGNORECASE或re.I ,作为第二个参数>>> nw2=re.compile(r'dog',re.I)
>>> nw2.search('DOG').group()
'DOG'正则表达式不仅能找到文本模式,而且能够用新的文本特换掉这些模式
Regex对象的sub()方法需要传入两个参数。第一个参数是一个字符串,用于取代发现的匹配。
第二个参数也是一个字符串,使用正则表达式匹配的内容
sub()方法返回替换完成的字符串>> name=re.compile(r'Agent \w+')#表示匹配 Agent+空格+一个或者多个字符 遇到空格会停止
>>> name.sub('Bob','Agent Jack gave the book to Agent Alice')
'Bob gave the book to Bob'在sub()的第一个参数中可以输入\1,\2,\3…表示“在替换中输入分组1,2,3…的文本”举个栗子
假设要隐去密探的姓名,只留首字母显示举个栗子
假设要隐去密探的姓名,只留首字母显示
>>> agentname=re.compile(r'agent (\w)\w*')
>>> agentname.sub(r'\1*******','agent Bob told agent Jack that agent Eve knew agent Alen was a double agent.')
'B******* told J******* that E******* knew A******* was a double agent.'上面的\1其实就是用regex对象的group(1)
如果我来反向操作一波,会变成咋样
>>> agentname=re.compile(r'agent (\w)(\w*)')#这里加了个分组
>>> agentname.sub(r'\2*******','agent Bob told agent Jack that agent Eve knew agent Alen was a double agent.')
'ob******* told ack******* that ve******* knew len******* was a double agent.'向re.compile()第二个参数传入re.VERBOSE,忽略正则表达式字符串中的空白符和注释
用r’’’ ‘’’ 多行然后再在里面加注释就好了>>> ph=re.compile(r'''(\d{4}|\d{3}) #区号
... (\d{8}) #电话
... ''',re.VERBOSE)Regex对象的参数只有两个,我要是re.VERBOSE,re.DOTALL, re.IGNORECASE都想用怎么办?
- 很简单,回到最初的原点,用竖杠(“|”)表示“或”就好了
注:文章转自互联网
相关推荐
- 笔记本电脑选哪个品牌比较好
-
1、苹果APPLE/美国2、戴尔DELL/美国3、华为HUAWEI/中国4、小米MI/中国5、微软Microsoft/美国6、联想LENOVO/中国7、惠普HP/美国8、华硕ASUS/...
- 10系列显卡排名(10系显卡性能排行)
-
十系显卡指NVIDIAGeForce10系列,是英伟达研发并推出的图形处理器系列,被用以取代NVIDIAGeForce900系列图形处理器。新系列采用帕斯卡微架构来代替之前的麦克斯韦微架构,并...
-
- 最新win7系统下载(windows7最新版本下载)
-
最简单的方法就是,下载完镜像文件后,直接把镜像文件解压,解压到非C盘,然后在解压文件里面找到setup.exe,点击运行即可。安装系统完成后,在C盘找到一个Windows.old(好几个GB,是旧系统打包在这里,垃圾文件了)删除即可。扩展资...
-
2026-01-15 06:43 off999
- 哪个电脑管家软件好用(哪个电脑管家好用些)
-
腾讯电脑管家吧,因为这个是杀毒和管理合一的,占用内存小,因此显得更为简洁,使电脑运行更加流畅此外电脑诊所,工具箱以及4+1的杀毒模式让腾讯电脑管家也收到了广泛的关注4+1杀毒引擎,管家反病毒引擎、金山...
- 怎么进入win7安全模式(怎么进入win7安全模式界面)
-
方法如下:1、首先进入Win7系统,然后使用Win键+R组合键打开运行框,输入“Msconfig”回车进入系统配置。2、在打开的系统配置中,找到“引导”选项,然后单击,选择Win7的引导项,然后在“安...
- 怎么分区固态硬盘(怎样分区固态硬盘)
-
固态硬盘的分区方法与传统机械硬盘基本相同,以下是一个简单的步骤:1.打开磁盘管理工具:在Windows操作系统中,按下Win+X键,选择"磁盘管理"。或者打开控制面板,在"...
-
- 笔记本声卡驱动怎么下载(笔记本如何下载声卡)
-
1、在浏览器中输入并搜索,然后下载并安装。2、安装完成后打开360驱动大师,它就会自动检测你的电脑需要安装或升级的驱动。3、检测完毕后,我们可以看到我们的声卡驱动需要安装或升级,点击安装或升级,就会开始自动安装或升级声卡了。4、升级过程中会...
-
2026-01-15 05:43 off999
- win10加快开机启动速度(加快开机速度 win10)
-
一、启用快速启动功能1.按win+r键调出“运行”在输入框输入“gpedit.msc”按回车调出“组策略编辑器”?2.在“本地组策略编辑器”依次打开“计算机配置——管理模块——系统——关机”在右侧...
-
- excel的快捷键一览表(excel的快捷键一览表超全)
-
Excel快捷键大全的一些操作如下我在工作中经常使用诸如word或Excel之类的办公软件。我相信每个人都不太熟悉这些办公软件的快捷键。使用快捷键将提高办公效率,并使您的工作更加轻松快捷。。例如,在复制时,请使用CtrI+C进行复制,...
-
2026-01-15 05:03 off999
- 华硕u盘启动按f几(华硕u盘装系统按f几进入)
-
F8。1、开机的同时按F8进入BIOS。2、在Boot菜单中,置secure为disabled。3、BootListOption置为UEFI。4、在1stBootPriority中usb—HD...
- 手机云电脑怎么用(手机云端电脑)
-
使用手机云电脑,您首先需要安装相应的云电脑应用。例如,华为云电脑APP。在安装并打开应用后,您将看到一个显示器的图标,这就是您的云电脑。点击这个图标,您将被连接到一个预装有Windows操作系统和必要...
- ie11浏览器怎么安装(ie11浏览器安装步骤)
-
如果IE浏览器11版本你发现无法正常安装,那么很可能是这样几个原因,一个就是电脑的存储空间不够到时无法安装,再有就是网络的问题,如果没有办法安装的话就不要再安装了,本身这个IE浏览器并不是多好用,你最...
- 台式机重装系统win7(台式机怎么重装win7)
-
下面主要介绍两种方法以重装系统:一、U盘重装系统准备:一台正常开机的电脑和一个U盘1、百度下载“U大师”(老毛桃、大白菜也可以),把这个软件下载并安装在电脑上。2、插上U盘,选择一键制作U盘启动(制作...
- 字母下划线怎么打出来(字母下的下划线怎么去不掉)
-
第一步,在电脑上找到文字处理软件WPS,双击即自动新建一个新文档。第二步,在文档录入需要处理的字母和数字,双击鼠标或拖动鼠标选择要处理的内容。第三步,在页面的左上方的横向菜单栏,找到字母U的按纽,点击...
欢迎 你 发表评论:
- 一周热门
-
-
抖音上好看的小姐姐,Python给你都下载了
-
全网最简单易懂!495页Python漫画教程,高清PDF版免费下载
-
飞牛NAS部署TVGate Docker项目,实现内网一键转发、代理、jx
-
Python 3.14 的 UUIDv6/v7/v8 上新,别再用 uuid4 () 啦!
-
python入门到脱坑 输入与输出—str()函数
-
Python三目运算基础与进阶_python三目运算符判断三个变量
-
(新版)Python 分布式爬虫与 JS 逆向进阶实战吾爱分享
-
失业程序员复习python笔记——条件与循环
-
系统u盘安装(win11系统u盘安装)
-
Python 批量卸载关联包 pip-autoremove
-
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python面向对象编程 (60)
- python 代码加密 (65)
- python串口编程 (77)
- python封装 (57)
- python写入txt (66)
- python读取文件夹下所有文件 (59)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)
