百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

学Python一定要过的神奇坎---正则表达式(超详细)

off999 2024-11-18 15:34 40 浏览 0 评论

用正则表达式查找电话号码(\d在正则中表示0-9中任一数字)

用 import re 导入正则表达式模块

用re.compile()函数创建一个Regex对象

向Regex对象的search()方法传入想查找的字符串。他返回一个Match对象(Match对象的group方法可获取search到的内容并返回)

调用Match对象的group()方法,返回实际匹配的字符串

import re
geshi=re.compile(r'\d{11}')#\d 表示0-9任一数字,{11}表示这样的数字要有11个才行,如果不嫌麻烦你也可以用\d\d\d\d\d\d\d\d\d\d\d
phonenumber = geshi.search('这里面藏着我的电话号码假设这个文本超级超级超级长15673271781')
print('我的电话号码是:'+ phonenumber.group())

运行结果

这些貌似有点简单于是我去网页copy了一些电话号码建了个txt文档多查找一些

import re
import os
phonenumbe=re.compile(r'\d{4}-\d{8}|\d{11}')#竖杠”|“表示或的意思(or)
f=open ('D:\\recent\\code\\venv\\phone.txt','r',encoding='utf-8')
#打开文档phone.txt,'r'表示以只读模式打开,并转码为utf-8,txt打开默认gbk模式,
#我试了试gbk模式一旦有特殊字符就读不出来了
ph=f.read()#读取
mo=phonenumber.findall(ph)#在ph中查找并返回所有的满足phonenumbe格式的一个字符串列表
n=1
for i in mo:#遍历列表打印文本
    print('photonumber found '+str(n)+': ' + i)
    n+=1
f.close()

执行结果

D:\recent\code\venv\Scripts\python.exe D:/recent/code/venv/test.py
photonumber found 1: 13738450312
photonumber found 2: 13362488361
photonumber found 3: 15862413006
photonumber found 4: 0574-87245828
photonumber found 5: 0574-56176485
photonumber found 6: 13056822332
photonumber found 7: 0574-86062413
photonumber found 8: 13968371215
photonumber found 9: 0574-87664179
photonumber found 10: 0574-89115294
photonumber found 11: 0574-62995006
photonumber found 12: 0574-62821458
photonumber found 13: 0574-88412332
photonumber found 14: 15957411508
photonumber found 15: 18267496379
photonumber found 16: 18058531330
photonumber found 17: 13777103739
photonumber found 18: 13454786113
photonumber found 19: 15824227808

进程已结束,退出代码

then 继续学习…

- 匹配更多模式

  • 利用括号分组()
    假设你只想我的电话号码尾号四位
  • 这是上面代码
    import re
    geshi=re.compile(r'\d{11}')#\d 表示0-9任一数字,{11}表示这样的数字要有11个才行,如果不嫌麻烦你也可以用\d\d\d\d\d\d\d\d\d\d\d
    phonenumber = geshi.search('这里面藏着我的电话号码假设这个文本超级超级超级长15673271781')
    print('我的电话号码是:'+ phonenumber.group())

    把上面的代码改一下(自己diy)

    import re
    geshi=re.compile(r'(\d{7})(\d{4})')
    phonenumber = geshi.search('这里面藏着我的电话号码假设这个文本超级超级超级长15673271781')
    print('我的电话号码尾号四位是:'+ phonenumber.group(2))

    执行结果

    D:\recent\code\venv\Scripts\python.exe D:/recent/code/venv/test3.py
    我的电话号码尾号四位是:1781
    
    进程已结束,退出代码0

    如果想获取所有分组可以改成 phonenumber.groups(),他的类型是元组
    最后一句要改成print( phonenumber.group(s))

    D:\recent\code\venv\Scripts\python.exe D:/recent/code/venv/test3.py
    ('1567327', '1781')
    
    进程已结束,退出代码0
    
  • 用管道匹配多个分组(符号 |)
    前面有用到这个符号|,我理解的他就是or的意思
  • >>> import re
    >>> bat=re.compile(r'Bat(man|mobile|copter|bat)')
    >>> mo=bat.search('Batmobile lost a wheel')
    >>> mo.group()
    'Batmobile'
    >>> mo.group(1)
    'mobile'
  • 用问号实现可选匹配
    字符?表示他前面的分组在这个模式中是可选的
  • 瞅瞅代码就明白啥意思了

    >>> Bt=re.compile('super(wo)?man')
    >>> mo=Bt.search('I am superman')
    >>> mo.group()
    'superman'
    >>> mo=Bt.search('you are superwoman')
    >>> mo.group()
    'superwoman'
  • 用星号 * 匹配零次或多次
    即星号 * 之前的分组可以在文本中出现任意此
    继续用上个例子来理解
  • >> Bt=re.compile('super(wo)*man')#问号改成了星号
    >>> mo=Bt.search('i am superwowowowowowowowowowoman')
    >>> mo.group()
    'superwowowowowowowowowowoman'
  • 用加号+匹配一次或多次 (备注:* 号是0到多次)
  • >>> Bt=re.compile('super(wo)+man')
    >>> mo=Bt.search('i am superwowowowowowowowowowoman')
    >>> mo.group()
    'superwowowowowowowowowowoman'

    用花括号{}匹配特定次数

    super(wo){3}man表示 superwowowoman

    上面用过了,这里详细解释一下

    花括号还可以传入其它参数

    super(wo){3,5}man表示wo只要在min值-max值之间都可以被匹配到即3-5次之间

    贪心和非贪心匹配

    前面(wo){3-5}可以匹配3,4或者5个wo,如果wo出现了5次,Match对象的group()调用会返回

    ‘wowowowowowo’而不是‘wowowo’,这是为什么?

    >>> Bt=re.compile(r'(wo){3,5}')
    >>> mo1=Bt.search('wowowowowo')
    >>> mo1.group()
    'wowowowowo'#这里为啥不返回wowowo
    python的正则表达式默认是’贪心‘的,这表示在有二义的情况下,它们会尽可能匹配最长的字符串。

    那可能我就要问了,我就想它匹配最短的,这时候我们可以向python发起灵魂的质问:你为什么要那么贪心呢?
    我们一质问他,他就不贪心了
    我们通过在花括号后面加个问号?向他发起质问

    >>> Bt=re.compile(r'(wo){3,5}?')
    >>> mo1=Bt.search('wowowowowo')
    >>> mo1.group()
    'wowowo'
  • findall()方法,我前面也试过这个
    Regex方法还有一个findall方法。
    search()返回一个对象,包含被查找字符串中第一次匹配的文本
  • findall()方法将返回一组字符串列表包含被查找字符串中的所有匹配

    search是这样的:

    >>> import re
    >>> wyphone=re.compile(r'\d{11}')
    >>> phonenumber=wyphone.search('现在的手机号17682515555以前的手机号17682501111')
    >>> phonenumber.group()
    '17682515555'

    findall是这样的

    >>> wyphone.findall('现在的手机号17682515555以前的手机号17682501111')
    ['17682515555', '17682501111']

    findall()不用调用Match对象,直接返回列表

    如果正则表达式中有分组,findall()将返回元组的列表

    >>> wyphone=re.compile(r'(\d{7})(\d{4})')
    >>> wyphone.findall('现在的手机号17682515555以前的手机号17682501111')
    [('1768251', '5555'), ('1768250', '1111')]
  • 字符分类
    前面学到了\d表示0-9的整数,那其它字符怎么表示?

  • 建立自己的字符分类
  • 方法很简单 用中括号把你想要建立的字符分类包起来就好了

    举个栗子

    >>> yuanyin=re.compile(r'[aeiouAEIOU]')
    >>> yuanyin.findall('adjfkdjfkajkllkdgjroueriuituirt')
    ['a', 'a', 'o', 'u', 'e', 'i', 'u', 'i', 'u', 'i']

    通过在前面加一个"^"符号,就可以得到非字符类

    >>> yuanyin=re.compile(r'[^aeiouAEIOU]')
    >>> yuanyin.findall('adjfkdjfkajkllkdgjroueriuituirt')
    ['d', 'j', 'f', 'k', 'd', 'j', 'f', 'k', 'j', 'k', 'l', 'l', 'k', 'd', 'g', 'j', 'r', 'r', 't', 'r', 't']
  • 插入字符和美元字符
  • 在正则表达式开始处插入符号(^),表面匹配必须发生在被查找文本开始处
    在正则表达式的末尾加上($)符号,表示该字符串必须以这个正则表达式的模式结束
  • 通配字符
  • .(句点)字符称为“通配符”,句点字符值匹配一个字符
    >>> atgex=re.compile(r'..dog')
    >>> atgex.findall('11dog 12dog 13dog')
    ['11dog', '12dog', '13dog']
    >>> atgex=re.compile(r'.{2}dog')
    >>> atgex.findall('11dog 12dog 13dog')
    ['11dog', '12dog', '13dog']

    上面俩是一样的,因吹斯挺

    要匹配真正的句点,要用反斜杠转义 \ .


    用点星匹配所有字符( .*)即任意文本

    >> nameregex=re.compile(r'firstname:(.*) lastname:(.*)')
    >>> mo=nameregex.search('firstname:alen lastname:pyouthon')
    >>> mo.group(1)
    'alen'
    >>> mo.group(2)
    'pyouthon'
    >>> mo.groups()
    ('alen', 'pyouthon')

    .* 点星 使用贪心模式:它总是匹配尽可能多的文本。要用“非贪心”模式匹配所有文本,就使用
    .*? 点星问

    >>> nr=re.compile(r'<.*?>')
    >>> mo=nr.search('<to eat > more>')
    >>> mo.group()
    '<to eat >'

    不用?号的话

    >>> mo=nr.search('<to eat > more>')
    >>> mo.group()
    '<to eat > more>'
  • 传入re.DOTALL 作为re.compile()的第二个参数可以让句点字符匹配所有字符,包括换行字符
  • >>> nw=re.compile('.*')
    >>> nw.search('srhakg. \n proto').group()
    'srhakg. '
    >>> nw2=re.compile('.*',re.DOTALL)
    >>> nw2.search('srhakg. \n proto').group()
    'srhakg. \n proto'
  • 不区分大小写的匹配
  • 向re.compile()传入 re.IGNORECASE或re.I ,作为第二个参数
    >>> nw2=re.compile(r'dog',re.I)
    >>> nw2.search('DOG').group()
    'DOG'
  • 用sub()方法替换字符串
  • 正则表达式不仅能找到文本模式,而且能够用新的文本特换掉这些模式
    Regex对象的sub()方法需要传入两个参数。第一个参数是一个字符串,用于取代发现的匹配。
    第二个参数也是一个字符串,使用正则表达式匹配的内容
    sub()方法返回替换完成的字符串
    >> name=re.compile(r'Agent \w+')#表示匹配 Agent+空格+一个或者多个字符  遇到空格会停止
    >>> name.sub('Bob','Agent Jack gave the book to Agent Alice')
    'Bob gave the book to Bob'
    在sub()的第一个参数中可以输入\1,\2,\3…表示“在替换中输入分组1,2,3…的文本”举个栗子
    假设要隐去密探的姓名,只留首字母显示

    举个栗子
    假设要隐去密探的姓名,只留首字母显示

    >>> agentname=re.compile(r'agent (\w)\w*')
    >>> agentname.sub(r'\1*******','agent Bob told agent Jack that agent Eve knew agent Alen was a double agent.')
    'B******* told J******* that E******* knew A******* was a double agent.'

    上面的\1其实就是用regex对象的group(1)
    如果我来反向操作一波,会变成咋样


    >>> agentname=re.compile(r'agent (\w)(\w*)')#这里加了个分组
    >>> agentname.sub(r'\2*******','agent Bob told agent Jack that agent Eve knew agent Alen was a double agent.')
    'ob******* told ack******* that ve******* knew len******* was a double agent.'
  • 管理复杂的正则表达式
  • 向re.compile()第二个参数传入re.VERBOSE,忽略正则表达式字符串中的空白符和注释
    用r’’’ ‘’’ 多行然后再在里面加注释就好了
    >>> ph=re.compile(r'''(\d{4}|\d{3})   #区号
    ... (\d{8}) #电话
    ... ''',re.VERBOSE)

    Regex对象的参数只有两个,我要是re.VERBOSE,re.DOTALL, re.IGNORECASE都想用怎么办?

    • 很简单,回到最初的原点,用竖杠(“|”)表示“或”就好了

    注:文章转自互联网

    相关推荐

    安全教育登录入口平台(安全教育登录入口平台官网)

    122交通安全教育怎么登录:122交通网的注册方法是首先登录网址http://www.122.cn/,接着打开网页后,点击右上角的“个人登录”;其次进入邮箱注册,然后进入到注册页面,输入相关信息即可完...

    大鱼吃小鱼经典版(大鱼吃小鱼经典版(经典版)官方版)

    大鱼吃小鱼小鱼吃虾是于谦跟郭麒麟的《我的棒儿呢?》郭德纲说于思洋郭麒麟作诗的相声,最后郭麒麟做了一首,师傅躺在师母身上大鱼吃小鱼小鱼吃虾虾吃水水落石出师傅压师娘师娘压床床压地地动山摇。...

    谷歌地球下载高清卫星地图(谷歌地球地图下载器)
    • 谷歌地球下载高清卫星地图(谷歌地球地图下载器)
    • 谷歌地球下载高清卫星地图(谷歌地球地图下载器)
    • 谷歌地球下载高清卫星地图(谷歌地球地图下载器)
    • 谷歌地球下载高清卫星地图(谷歌地球地图下载器)
    哪个软件可以免费pdf转ppt(免费的pdf转ppt软件哪个好)
    哪个软件可以免费pdf转ppt(免费的pdf转ppt软件哪个好)

    要想将ppt免费转换为pdf的话,我们建议大家可以下一个那个wps,如果你是会员的话,可以注册为会员,这样的话,在wps里面的话,就可以免费将ppt呢转换为pdfpdf之后呢,我们就可以直接使用,不需要去直接不需要去另外保存,为什么格式转...

    2026-02-04 09:03 off999

    电信宽带测速官网入口(电信宽带测速官网入口app)

    这个网站看看http://www.swok.cn/pcindex.jsp1.登录中国电信网上营业厅,宽带光纤,贴心服务,宽带测速2.下载第三方软件,如360等。进行在线测速进行宽带测速时,尽...

    植物大战僵尸95版手机下载(植物大战僵尸95 版下载)

    1可以在应用商店或者游戏平台上下载植物大战僵尸95版手机游戏。2下载教程:打开应用商店或者游戏平台,搜索“植物大战僵尸95版”,找到游戏后点击下载按钮,等待下载完成即可安装并开始游戏。3注意:确...

    免费下载ppt成品的网站(ppt成品免费下载的网站有哪些)

    1、Chuangkit(chuangkit.com)直达地址:chuangkit.com2、Woodo幻灯片(woodo.cn)直达链接:woodo.cn3、OfficePlus(officeplu...

    2025世界杯赛程表(2025世界杯在哪个国家)

    2022年卡塔尔世界杯赛程公布,全部比赛在卡塔尔境内8座球场举行,2022年,决赛阶段球队全部确定。揭幕战于当地时间11月20日19时进行,由东道主卡塔尔对阵厄瓜多尔,决赛于当地时间12月18日...

    下载搜狐视频电视剧(搜狐电视剧下载安装)

    搜狐视频APP下载好的视频想要导出到手机相册里方法如下1、打开手机搜狐视频软件,进入搜狐视频后我们点击右上角的“查找”,找到自已喜欢的视频。2、在“浏览器页面搜索”窗口中,输入要下载的视频的名称,然后...

    pubg免费下载入口(pubg下载入口官方正版)
    • pubg免费下载入口(pubg下载入口官方正版)
    • pubg免费下载入口(pubg下载入口官方正版)
    • pubg免费下载入口(pubg下载入口官方正版)
    • pubg免费下载入口(pubg下载入口官方正版)
    永久免费听歌网站(丫丫音乐网)

    可以到《我爱音乐网》《好听音乐网》《一听音乐网》《YYMP3音乐网》还可以到《九天音乐网》永久免费听歌软件有酷狗音乐和天猫精灵,以前要跳舞经常要下载舞曲,我从QQ上找不到舞曲下载就从酷狗音乐上找,大多...

    音乐格式转换mp3软件(音乐格式转换器免费版)

    有两种方法:方法一在手机上操作:1、进入手机中的文件管理。2、在其中选择“音乐”,将显示出手机中的全部音乐。3、点击“全选”,选中所有音乐文件。4、点击屏幕右下方的省略号图标,在弹出菜单中选择“...

    电子书txt下载(免费的最全的小说阅读器)

    1.Z-library里面收录了近千万本电子书籍,需求量大。2.苦瓜书盘没有广告,不需要账号注册,使用起来非常简单,直接搜索预览下载即可。3.鸠摩搜书整体风格简洁清晰,书籍资源丰富。4.亚马逊图书书籍...

    最好免费观看高清电影(播放免费的最好看的电影)

    在目前的网上选择中,IMDb(互联网电影数据库)被认为是最全的电影网站之一。这个网站提供了各种类型的电影和电视节目的海量信息,包括剧情介绍、演员表、评价、评论等。其还提供了有关电影制作背后的详细信息,...

    孤单枪手2简体中文版(孤单枪手2简体中文版官方下载)

    要将《孤胆枪手2》游戏的征兵秘籍切换为中文,您可以按照以下步骤进行操作:首先,打开游戏设置选项,通常可以在游戏主菜单或游戏内部找到。然后,寻找语言选项或界面选项,点击进入。在语言选项中,选择中文作为游...

    取消回复欢迎 发表评论: