百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

Python3爬虫基础:正则表达式爬取猫眼信息写入txt,csv

off999 2024-10-04 00:20 34 浏览 0 评论

前言

正则表达式是对字符串的一种逻辑公式,用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则的字符串”,此字符串用来表示对字符串的一种“过滤”逻辑。正在在很多开发语言中都存在,而非python独有。对其知识点进行总结后,会写一个demo。

有需要Python学习资料的小伙伴吗?小编整理【一套Python资料、源码和PDF】,感兴趣者可以关注小编后私信学习资料(是关注后私信哦)反正闲着也是闲着呢,不如学点东西啦

1.正则表达式

python是自1.5开始引进re模块进行处理正则的。我先把正则的匹配规则总结一下,再总结re模块相应的方法。

1.1匹配规则

对于一个特殊字符在正则表达式中是不能正常识别的,如果接触过其他语言我们就这到有一个叫做转移字符的东西的存在,在特殊字符前加用反斜杠接口。比如\n换行\\为反斜杠,在这不再累述。下面来介绍一下re这个模块。

1.2.re模块

此模块主要方法如下

re.match()#尝试从字符串的起始位置匹配一个模式(pattern),如果不是起始位置匹配成功的话,match()就返回None
re.search()#函数会在字符串内查找模式匹配,只要找到第一个匹配然后返回,如果字符串没有匹配,则返回None。
re.findall()#遍历匹配,可以获取字符串中所有匹配的字符串,返回一个列表。
re.compile()#编译正则表达式模式,返回一个对象的模式。(可以把那些常用的正则表达式编译成正则表达式对象,这样可以提高一点效率。)
re.sub()#使用re替换string中每一个匹配的子串后返回替换后的字符串。
re.subn()#返回替换次数
re.split()#按照能够匹配的子串将string分割后返回列表。

1.2.1.re.match()

方法: re.match(pattern, string, flags=0) # pattern:正则表达式(或者正则表达式对象)string:要匹配的字符串flags:修饰符

先看一个最简单的用法

import re
content ='Hello 123 4567 wangyanling REDome'
print(len(content))
result = re.match('^Hello\s\d\d\d\s\d{4}\s\w{10}.*Dome
, content) print(result) print(result.group()) print(result.span())

结果:

匹配规则就不在累述,以上需要注意的是

(1) .group() 表示的是返回正则匹配的结果

(2) .span() 表示返回正则匹配的范围

使用:

以上我们已经知道re.matcha()的具体方法,那么接下我来看一下具体使用,对此我们要理解以下几种匹配的感念。

1.泛匹配(.*):匹配所有字符

import re
content ='Hello 123 4567 wangyanling REDome'
result = re.match('^Hello.*Dome
, content) print(result) print(result.group()) print(result.span())

它的结果是和上面的输出结果完全一样的。

2.目标匹配(()):将需要的字符匹配出来

import re
content ='Hello 123 4567 wangyanling REDome'
result = re.match('^Hello\s\d\d(\d)\s\d{4}\s\w{10}.*Dome
, content) print(result) print(result.group(1)) import re content ='Hello 123 4567 wangyanling REDome' result = re.match('^Hello\s(\d+)\s\d{4}\s\w{10}.*Dome
, content) print(result) print(result.group(1))

结果

以上可以看出:

(1) () 匹配括号内的表达式,也表示一个组

(2) + 匹配1个或多个的表达式

*匹配0个或多个的表达式

(3) .group(1) —输出第一个带有()的目标

3.贪婪匹配(.*()):匹配尽可能少的的结果

import re
content ='Hello 123 4567 wangyanling REDome'
result = re.match('^H.*(\d+).*Dome
, content) print(result) print(result.group(1))

结果

4.贪婪匹配(.*?()):匹配尽可能多的结果

import re
content ='Hello 123 4567 wangyanling REDome'
result = re.match('^H.*?(\d+).*?Dome
, content) print(result) print(result.group(1))

结果

以上3,4两个匹配方式请尽量采用非贪婪匹配

5.其他

换行:

import re
content ='''Hello 123 4567 
 wangyanling REDome'''
result = re.match('^H.*?(\d+).*?Dome
, content,re.S)#re.S print(result.group(1)) result = re.match('^H.*?(\d+).*?Dome, content) print(result.group(1))

结果:

转义字符:

import re
content = 'price is $5.00'
result = re.match('price is $5.00', content)
print(result)
result = re.match('price is \$5\.00', content)
print(result)

结果:

其中re.I使匹配对大小不敏感,re.S匹配包括换行符在内的所有字符,\进行处理转义字符。匹配规则中有详细介绍。

1.2.2.re.search()

方法:

re.search(pattern, string, flags=0)#pattern:正则表达式(或者正则表达式对象)string:要匹配的字符串flags:修饰符
 #re.match()和re.search()用法类似唯一的区别在于re.match()从字符串头开始匹配,若头匹配不成功,则返回None 

对比一下与match()

import re
content ='Hello 123 4567 wangyanling REDome'
result = re.match('(\d+)\s\d{4}\s\w{10}.*Dome, content)
print(result)#从开头开始查找,不能匹配返回None
result = re.search('(\d+)\s\d{4}\s\w{10}.*Dome, content)
print(result)
print(result.group())

结果:

可以看出两个使用基本一致,search从头开始匹配,如果匹配不到就返回none.

1.2.3.re.findall()

方法: re.finditer(pattern, string, flags=0) # pattern:正则表达式(或者正则表达式对象)string:要匹配的字符串flags:修饰符

与re.search()类似区别在于re.findall()搜索string,返回一个顺序访问每一个匹配结果(Match对象)的迭代器。找到 RE 匹配的所有子串,并把它们作为一个迭代器返回。

import re
html = '''
 <div>
 <li><a href="" singer="鲁迅">呐喊</a></li>
 <li><a href="#" singer="贾平凹">废都</a></li>
 <li class="active"><a href="#" singer="路遥">平凡世界</a></li>
 <span class="rightSpan">谢谢支持</span>
 </div>
'''
regex_4='<a.*?>(.*?)</a>'
results=re.findall(regex_4,html,re.S)
print(results)
for result in results:
 print(result)

结果:

1.2.4.re.compile()

编译正则表达式模式,返回一个对象的模式。

方法: re.compile(pattern,flags=0) # pattern:正则表达式(或者正则表达式对象);flags:修饰符

看一个demo

import re
content ='Hello 123 4567 wangyanling REDome wangyanling 那小子很帅'
rr = re.compile(r'\w*wang\w*')
result =rr.findall(content)
print(result)

结果:

我们可以看出compile 我们可以把它理解为封装了一个公用的正则,类似于方法,然后功用。

1.2.5.其他

re.sub 替换字符

方法: re.sub(pattern, repl, string, count=0, flags=0) # pattern:正则表达式(或者正则表达式对象)repl:替换的字符串string:要匹配的字符串count:要替换的个数flags:修饰符

re.subn 替换次数

方法: re.subn(pattern, repl, string, count=0, flags=0) # pattern:正则表达式(或者正则表达式对象)repl:替换的字符串string:要匹配的字符串count:要替换的个数flags:修饰符

re.split()分隔字符

方法

re.split(pattern, string,[maxsplit])#正则表达式(或者正则表达式对象)string:要匹配的字符串;maxsplit:用于指定最大分割次数,不指定将全部分割

2.案例:爬取猫眼信息,写入txt,csv,下载图片

2.1.获取单页面信息

def get_one_page(html):
 pattern= re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime'
 + '.*?>(.*?)</p>.*?score.*?integer">(.*?)</i>.*?>(.*?)</i>.*?</dd>',re.S)#这里就用到了我们上述提到的一些知识点,非贪婪匹配,对象匹配,修饰符
 items = re.findall(pattern,html)
 for item in items:
 yield {
 'rank' :item[0],
 'img': item[1],
 'title':item[2],
 'actor':item[3].strip()[3:] if len(item[3])>3 else '', 
 'time' :item[4].strip()[5:] if len(item[4])>5 else '',
 'score':item[5] + item[6]
 }

对于上面的信息我们可以看出是存到一个对象中那么接下来我们应该把它们存到文件当中去。

2.2.保存文件

我写了两种方式保存到txt和csv这些在python都有涉及,不懂得可以去翻看一下。

2.2.1.保存到txt

def write_txtfile(content):
 with open("Maoyan.txt",'a',encoding='utf-8') as f:
 #要引入json,利用json.dumps()方法将字典序列化,存入中文要把ensure_ascii编码方式关掉
 f.write(json.dumps(content,ensure_ascii=False) + "\n")
 f.close()

结果:


以上看到并非按顺序排列因为我用的是多线程。

2.2.2.保存到csv

def write_csvRows(content,fieldnames):
 '''写入csv文件内容'''
 with open("Maoyao.csv",'a',encoding='gb18030',newline='') as f:
 #将字段名传给Dictwriter来初始化一个字典写入对象
 writer = csv.DictWriter(f,fieldnames=fieldnames)
 #调用writeheader方法写入字段名
 writer.writerows(content)
 f.close()

结果:

那么还有一部就是我们要把图片下载下来。

2.2.3.下载图片

def download_img(title,url):
 r=requests.get(url)
 with open(title+".jpg",'wb') as f:
 f.write(r.content)

2.3.整体代码

这里面又到了多线程在这不在叙述后面会有相关介绍。这个demo仅做一案例,主要是对正则能有个认知。上面写的知识点有不足的地方望大家多多指教。

#抓取猫眼电影TOP100榜
from multiprocessing import Pool
from requests.exceptions import RequestException
import requests
import json
import time
import csv
import re
def get_one_page(url):
 '''获取单页源码'''
 try:
 headers = {
 "User-Agent":"Mozilla/5.0(WindowsNT6.3;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/68.0.3440.106Safari/537.36"
 }
 res = requests.get(url, headers=headers)
 # 判断响应是否成功,若成功打印响应内容,否则返回None
 if res.status_code == 200:
 return res.text
 return None
 except RequestException:
 return None
def parse_one_page(html):
 '''解析单页源码'''
 pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime'
 + '.*?>(.*?)</p>.*?score.*?integer">(.*?)</i>.*?>(.*?)</i>.*?</dd>',re.S)
 items = re.findall(pattern,html)
 #采用遍历的方式提取信息
 for item in items:
 yield {
 'rank' :item[0],
 'img': item[1],
 'title':item[2],
 'actor':item[3].strip()[3:] if len(item[3])>3 else '', #判断是否大于3个字符
 'time' :item[4].strip()[5:] if len(item[4])>5 else '',
 'score':item[5] + item[6]
 }
def write_txtfile(content):
 with open("Maoyan.txt",'a',encoding='utf-8') as f:
 #要引入json,利用json.dumps()方法将字典序列化,存入中文要把ensure_ascii编码方式关掉
 f.write(json.dumps(content,ensure_ascii=False) + "\n")
 f.close()
def write_csvRows(content,fieldnames):
 '''写入csv文件内容'''
 with open("Maoyao.csv",'a',encoding='gb18030',newline='') as f:
 #将字段名传给Dictwriter来初始化一个字典写入对象
 writer = csv.DictWriter(f,fieldnames=fieldnames)
 #调用writeheader方法写入字段名
 #writer.writeheader() ###这里写入字段的话会造成在抓取多个时重复.
 writer.writerows(content)
 f.close()
def download_img(title,url):
 r=requests.get(url)
 with open(title+".jpg",'wb') as f:
 f.write(r.content)
def main(offset):
 fieldnames = ["rank","img", "title", "actor", "time", "score"]
 url = "http://maoyan.com/board/4?offset={0}".format(offset)
 html = get_one_page(url)
 rows = []
 for item in parse_one_page(html):
 #download_img(item['rank']+item['title'],item['img'])
 write_txtfile(item)
 rows.append(item)
 write_csvRows(rows,fieldnames)
if __name__ == '__main__':
 pool = Pool()
 #map方法会把每个元素当做函数的参数,创建一个个进程,在进程池中运行.
 pool.map(main,[i*10 for i in range(10)])

有需要Python学习资料的小伙伴吗?小编整理【一套Python资料、源码和PDF】,感兴趣者可以关注小编后私信学习资料(是关注后私信哦)反正闲着也是闲着呢,不如学点东西啦

相关推荐

新买的电脑从哪下载应用(电脑软件应用商店哪个好)
  • 新买的电脑从哪下载应用(电脑软件应用商店哪个好)
  • 新买的电脑从哪下载应用(电脑软件应用商店哪个好)
  • 新买的电脑从哪下载应用(电脑软件应用商店哪个好)
  • 新买的电脑从哪下载应用(电脑软件应用商店哪个好)
windows7安装步骤简述(win7的安装)

运行温度时期的电脑怎么组装?官方已经给出了相关配置:处理器(cpu)最好是主频1GHZ以上,32位或64位处理器,不过目前的处理器几乎都是64位的了,一般双核处理器都在1GHZ以上。  也就是说目前绝...

电脑删除的数据怎么恢复(电脑删除数据怎么恢复原状)

步骤一:打开电脑上已经装好的Superrecovery软件,直接进入到“向导模式”。首先,大家需要做的就是选择文件所在的位置,例如:需要恢复的数据是在移动存储设备上(如:U盘、SD卡等),直接选择设备...

小马激活office2010(小马激活win11)
  • 小马激活office2010(小马激活win11)
  • 小马激活office2010(小马激活win11)
  • 小马激活office2010(小马激活win11)
  • 小马激活office2010(小马激活win11)
删除数据恢复(删除数据恢复出厂设置)

1.在手机上下载手机数据恢复精灵,进入软件之后,选择微信恢复。2.点击开始恢复,选择需要恢复的联系人,等待一会儿,就能看到恢复好的聊天记录。3.可以安装打开互盾安卓恢复大师,手机数据线连接手机后,点击...

复制粘贴不了怎么解决(电脑不能复制粘贴了怎么处理)

1、查看手机输入法的剪贴板选项,是否有复制的文本,如果有就直接点击就可以直接输入了。2、复制后,长按不出来粘贴键的时候,需要把应用程序关闭掉重新开,重新复制粘贴,或者尝试重启手机。3、可以尝试重新复制...

u盘被写保护去除步骤(u盘的被写保护怎么解除)

U盘被写保护通常是因为存储器故障、病毒感染、文件系统损坏等原因导致的,但可以通过以下几种方法进行解除:1.检查U盘开关:一些U盘可能会有物理上的写保护开关,将其关闭即可解除写保护。2.使用命令行清...

电脑蓝屏怎么用u盘重装系统(电脑蓝屏重装系统教程u盘)

U盘装系统步骤:1.制作U盘启动盘。这里推荐U启动U盘启动盘制作工具,在网上一搜便是。2.U盘启动盘做好了,我们还需要一个GHOST文件,可以从网上下载一个ghost版的XP/WIN7/WIN8系统,...

erp管理软件(erp管理软件免费版)
erp管理软件(erp管理软件免费版)

用友的ERP应该说从3万-3000都有ERP的价格随着企业的规模不同,价格也是不一样的。因为企业规模不同产生的效果也是不一样的,所以用友的产品分T1/T3/T6/U8/U9/NC3万小企业做个财务业务一体化还是勉强可以做的。只...

2025-11-11 09:03 off999

笔记本启动黑屏怎么回事(笔记本启动黑屏没反应)

笔记本开机后黑屏最常遇到的一种情况:因随便点击垃圾网站而导致电脑中脑或受到木马的侵袭,致使电脑系统瘫痪,解决的办法就是重装电脑系统,装好系统后安装查毒软件,定期对电脑进行杀毒全盘扫描,然后平时尽量不要...

win7系统怎么开wifi热点(win7如何开wifi热点)

 1、首先确认你的无线网卡开启。在开始菜单中依次找到“所有程序”--“附件”--“命令提示符”,右键“以管理员身份运行”;   2、在“命令提示符”里输入“netshwlans...

无线路由桥接设置方法(无线路由器无线桥接设置)

1、首先在电脑上输入并登录第一台路由器的IP地址。2、进入路由器管理界面之后,点击“无线设置”,然后点击基本设置中设置“SSID号”,接着点击“信道”,然后设置固定信号道。3、返回无线设置菜单栏,选择...

win10企业版激活命令(win10企业版cmd激活命令)

关于这个问题,Windows10企业版可以通过以下方法进行激活:1.使用企业版密钥激活:如果你已经有了Windows10企业版的密钥,可以在“设置”中的“更新和安全”中选择“激活”来输入密钥进行...

如何恢复备份数据(备份的数据怎么恢复到手机上)
如何恢复备份数据(备份的数据怎么恢复到手机上)

把备份删了的话,一键还原目前是用不了的。现在唯一的办法,是从网上下载一个数据恢复类的软件,只要的备份还没有被别的软件覆盖,是应该可以数据恢复回来的。不能保证百分之百得成功,但是恢复几率还很大的,你可以试试,操作方法首先点击手机“设置”。然后...

2025-11-11 06:51 off999

笔记本无线网卡怎么使用(笔记本无线网卡怎么使用教程)

笔记本无线网卡设置;第一:你要确定你的本本是否有无线上网功能,如果没有就得加个无线网卡;第二:有的话就打开无线网络接受开关;第三:程序设置主要就是在网上邻居的属性里,打开无线上网打开“网上邻居”的“属...

取消回复欢迎 发表评论: