当前位置：网站首页 > 技术资源 > 正文

python批量爬取网络图片

off999 2024-12-03 00:10 32 浏览 0 评论

上篇通过python爬取了一篇网络小说，初步了解了爬虫的四步流程，本文稍微扩展一点，试着从网页中爬取出多个图片，具体来看看：

我们今天试着从下面图1的网页上将所有图片都爬取出来，放在一个指定的文件夹里。

还是按爬虫4流程：发出请求——获得网页——解析内容——保存内容

1、发出请求

1）找到网页地址：

在网页上右键单击“审查元素”，弹窗里选中Network面板，从左侧name列表里逐个选择项目，观察右侧Preview面板下的内容，发现出现下图2中的样式时，就是我们要的第一小步目标。

在图3所示的Headers面板下找到网页地址URL

Request URL:

https://m.gmw.cn/toutiao/2020-02/16/content_123107586.htm?tt_group_id=6793905493262729736

2）找到网页中图片地址：

由于网页上的图片都是有单独网址的，与网页的网址不同，所以我们需要在网页代码里找到图片的网址信息。继续查找Preview面板下的网页代码，图4红框内所示即为网页里插图图片的地址，这就是我们爬取图片真正要用的地址

所以，从网页里批量爬取图片，实际步骤是：

发出请求（网页地址）——获得网页——解析内容（得到图片地址）——向图片地址发出请求（循环）——获得网页——解析内容（得到图片）——保存内容

获得图片地址的代码为：

url = 'https://m.gmw.cn/toutiao/2020-02/16/content_123107586.htm?tt_group_id=6793905493262729736'
rep = requests.get(url)# 发出访问请求，获得响应
res = BeautifulSoup(rep.content, 'lxml')# 解析响应，获得网页内容
img_url = res.find_all('p', style="text-align:center;")# 解析网页内容，获得全部图片网址

此时，我们试着检验一下获得的图片地址：

for im in img_url:
        jpgurl = im.find('img')['src']
        print(jpgurl)

结果为图5所示：

2、批量获得网页

在上面的for循环里，向图片地址发生请求：

for im in img_url:
    jpgurl = im.find('img')['src']
    r = requests.get(jpgurl)

3、解析获得图片

由于图片地址里没有其他内容，只有图片，解析很简单：直接取r.content就能得到图片。

for im in img_url:
	......	
	r = requests.get(jpgurl)
	jpg = r.content

4、保存图片

for im in img_url:
	......	
	jpg = r.content    
	nam = jpgurl[-23:]# 从图片网址里提取最后23个字符，当图片名称，也可以自己定义，不要重复即可
	f = open(set_path() + nam, 'wb')# 从set_path()函数返回一个文件夹路径，与图片名称组合成文件的保存地址
	f.write(jpg)# 将图片写入文件

set_path()函数返回一个预设保存文件的文件夹，如果预设的文件夹不存在，就自动创建。

def set_path():
    path = r'e:/python/jpg'
    if not os.path.isdir(path):
        os.makedirs(path)
    paths = path+'/'
    return(paths)

运行后打开对应文件夹，图片已经完成下载，如图6：

至此，批量爬取网页图片就完成了。

总结：

本文的爬取过程，比常说的爬虫4步骤多了好几步，其实，本质上还是万变不离其宗的4步流程。本例只不过是相当于把两套爬取流程进行了嵌套，少了一次保存内容的过程而已。关键是通过爬取获得网址后，再次爬取新网址里的内容，真正的爬取大多是通过这种嵌套实现的。

python读取图片

上一篇：OpenCV-Python教程:从视频文件、相机获取图像、写视频文件
下一篇：如何在 Python 中从图像中提取表格

python批量爬取网络图片

1、发出请求

2、批量获得网页

3、解析获得图片

4、保存图片

总结：

相关推荐

取消回复欢迎你发表评论:

抖音上好看的小姐姐，Python给你都下载了

飞牛NAS部署TVGate Docker项目，实现内网一键转发、代理、jx

全网最简单易懂!495页Python漫画教程，高清PDF版免费下载

win7系统还原步骤图解（win7还原电脑系统的步骤）

Python 3.14 的 UUIDv6/v7/v8 上新，别再用 uuid4 () 啦!

网盘在哪里打开（华为网盘在哪里打开）

python入门到脱坑输入与输出—str()函数

苹果手机怎么下载软件并安装

linux软件（linux软件图标）

16949认证费用是多少（16949审核员太难考了）

python批量爬取网络图片

1、发出请求

2、批量获得网页

3、解析获得图片

4、保存图片

总结：

相关推荐

取消回复欢迎 你 发表评论:

抖音上好看的小姐姐，Python给你都下载了

飞牛NAS部署TVGate Docker项目，实现内网一键转发、代理、jx

全网最简单易懂!495页Python漫画教程，高清PDF版免费下载

win7系统还原步骤图解（win7还原电脑系统的步骤）

Python 3.14 的 UUIDv6/v7/v8 上新，别再用 uuid4 () 啦!

网盘在哪里打开（华为网盘在哪里打开）

python入门到脱坑 输入与输出—str()函数

苹果手机怎么下载软件并安装

linux软件（linux软件图标）

16949认证费用是多少（16949审核员太难考了）

取消回复欢迎你发表评论:

python入门到脱坑输入与输出—str()函数