百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

python批量爬取网络图片

off999 2024-12-03 00:10 32 浏览 0 评论

上篇通过python爬取了一篇网络小说,初步了解了爬虫的四步流程,本文稍微扩展一点,试着从网页中爬取出多个图片,具体来看看:

我们今天试着从下面图1的网页上将所有图片都爬取出来,放在一个指定的文件夹里。


还是按爬虫4流程:发出请求——获得网页——解析内容——保存内容

1、发出请求

1)找到网页地址:

在网页上右键单击“审查元素”,弹窗里选中Network面板,从左侧name列表里逐个选择项目,观察右侧Preview面板下的内容,发现出现下图2中的样式时,就是我们要的第一小步目标。



在图3所示的Headers面板下找到网页地址URL

Request URL:

https://m.gmw.cn/toutiao/2020-02/16/content_123107586.htm?tt_group_id=6793905493262729736

2)找到网页中图片地址:

由于网页上的图片都是有单独网址的,与网页的网址不同,所以我们需要在网页代码里找到图片的网址信息。继续查找Preview面板下的网页代码,图4红框内所示即为网页里插图图片的地址,这就是我们爬取图片真正要用的地址

所以,从网页里批量爬取图片,实际步骤是:

发出请求(网页地址)——获得网页——解析内容(得到图片地址)——向图片地址发出请求(循环)——获得网页——解析内容(得到图片)——保存内容

获得图片地址的代码为:

url = 'https://m.gmw.cn/toutiao/2020-02/16/content_123107586.htm?tt_group_id=6793905493262729736'
rep = requests.get(url)# 发出访问请求,获得响应
res = BeautifulSoup(rep.content, 'lxml')# 解析响应,获得网页内容
img_url = res.find_all('p', style="text-align:center;")# 解析网页内容,获得全部图片网址

此时,我们试着检验一下获得的图片地址:

for im in img_url:
        jpgurl = im.find('img')['src']
        print(jpgurl)

结果为图5所示:

2、批量获得网页

在上面的for循环里,向图片地址发生请求:

for im in img_url:
    jpgurl = im.find('img')['src']
    r = requests.get(jpgurl)

3、解析获得图片

由于图片地址里没有其他内容,只有图片,解析很简单:直接取r.content就能得到图片。

for im in img_url:
	......	
	r = requests.get(jpgurl)
	jpg = r.content

4、保存图片

for im in img_url:
	......	
	jpg = r.content    
	nam = jpgurl[-23:]# 从图片网址里提取最后23个字符,当图片名称,也可以自己定义,不要重复即可
	f = open(set_path() + nam, 'wb')# 从set_path()函数返回一个文件夹路径,与图片名称组合成文件的保存地址
	f.write(jpg)# 将图片写入文件

set_path()函数返回一个预设保存文件的文件夹,如果预设的文件夹不存在,就自动创建。

def set_path():
    path = r'e:/python/jpg'
    if not os.path.isdir(path):
        os.makedirs(path)
    paths = path+'/'
    return(paths)

运行后打开对应文件夹,图片已经完成下载,如图6:


至此,批量爬取网页图片就完成了。

总结:

本文的爬取过程,比常说的爬虫4步骤多了好几步,其实,本质上还是万变不离其宗的4步流程。本例只不过是相当于把两套爬取流程进行了嵌套,少了一次保存内容的过程而已。关键是通过爬取获得网址后,再次爬取新网址里的内容,真正的爬取大多是通过这种嵌套实现的。

相关推荐

安全教育登录入口平台(安全教育登录入口平台官网)

122交通安全教育怎么登录:122交通网的注册方法是首先登录网址http://www.122.cn/,接着打开网页后,点击右上角的“个人登录”;其次进入邮箱注册,然后进入到注册页面,输入相关信息即可完...

大鱼吃小鱼经典版(大鱼吃小鱼经典版(经典版)官方版)

大鱼吃小鱼小鱼吃虾是于谦跟郭麒麟的《我的棒儿呢?》郭德纲说于思洋郭麒麟作诗的相声,最后郭麒麟做了一首,师傅躺在师母身上大鱼吃小鱼小鱼吃虾虾吃水水落石出师傅压师娘师娘压床床压地地动山摇。...

谷歌地球下载高清卫星地图(谷歌地球地图下载器)
  • 谷歌地球下载高清卫星地图(谷歌地球地图下载器)
  • 谷歌地球下载高清卫星地图(谷歌地球地图下载器)
  • 谷歌地球下载高清卫星地图(谷歌地球地图下载器)
  • 谷歌地球下载高清卫星地图(谷歌地球地图下载器)
哪个软件可以免费pdf转ppt(免费的pdf转ppt软件哪个好)
哪个软件可以免费pdf转ppt(免费的pdf转ppt软件哪个好)

要想将ppt免费转换为pdf的话,我们建议大家可以下一个那个wps,如果你是会员的话,可以注册为会员,这样的话,在wps里面的话,就可以免费将ppt呢转换为pdfpdf之后呢,我们就可以直接使用,不需要去直接不需要去另外保存,为什么格式转...

2026-02-04 09:03 off999

电信宽带测速官网入口(电信宽带测速官网入口app)

这个网站看看http://www.swok.cn/pcindex.jsp1.登录中国电信网上营业厅,宽带光纤,贴心服务,宽带测速2.下载第三方软件,如360等。进行在线测速进行宽带测速时,尽...

植物大战僵尸95版手机下载(植物大战僵尸95 版下载)

1可以在应用商店或者游戏平台上下载植物大战僵尸95版手机游戏。2下载教程:打开应用商店或者游戏平台,搜索“植物大战僵尸95版”,找到游戏后点击下载按钮,等待下载完成即可安装并开始游戏。3注意:确...

免费下载ppt成品的网站(ppt成品免费下载的网站有哪些)

1、Chuangkit(chuangkit.com)直达地址:chuangkit.com2、Woodo幻灯片(woodo.cn)直达链接:woodo.cn3、OfficePlus(officeplu...

2025世界杯赛程表(2025世界杯在哪个国家)

2022年卡塔尔世界杯赛程公布,全部比赛在卡塔尔境内8座球场举行,2022年,决赛阶段球队全部确定。揭幕战于当地时间11月20日19时进行,由东道主卡塔尔对阵厄瓜多尔,决赛于当地时间12月18日...

下载搜狐视频电视剧(搜狐电视剧下载安装)

搜狐视频APP下载好的视频想要导出到手机相册里方法如下1、打开手机搜狐视频软件,进入搜狐视频后我们点击右上角的“查找”,找到自已喜欢的视频。2、在“浏览器页面搜索”窗口中,输入要下载的视频的名称,然后...

pubg免费下载入口(pubg下载入口官方正版)
  • pubg免费下载入口(pubg下载入口官方正版)
  • pubg免费下载入口(pubg下载入口官方正版)
  • pubg免费下载入口(pubg下载入口官方正版)
  • pubg免费下载入口(pubg下载入口官方正版)
永久免费听歌网站(丫丫音乐网)

可以到《我爱音乐网》《好听音乐网》《一听音乐网》《YYMP3音乐网》还可以到《九天音乐网》永久免费听歌软件有酷狗音乐和天猫精灵,以前要跳舞经常要下载舞曲,我从QQ上找不到舞曲下载就从酷狗音乐上找,大多...

音乐格式转换mp3软件(音乐格式转换器免费版)

有两种方法:方法一在手机上操作:1、进入手机中的文件管理。2、在其中选择“音乐”,将显示出手机中的全部音乐。3、点击“全选”,选中所有音乐文件。4、点击屏幕右下方的省略号图标,在弹出菜单中选择“...

电子书txt下载(免费的最全的小说阅读器)

1.Z-library里面收录了近千万本电子书籍,需求量大。2.苦瓜书盘没有广告,不需要账号注册,使用起来非常简单,直接搜索预览下载即可。3.鸠摩搜书整体风格简洁清晰,书籍资源丰富。4.亚马逊图书书籍...

最好免费观看高清电影(播放免费的最好看的电影)

在目前的网上选择中,IMDb(互联网电影数据库)被认为是最全的电影网站之一。这个网站提供了各种类型的电影和电视节目的海量信息,包括剧情介绍、演员表、评价、评论等。其还提供了有关电影制作背后的详细信息,...

孤单枪手2简体中文版(孤单枪手2简体中文版官方下载)

要将《孤胆枪手2》游戏的征兵秘籍切换为中文,您可以按照以下步骤进行操作:首先,打开游戏设置选项,通常可以在游戏主菜单或游戏内部找到。然后,寻找语言选项或界面选项,点击进入。在语言选项中,选择中文作为游...

取消回复欢迎 发表评论: