Python爬虫,高清美图我全都要!爬取你想要的,嘿嘿嘿
off999 2025-08-31 08:01 60 浏览 0 评论
前言
想必大家都是比较喜欢美女图片吧!没事不要隐瞒了,爱美之心人人皆知。小编也是最近也是比较无聊就爬取了一下了壁纸、图片啥的。于是加上了一些代码,把整个网页的壁纸全部都爬取下来了。
目录一:概览
在电脑上,创建一个文件夹用来存放爬取彼岸桌面的图片
此文件夹下有25个文件夹,对应分类
每个分类文件夹下有若干个文件夹,对应页码
页码文件夹下,存放图片文件
目录二:环境准备
- 环境准备:怎么使用VSCode编写Python代码?
- requests:通过http请求获取页面,官方文档
- lxml:是python的一个解析库,支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高
- Beautiful Soup4:可以从HTML或XML文件中提取数据
在终端中分别输入以下pip命令,安装它们
python -m pip install beautifulsoup4
python -m pip install lxml
python -m pip install requests- 注意:光理论是不够的。这里送大家一套2020最新企业Pyhon项目实战视频教程,点击此处 进来获取 跟着练习下,希望大家一起进步哦!
目录三:分析页面结构
4k分类下的壁纸是该网站收益的重要资源,而且我们有4k壁纸的需求,对其不进行爬取
我以唯美分类下的壁纸,来讲解接下来怎么爬取图片
1.总共有73页,除了最后一页,每页有18张图片
但是在代码中我们最好需要自动获取总页码,嗯,彼岸桌面壁纸网站的结构是真的舒服,基本上每个页码的HTML结构都是类似的
CSS选择器:div.page a,定位到包裹页码数的a标签,只有6个
并且每页的第三张图片都是一样的广告,需要在代码中把它过滤掉
每个分页的超链接很清晰:
http://www.netbian.com/weimei/index_x.htm
x 恰好为该页的页码
注意:在分类下看到的图片是略缩图,分辨率都较低;要得到1920 × 1080分辨率的该图,需要进行两次跳转
以下图为例
在分类页面中我们可以直接获取该图片的url,但很可惜,它的分辨率并不令人满意;
通过检查,很明显的看到,在分类页中展示的每一个图片都指向另一个超链接
CSS选择器:div#main div.list ul li a,定位到包裹图片的a标签
点击该图片,第一次跳转,转到新的链接,页面中显示有下列内容:
CSS选择器:div#main div.endpage div.pic div.pic-down a,定位到包裹图片的a标签
点击下载壁纸(1920 × 1080)的按钮,第二次跳转,转向一个新的链接,终于达成目的,该链接中显示的图片的分辨率为 1920 × 1080
一波三折,终于给我找到了该图片的1920 × 1080高清图
CSS选择器:div#main table a img,定位到该图片的img标签
经过本人爬取检验,其中有极个别图片由于很多零碎的问题而下载失败,还有少部分图片因为网站虽然提供1920 × 1080分辨率的下载按钮却给了其它分辨率
目录四:代码分析
- 下文中凡是 加粗内容,请按照我的解释,根据自身情况进行修改
第一步:设置全局变量
index = 'http://www.netbian.com' # 网站根地址
interval = 10 # 爬取图片的间隔时间
firstDir = 'D:/zgh/Pictures/netbian' # 总路径
classificationDict = {} # 存放网站分类子页面的信息- index ,要爬取网页的网站根地址,代码中爬取图片需要使用其拼接完整url
- interval,我们去爬取一个网站的内容时要考虑到该网站服务器的承受能力,短时间内爬取该网站大量内容会给该网站服务器造成巨大压力,我们需要在爬取时设置间隔时间
- 单位:秒
- 由于我要爬取彼岸桌面网站的全部高清图片,若集中在短时间内爬取,一方面会给网站服务器巨大的压力,一方面网站服务器会将我们的链接强制断掉,所以我设置的每张图片爬取时间间隔为10秒;如果你只是爬取少量图片,可以将间隔时间设置的短点
- firstDir,爬取图片存放在你电脑上的根路径;代码中爬取图片时,在一级目录下会按照彼岸桌面唯美分类下的分页页码生成文件夹并存放图片
- classificationDict,存放网站下分类指向的url、对应的分类文件夹路径
第二步:获取页面筛选后的内容列表
- 写一个函数,获取页面筛选后的内容数组传进来两个参数
url:该网页的url
select:选择器(与CSS中的选择器无缝对接,我很喜欢,定位到HTML中相应的元素)
- 返回一个列表
def screen(url, select):
html = requests.get(url = url, headers = UserAgent.get_headers()) # 随机获取一个headers
html.encoding = 'gbk'
html = html.text
soup = BeautifulSoup(html, 'lxml')
return soup.select(select)- headers,作用是假装是个用户访问该网站,为了保证爬虫的成功率,每一次爬取页面随机抽取一个headers
- encoding ,该网站的编码
第三步:获取全部分类的url
# 将分类子页面信息存放在字典中
def init_classification():
url = index
select = '#header > div.head > ul > li:nth-child(1) > div > a'
classifications = screen(url, select)
for c in classifications:
href = c.get('href') # 获取的是相对地址
text = c.string # 获取分类名
if(text == '4k壁纸'): # 4k壁纸,因权限问题无法爬取,直接跳过
continue
secondDir = firstDir + '/' + text # 分类目录
url = index + href # 分类子页面url
global classificationDict
classificationDict[text] = {
'path': secondDir,
'url': url
}接下来的代码,我以唯美分类下的壁纸,来讲解怎么通过跳转两次链接爬取高清图片
第四步:获取分类页面下所有分页的url
大部分分类的分页大于等于6页,可以直接使用上面定义的screen函数,select定义为div.page a,然后screen函数返回的列表中第6个元素可以获取我们需要的最后一页页码
但是,有的分类的分页小于6页,比如:
需要重新写一个筛选函数,通过兄弟元素来获取
# 获取页码
def screenPage(url, select):
html = requests.get(url = url, headers = UserAgent.get_headers())
html.encoding = 'gbk'
html = html.text
soup = BeautifulSoup(html, 'lxml')
return soup.select(select)[0].next_sibling.text获取分类页面下所有分页的url
url = 'http://www.netbian.com/weimei/'
select = '#main > div.page > span.slh'
pageIndex = screenPage(secondUrl, select)
lastPagenum = int(pageIndex) # 获取最后一页的页码
for i in range(lastPagenum):
if i == 0:
url = 'http://www.netbian.com/weimei/index.htm'
else:
url = 'http://www.netbian.com/weimei/index_%d.htm' %(i+1)由于该网站的HTML结构非常清晰,所以代码写起来简单明了
第五步:获取分页下图片所指url
通过检查,可以看到获取到的url为相对地址,需要将其转化为绝对地址
select = 'div#main div.list ul li a'
imgUrls = screen(url, select)通过这两行代码获取的列表中的值,形如此:
<a href="/desk/21237.htm" target="_blank" title="星空 女孩 观望 唯美夜景壁纸 更新时间:2019-12-06"><img alt="星空 女孩 观望 唯美夜景壁纸" src="http://img.netbian.com/file/newc/e4f018f89fe9f825753866abafee383f.jpg"/><b>星空 女孩 观望 唯美夜景壁纸</b></a>- 需要对获取的列表进行处理
- 获取a标签中的href属性值,并将其转化为绝对地址,这是第一次跳转所需要的url
第六步:定位到 1920 × 1080 分辨率图片
# 定位到 1920 1080 分辨率图片
def handleImgs(links, path):
for link in links:
href = link.get('href')
if(href == 'http://pic.netbian.com/'): # 过滤图片广告
continue
# 第一次跳转
if('http://' in href): # 有极个别图片不提供正确的相对地址
url = href
else:
url = index + href
select = 'div#main div.endpage div.pic div.pic-down a'
link = screen(url, select)
if(link == []):
print(url + ' 无此图片,爬取失败')
continue
href = link[0].get('href')
# 第二次跳转
url = index + href
# 获取到图片了
select = 'div#main table a img'
link = screen(url, select)
if(link == []):
print(url + " 该图片需要登录才能爬取,爬取失败")
continue
name = link[0].get('alt').replace('\t', '').replace('|', '').replace(':', '').replace('\\', '').replace('/', '').replace('*', '').replace('?', '').replace('"', '').replace('<', '').replace('>', '')
print(name) # 输出下载图片的文件名
src = link[0].get('src')
if(requests.get(src).status_code == 404):
print(url + ' 该图片下载链接404,爬取失败')
print()
continue
print()
download(src, name, path)
time.sleep(interval)第七步:下载图片
# 下载操作
def download(src, name, path):
if(isinstance(src, str)):
response = requests.get(src)
path = path + '/' + name + '.jpg'
while(os.path.exists(path)): # 若文件名重复
path = path.split(".")[0] + str(random.randint(2, 17)) + '.' + path.split(".")[1]
with open(path,'wb') as pic:
for chunk in response.iter_content(128):
pic.write(chunk)目录五:代码的容错能力
一:过滤图片广告
if(href == 'http://pic.netbian.com/'): # 过滤图片广告
continue二:第一次跳转页面,无我们需要的链接
彼岸壁纸网站,对第一次跳转页面的链接,给的都是相对地址
但是极个别图片直接给的绝对地址,而且给的是该分类网址,所以需要做两步处理
if('http://' in href):
url = href
else:
url = index + href
...
if(link == []):
print(url + ' 无此图片,爬取失败')
continue下面是第二次跳转页面所遇问题
三:由于权限问题无法爬取图片
if(link == []):
print(url + "该图片需要登录才能爬取,爬取失败")
continue四:获取img的alt,作为下载图片文件的文件名时,名字中携带\t 或 文件名不允许的特殊字符:
- 在Python中,’\t’ 是转义字符:空格
- 在windows系统当中的文件命名,文件名称中不能包含 \ / : * ? " < > | 一共9个特殊字符
name = link[0].get('alt').replace('\t', '').replace('|', '').replace(':', '').replace('\\', '').replace('/', '').replace('*', '').replace('?', '').replace('"', '').replace('<', '').replace('>', '')五:获取img的alt,作为下载图片文件的文件名时,名字重复
path = path + '/' + name + '.jpg'
while(os.path.exists(path)): # 若文件名重复
path = path.split(".")[0] + str(random.randint(2, 17)) + '.' + path.split(".")[1]六:图片链接404
比如
if(requests.get(src).status_code == 404):
print(url + ' 该图片下载链接404,爬取失败')
print()
continue目录六:完整代码
- 蓝奏云链接:Python爬虫,高清美图我全都要(彼岸桌面壁纸).zip
下载下来解压后,有两个python文件
最后
动动你们发财的小手,给小编一个关注就是小编最大的动力,谢谢!
相关推荐
- 电脑自由截屏的快捷键是什么
-
快捷键是ctrl+alt+a,我们可将聊天窗口缩小,放在旁边。然后找到想要截屏的位置,这时我们在截屏旁边,就更加的方便了。在键盘中按下PrintScreenSysRq(简写为PrtSc)键,此快捷...
- windows10精简版官网下载(win10官方精简版下载)
-
精简版的意思的它比原版的功能和软件少了,其实精简版的更适合大众,没有多余的其他必要功能,更快Win10版本主要为四个分别是专业版、家庭版、企业版、教育版,其实除了这四个之外,还有工作站版、LTSB/L...
- cad2008安装失败(Win11安装cad2008安装失败)
-
解决方法:1、右键点击“开始”按钮,选择“程序和功能”;2、然后点击“启用或关闭windows功能”;3、勾选“Microsoft.NETFramework3.5(包括.Net2.0)”后点击确定按钮...
- u盘在电脑上怎么找出来(u盘在电脑上怎么找到)
-
在电脑中找不到u盘,是因为系统没有自动识别出来,手动打开即可,具体的解决步骤如下:1、在桌面上点击我的电脑,右键,管理。2、打开管理界面,点击储存。3、进到储存页面。4、到这一步,也就可以看到了,有这...
- 联想一体机怎么进入bios(联想一体机怎么进入u盘启动)
-
所需工具:联想Lenovo品牌一体机、启动U盘。具体步骤如下:1、联想一体机从U盘启动设置步骤如下重启联想一体机,启动过程中按F1进入BIOS,部分机型则是开机按Enter键,进入之后再按F12选择进...
- 如何装ghost系统盘(ghost装机教程)
-
ghost是不能做系统c盘,它是一种对硬盘和分区制作成映像文件进行备份和恢复的工具软件,是不能进行操作系统安装。这个软件的使用目的是,当我们安装配置好操作系统以后,用ghost软件对c盘进行备份,或者...
- 加密u盘如何格式化(加密u盘如何格式化手机)
-
1,点击系统与安全进入电脑的控制面板界面,点击上方的系统与安全的选项,在系统界面找到最下方的管理工具功能组。2,选中u盘选择管理工具下面的创建并格式化硬盘分区,点击弹出磁盘管理的界面,在这个里面选中你...
- 万能显卡驱动离线版pc(万能显卡驱动离线版)
-
万用驱动是综合各电脑硬件的性能而制做的软件,对于大多数的电脑硬件驱动都好用,但对于少数品牌电脑驱动要求严格的,就不灵了。有的硬件用万能驱动后,使用效果不佳,就是因为没有完全驱动好。所以,知名品牌电脑硬...
- 笔记本windows8系统下载(笔记本电脑系统win8)
-
在电脑上面就可以下载,打开浏览器搜索windous8系统会出现一些下拉选择,选择第一条或者选择有官网字样的,就直接有下载按钮,然后点击下载就可以了win8可以支持现在可以见到的所有Photosho...
- win 11(win 11 25h2)
-
Windows11是由微软公司(Microsoft)开发的操作系统,应用于计算机和平板电脑等设备。于2021年6月24日发布,2021年10月5日发行。Windows11提供了许多创新...
- 手机视频恢复软件免费版下载
-
手机视频删了怎么恢复 一、安卓手机视频恢复 1.打开电脑,移动鼠标,进入互盾安卓恢复大师官网,下载并安装该软件。手机连接至电脑。手机视频删了怎么恢复 2.打开运行互盾安卓恢复大师,在软件界面看到...
- diy电脑装机教程(diy电脑组装步骤)
-
1,看价格。根据自己的预算价格,选择适合该价格的电脑。注意不要以过高的价格买到配置过低的电脑;2,看性能。根据自己需要的电脑性能,以合理的价格购买。注意不要以过高的价格买到配置过低的电脑。电脑的配置如...
- u盘莫名其妙要格式化(u盘总是要格式化什么意思)
-
如果您在使用U盘时突然收到提示需要格式化的消息,这可能是由于以下原因之一引起的:U盘感染病毒:U盘中可能存在恶意病毒,这些病毒可能会导致U盘无法正常使用。当您尝试打开U盘时,系统会提示您进行格式化操作...
欢迎 你 发表评论:
- 一周热门
-
-
抖音上好看的小姐姐,Python给你都下载了
-
全网最简单易懂!495页Python漫画教程,高清PDF版免费下载
-
Python 3.14 的 UUIDv6/v7/v8 上新,别再用 uuid4 () 啦!
-
python入门到脱坑 输入与输出—str()函数
-
宝塔面板如何添加免费waf防火墙?(宝塔面板开启https)
-
Python三目运算基础与进阶_python三目运算符判断三个变量
-
飞牛NAS部署TVGate Docker项目,实现内网一键转发、代理、jx
-
(新版)Python 分布式爬虫与 JS 逆向进阶实战吾爱分享
-
慕ke 前端工程师2024「完整」
-
失业程序员复习python笔记——条件与循环
-
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python面向对象编程 (60)
- python 代码加密 (65)
- python串口编程 (77)
- python封装 (57)
- python写入txt (66)
- python读取文件夹下所有文件 (59)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)
