我用python爬取了整个斗图网站,不服来斗
off999 2024-11-06 11:20 31 浏览 0 评论
QQ、微信斗图总是斗不过,索性直接来爬斗图网,我有整个网站的图,不服来斗。
废话不多说,选取的网站为斗图啦,我们先简单来看一下网站的结构
网页信息
注意:很多人学Python过程中会遇到各种烦恼问题,没有人解答容易放弃。为此我建了个python学习资源群里面有最新学习资料,如果你想学python,可以关注我,后台私信我 ‘py’ 自动获取最新python教程资料!还有老司机解答哦!
从上面这张图我们可以看出,一页有多套图,这个时候我们就要想怎么把每一套图分开存放(后边具体解释)
通过分析,所有信息在页面中都可以拿到,我们就不考虑异步加载,那么要考虑的就是分页问题了,通过点击不同的页面,很容易看清楚分页规则
很容易明白分页URL的构造,图片链接都在源码中,就不做具体说明了明白了这个之后就可以去写代码抓图片了
存图片的思路
因为要把每一套图存入一个文件夹中(os模块),文件夹的命名我就以每一套图的URL的最后的几位数字命名,然后文件从文件路径分隔出最后一个字段命名,具体看下边的截图。
这些搞明白之后,接下来就是代码了(可以参考我的解析思路,只获取了30页作为测试)全部源码
# -*- coding:utf-8 -*-
import requests
from bs4 import BeautifulSoup
import os
class doutuSpider(object):
headers = {
"user-agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36"}
def get_url(self,url):
data = requests.get(url, headers=self.headers)
soup = BeautifulSoup(data.content,'lxml')
totals = soup.findAll("a", {"class": "list-group-item"})
for one in totals:
sub_url = one.get('href')
global path
path = 'J:\\train\\image'+'\\'+sub_url.split('/')[-1]
os.mkdir(path)
try:
self.get_img_url(sub_url)
except:
pass
def get_img_url(self,url):
data = requests.get(url,headers = self.headers)
soup = BeautifulSoup(data.content, 'lxml')
totals = soup.find_all('div',{'class':'artile_des'})
for one in totals:
img = one.find('img')
try:
sub_url = img.get('src')
except:
pass
finally:
urls = 'http:' + sub_url
try:
self.get_img(urls)
except:
pass
def get_img(self,url):
filename = url.split('/')[-1]
global path
img_path = path+'\\'+filename
img = requests.get(url,headers=self.headers)
try:
with open(img_path,'wb') as f:
f.write(img.content)
except:
pass
def create(self):
for count in range(1, 31):
url = 'https://www.doutula.com/article/list/?page={}'.format(count)
print '开始下载第{}页'.format(count)
self.get_url(url)
if __name__ == '__main__':
doutu = doutuSpider()
doutu.create()
复制代码结果
总结
很多人学Python过程中会遇到各种烦恼问题,没有人解答容易放弃。为此我建了个python学习资源群里面有最新学习资料,如果你想学python,可以关注我,后台私信我 ‘py’ 自动获取最新python教程资料!还有老司机解答哦!
本文的文字及图片来源于网络加上自己的想法,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。
相关推荐
- 麻花影视下载(麻花影视下载官方破解版)
-
被人举报了,然后关掉了国内的服务器,现在国内用的都是海外服务器而且用的人太多了所以卡
- 诺基亚n72(诺基亚n72上市时间价格多少)
-
n72是N系列中唯一一款不支持3G的智能机,还有N70。另外说说N72的十大缺点:1、电池待机时间较短,键盘较小,按键不方便2、嘈杂状态下铃声及振动较小,通话声音也较小3、短信书写中没有常用的网络符号...
- 全部破解版游戏大全(破解 版游戏大全)
-
虫虫助手,拇指玩,软件天空,骑士助手,百分网,葫芦侠三楼全民溜溜溜是个软件,是破解版游戏的中心,2.全民溜溜溜对多半的游戏,都有破解版的,修改版的游戏,是不花钱的软件,就像植物大战僵尸这游戏,你能买...
- 经典连连看苹果版(经典连连看3.1原版)
-
3366小游戏是网页模式的,为了玩游戏方便,有很多人想把3366小游戏下载到桌面。如果想把3366小游戏里面的某个游戏单独下载的话,进入3366小游戏首页之后,往右上角看,点击右上角的“设为桌面图标”...
- 益盟经典版下载安装(益盟经典版免费手机版)
-
下载好的,你需要找到下载到那个路径,直接找到路径复制视频粘贴到U盘中即可
- 手机版oa系统怎么使用(oa有手机版吗)
-
泛微oa手机客户端e-mobile,是基于智能移动终端的高效移动协同OA应用,采用先进的页面适配技术,将企业的OA系统完整的延伸到手机终端,企业的原应用系统不需要改造和升级即可快速便捷地进行移动化搭建...
- 动态壁纸app下载(主题动态壁纸app下载)
-
动态壁纸桌面是一款手机动态壁纸桌面主题美化工具。拥有视频壁纸、头像制作,透明主题、3D壁纸、换图标等诸多创意功能于一身的手机壁纸软件;汇集全网优质内容的壁纸大全,壁纸多多。美女,卡通,风景,动漫,搞笑...
-
- qq个性签名(qq个性签名怎么看)
-
QQ上发说说的方法1、在QQ界面点击“空间”图标。2、点击右上角的“+”按钮,点击“说说”图标。3、输入想要发送的文字,点击“发表”即可。4、总结如下。扩展资料:有趣的QQ说说推荐:1、喜欢你、是否没道理、、2、花有百样红,人与狗不同3、走...
-
2026-01-18 05:15 off999
- office2003怎么安装(microsoft office2003怎样安装完整版)
-
首先,必须要确认您的win10系统中有没有安装过office。很多品牌笔记本或台式机,在购机之后,打开系统就会发现有office软件(可能需要续费后才能使用),而且版本较新。如果此时直接安装较老版本o...
- 一键root官网(一键root 官网)
-
卓大师的一键Root功能有三种模式,分别是获取永久Root权限,获取临时Root权限和去除Root。顾名思义,永久Root,就是一次操作,永久生效,让手机永远处于Root状态。而临时Root,在手机重...
- 消灭星星经典版老款(消灭星星免费下载)
-
《消灭星星》是由BrianBaek公司开发的一款消除类休闲娱乐手机游戏,于2014年发行,游戏大小为3.8M。本作特点是易上手,点击两个或两个以上颜色相同的方块即可消除,没有时间限制。《PopSta...
- 脓包痘痘如何处理(脓包痘痘怎么弄)
-
最好不要用手指去挤压,防止局部出现感染或者留下疤痕,在这个时候可以给局部涂抹维a酸乳膏,也可以使用硫磺皂的方法来清洗面部,并且在饮食上最好不要吃辛辣油炸的发物食品,以清淡的食物为主,多吃水果蔬菜,多喝...
- 德国二战游戏单机手游(以德军为视角的二战手机游戏)
-
元帅,私奔吧甜文穿越二战隆美尔第三帝国之未来战争帝国雄心帝国苍穹德意志的荣耀狗运战神普鲁士雄鹰战起1938复活战斗在第三帝国《我的二战不可能这么萌》作者:月面书评:异界后宫二战军事穿越流。本书...
- 酷我音乐官方免费下载安装(酷我音乐官方免费下载安装app)
-
要下载手机铃声,首先需要打开酷我音乐APP,然后点击“我的”页面,再选择“铃声中心”进入铃声下载界面。在这里,你可以根据喜好选择不同类型的铃声,比如热门、经典、儿歌等。找到心仪的铃声后,点击右侧的下载...
欢迎 你 发表评论:
- 一周热门
-
-
抖音上好看的小姐姐,Python给你都下载了
-
全网最简单易懂!495页Python漫画教程,高清PDF版免费下载
-
飞牛NAS部署TVGate Docker项目,实现内网一键转发、代理、jx
-
Python 3.14 的 UUIDv6/v7/v8 上新,别再用 uuid4 () 啦!
-
python入门到脱坑 输入与输出—str()函数
-
Python三目运算基础与进阶_python三目运算符判断三个变量
-
(新版)Python 分布式爬虫与 JS 逆向进阶实战吾爱分享
-
失业程序员复习python笔记——条件与循环
-
系统u盘安装(win11系统u盘安装)
-
Python 批量卸载关联包 pip-autoremove
-
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python面向对象编程 (60)
- python 代码加密 (65)
- python串口编程 (77)
- python封装 (57)
- python写入txt (66)
- python读取文件夹下所有文件 (59)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)
