什么叫做深度爬取?Python爬虫:scrapy请求传参实现的深度爬取
off999 2024-12-04 14:39 22 浏览 0 评论
概念和方式:
深度爬取:爬取的数据没有在同一张页面中(首页数据+详情页数据)
在scrapy中如果没有请求传参,我们无法持久化存储数据
实现方式:
- scrapy.Request(url,callback,meta)
meta是一个字典,可以将meta传递给callback
- callback取出meta:
response.meta['item']
例程:
爬取某电影网的电影名称和详情页的电影介绍
http://www.4567kp.com/frim/index1.html
这个网站首页和详情介绍不在同一页面,利用requests很容易爬取,但用scrapy必须要用到深度爬取
创建一个工程moviePro:
- scrapy startproject moviePro
- cd moviePro
- scrapy genspider movie www.xxx.com
- 修改配置文件
我们先来取出电影名称和详情页URL:
import scrapy
class MovieSpider(scrapy.Spider):
name = 'movie'
# allowed_domains = ['www.xxx.com']
start_urls = ['http://www.4567kp.com/frim/index1.html']
def parse(self, response):
li_list = response.xpath('/html/body/div[1]/div/div/div/div[2]/ul/li')
for li in li_list:
# 获取电影名称
title = li.xpath('./div/a/@title').extract_first()
# 详情页URL
detail_url = 'http://www.4567kp.com' + li.xpath('./div/a/@href').extract_first()
print(title, detail_url)运行一下:scrapy crawl movie
上节课我们讲了如果对新网站进行手动爬取:
那我们就可以对该电影网进行详情页的爬取:
yield scrapy.Request(url=detail_url,callback=)但我们遇到一个问题:callback=?,这里肯定不能写self.parse。我们可以再写个函数进行详情页的数据解析:
# yield scrapy.Request(url=detail_url, callback=parse_detail)
# 被作用于解析详情页的数据
def parse_detail(self, response):
desc = response.xpath('/html/body/div[1]/div/div/div/div[2]/p[5]/span[3]').extract_first()
...
yield ...先别着急省略的代码。上面我们获取了电影名称和详情页数据,我们需要管道做持久化存储的话,需要定义item
items.py文件:
import scrapy
class MovieproItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
title = scrapy.Field()
desc = scrapy.Field()那我们就把item写进代码中:
def parse(self, response):
li_list = response.xpath('/html/body/div[1]/div/div/div/div[2]/ul/li')
for li in li_list:
# 获取电影名称
title = li.xpath('./div/a/@title').extract_first()
detail_url = 'http://www.4567kp.com' + li.xpath('./div/a/@href').extract_first()
item = MovieproItem()
item['title'] = title
yield scrapy.Request(url=detail_url, callback=self.parse_detail)
# 被作用于解析详情页的数据
def parse_detail(self, response):
desc = response.xpath('/html/body/div[1]/div/div/div/div[2]/p[5]/span[3]').extract_first()
item['desc'] = desc但是,这样的话肯定是报错的。因为parse_detail函数中并没有item,这时候,我们就需要用到请求传参:
def parse(self, response):
li_list = response.xpath('/html/body/div[1]/div/div/div/div[2]/ul/li')
for li in li_list:
# 获取电影名称
title = li.xpath('./div/a/@title').extract_first()
detail_url = 'http://www.4567kp.com' + li.xpath('./div/a/@href').extract_first()
item = MovieproItem()
item['title'] = title
# meta的作用:可以将mate字典传递给callback
yield scrapy.Request(url=detail_url, callback=self.parse_detail, meta={'item': item})
# 被作用于解析详情页的数据
def parse_detail(self, response):
# 接收传递过来的mate
item = response.meta['item']
desc = response.xpath('/html/body/div[1]/div/div/div/div[2]/p[5]/span[3]').extract_first()
item['desc'] = desc
# 传递给管道
yield item管道文件中打印下:
class MovieproPipeline:
def process_item(self, item, spider):
print(item)
return item我们来运行一下吧:
这样就爬取到了数据!
关注Python涛哥!学习更多Python知识!
相关推荐
- ghost全盘备份步骤图(用ghost怎么进行全盘备份)
-
可以用手动备份到指定分区。一、用一键Ghost还原中的“中文向导”备份开始-程序-一键Ghost-选出“中文向导”,Ghost中文向导-1、备份文件默认是“第1硬盘第1分区”,如果不是,将鼠标指针移...
-
- 键盘的windows键是哪一个(键盘上windows键是哪个键)
-
windows键就是电脑键盘上ctrl键和alt键之间的按键,位于左下角。它带着微软的徽标,跟开始菜单一样的图标,它属于辅助按键,主要与其它按键组合使用,实现一些特定的功能,组合成多种快捷操作方式。这里上面所知的Win键其实就是键盘上的Wi...
-
2025-12-31 10:51 off999
- win10打开设置快捷键(win10打开设置快捷键是什么)
-
1、首先打开电脑,在任务栏的语言地方点击一下再点击语言首选项。2、然后在新的界面里点击选择左侧“高级设置”按钮。3、之后在新的界面里点击选择“更改语言栏热键”按钮。4、然后在新的界面里点击选择“更改热...
- flash插件下载手机版下载安装
-
华为手机的最新系统版本已经不再支持FlashPlayer,这是由于Adobe已于2020年底停止更新和支持FlashPlayer。因此,如果您使用最新的华为手机系统,可能无法安装和使用Flash...
- 官方应用商店下载(小米官方应用商店下载)
-
1.审核和验证:应用商店会对应用进行审核和验证,确保其质量和可靠性。开发者需要满足一定的要求才能在应用商店上架应用。而官网下载的应用没有经过此类审核和验证,因此用户需要自行评估其质量和可信度。2....
- 主题软件免费(主题软件免费推荐)
-
下载主题方法:一、打开手机找到APPStore应用软件,二、点击进去在下面找到有个搜索,点击它查找主题壁纸,三、弹出来很多主题壁纸,根据下载量和个人喜欢的应用主题选择下载相应的主题,四、下载成功后即...
- 一芯fc1178bc盘量产教程(一芯量产工具使用教程)
-
fc1178bc量产工具没有显示u盘拔下U盘,关闭量产工具,再插上U盘(先要确认卸载了安国的驱动,如果不能确认,运行LoadDriver.exe卸载),然后插上U盘,右键我的电脑---属性---硬件-...
- u盘内文件损坏怎么办(u盘内文件损坏怎么办解决)
-
以下是8种修复U盘文件损坏的方法:1.风险自担型:试图直接复制文件如果U盘的部分文件损坏,您可能可以使用此方法。请复制文件您能打开的所有文件,并尝试将它们粘贴到桌面或其他文件夹中。但是请...
- internet explorer怎么更新(22号天蝎座的运势)
-
1、打开IE浏览器。2、点击位于浏览器窗口的右上角的功能按钮。3、点击关于InternetExplorer。它位于下拉菜单的底部。4、勾选“自动安装新版本”复选框。它位于“关于Internet...
- snapseed(snapseed手机修图软件免费版)
-
Snapseed是一款非常流行的手机修图工具,下面是Snapseed工具最全教程:1.打开照片:打开Snapseed,点击左上角的“打开”按钮,选择需要修图的照片。2.自动增强:点击屏幕左下角的“...
- canon佳能打印机驱动下载(下载佳能打印机驱动程序)
-
打开开始菜单,选择运行。输入gpedit.msc,并确定。选择左边“windows设置”,右边鼠标左键双击“安全设置”。选择策略在选择安全选项再鼠标左键双击“设备:防止用户安装打印机驱动程序”。选择已...
- 爱思助手安卓版下载(爱思助手安卓版下载v1.21.03)
-
容易造成系统的崩溃在爱思助手中安装的软件都打不开或者发生闪退,很容易造成系统的崩溃需要重新刷机,所以一般不太推荐使用爱思助手。爱思助手上下载正版软件不需要AppleID,这是为了方便不会注册的用户,但...
-
- 微软拼音输入法app(微软拼音输入法App下载)
-
1、选择微软拼音输入法的图标,点击鼠标右键,出现菜单后选择设置选项。2、在高级里把美式键盘改为微软拼音输入法,然后点击右下角的属性按钮。3、点击逐键提示选项后,选择确定按钮,在后面出现对话框中点击应用即可。微软拼音输入法是一种基于语句的智能...
-
2025-12-31 04:51 off999
欢迎 你 发表评论:
- 一周热门
-
-
抖音上好看的小姐姐,Python给你都下载了
-
全网最简单易懂!495页Python漫画教程,高清PDF版免费下载
-
Python 3.14 的 UUIDv6/v7/v8 上新,别再用 uuid4 () 啦!
-
飞牛NAS部署TVGate Docker项目,实现内网一键转发、代理、jx
-
python入门到脱坑 输入与输出—str()函数
-
宝塔面板如何添加免费waf防火墙?(宝塔面板开启https)
-
Python三目运算基础与进阶_python三目运算符判断三个变量
-
(新版)Python 分布式爬虫与 JS 逆向进阶实战吾爱分享
-
失业程序员复习python笔记——条件与循环
-
系统u盘安装(win11系统u盘安装)
-
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python面向对象编程 (60)
- python 代码加密 (65)
- python串口编程 (77)
- python封装 (57)
- python写入txt (66)
- python读取文件夹下所有文件 (59)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)
