百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

什么叫做深度爬取?Python爬虫:scrapy请求传参实现的深度爬取

off999 2024-12-04 14:39 18 浏览 0 评论

概念和方式

深度爬取:爬取的数据没有在同一张页面中(首页数据+详情页数据)

在scrapy中如果没有请求传参,我们无法持久化存储数据

实现方式:

  • scrapy.Request(url,callback,meta)

meta是一个字典,可以将meta传递给callback

  • callback取出meta:

response.meta['item']


例程

爬取某电影网的电影名称和详情页的电影介绍

http://www.4567kp.com/frim/index1.html

这个网站首页和详情介绍不在同一页面,利用requests很容易爬取,但用scrapy必须要用到深度爬取

创建一个工程moviePro:

  1. scrapy startproject moviePro
  2. cd moviePro
  3. scrapy genspider movie www.xxx.com
  4. 修改配置文件

我们先来取出电影名称和详情页URL:

import scrapy

class MovieSpider(scrapy.Spider):
    name = 'movie'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['http://www.4567kp.com/frim/index1.html']

    def parse(self, response):
        li_list = response.xpath('/html/body/div[1]/div/div/div/div[2]/ul/li')
        for li in li_list:
            # 获取电影名称
            title = li.xpath('./div/a/@title').extract_first()
            # 详情页URL
            detail_url = 'http://www.4567kp.com' + li.xpath('./div/a/@href').extract_first()
            print(title, detail_url)

运行一下:scrapy crawl movie

上节课我们讲了如果对新网站进行手动爬取:

那我们就可以对该电影网进行详情页的爬取:

yield scrapy.Request(url=detail_url,callback=)

但我们遇到一个问题:callback=?,这里肯定不能写self.parse。我们可以再写个函数进行详情页的数据解析:

		# yield scrapy.Request(url=detail_url, callback=parse_detail)

    # 被作用于解析详情页的数据
    def parse_detail(self, response):
        desc = response.xpath('/html/body/div[1]/div/div/div/div[2]/p[5]/span[3]').extract_first()
        ...
        yield ...

先别着急省略的代码。上面我们获取了电影名称和详情页数据,我们需要管道做持久化存储的话,需要定义item

items.py文件:

import scrapy

class MovieproItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    title = scrapy.Field()
    desc = scrapy.Field()

那我们就把item写进代码中:

def parse(self, response):
    li_list = response.xpath('/html/body/div[1]/div/div/div/div[2]/ul/li')
    for li in li_list:
        # 获取电影名称
        title = li.xpath('./div/a/@title').extract_first()
        detail_url = 'http://www.4567kp.com' + li.xpath('./div/a/@href').extract_first()

        item = MovieproItem()
        item['title'] = title
        yield scrapy.Request(url=detail_url, callback=self.parse_detail)

# 被作用于解析详情页的数据
def parse_detail(self, response):
    desc = response.xpath('/html/body/div[1]/div/div/div/div[2]/p[5]/span[3]').extract_first()
    item['desc'] = desc

但是,这样的话肯定是报错的。因为parse_detail函数中并没有item,这时候,我们就需要用到请求传参:

    def parse(self, response):
        li_list = response.xpath('/html/body/div[1]/div/div/div/div[2]/ul/li')
        for li in li_list:
            # 获取电影名称
            title = li.xpath('./div/a/@title').extract_first()
            detail_url = 'http://www.4567kp.com' + li.xpath('./div/a/@href').extract_first()

            item = MovieproItem()
            item['title'] = title

            # meta的作用:可以将mate字典传递给callback
            yield scrapy.Request(url=detail_url, callback=self.parse_detail, meta={'item': item})

    # 被作用于解析详情页的数据
    def parse_detail(self, response):
        # 接收传递过来的mate
        item = response.meta['item']
        desc = response.xpath('/html/body/div[1]/div/div/div/div[2]/p[5]/span[3]').extract_first()
        item['desc'] = desc
				
        # 传递给管道
        yield item

管道文件中打印下:

class MovieproPipeline:
    def process_item(self, item, spider):
        print(item)
        return item

我们来运行一下吧:

这样就爬取到了数据!

关注Python涛哥!学习更多Python知识!

相关推荐

腾达路由器安装方法(腾达路由器安装方法和详细步骤)
  • 腾达路由器安装方法(腾达路由器安装方法和详细步骤)
  • 腾达路由器安装方法(腾达路由器安装方法和详细步骤)
  • 腾达路由器安装方法(腾达路由器安装方法和详细步骤)
  • 腾达路由器安装方法(腾达路由器安装方法和详细步骤)
windows补丁怎么更新(windows 补丁更新)

windowsserver系统补丁升级的方法,1.打开WindowsServer系统运行对话框;2.在对话框中输入“control”;3.系统控制面板窗口自动打开;4.点击“Systemand...

电脑打不开了怎么重装系统(电脑打不开怎么重装系统不用u盘)

1、在可用电脑上制作好U盘启动盘,将下载的电脑系统iso文件直接复制到U盘的GHO目录下;2、在开不了机的电脑上插入U盘,重启后不停按F12或F11或Esc等快捷键打开启动菜单,选择U盘选项回车,比如...

路由器用户名忘了怎么查(我的路由器用户名忘了怎么办)
  • 路由器用户名忘了怎么查(我的路由器用户名忘了怎么办)
  • 路由器用户名忘了怎么查(我的路由器用户名忘了怎么办)
  • 路由器用户名忘了怎么查(我的路由器用户名忘了怎么办)
  • 路由器用户名忘了怎么查(我的路由器用户名忘了怎么办)
一键清理垃圾下载(一键清除垃圾软件下载)

手机弹出广告是因为手机上的软件自动推送广告,可以在手机设置里关闭应用的消息通知,方法如下:1、找到手机设置,点击进入2、找到应用和通知,点击进入3、点击通知管理,点击进入4、我们可以看到自己开启消息通...

ghost下载中文版官网(ghost8.0下载)

如果你下载的ghostwin7文件如果是用于系统安装。是不是映像文件要符合以下要求:1,压缩包完好无损。2,减压后的映像文件后缀名为ISO或者GHO.3,文件要在硬盘根目录才便于识别。4,映像文件后缀...

win10最新版本是多少2025(win10最新版本是20h2吗)

1、打开软件,选择需要安装的win10系统。(4g以上内存选择64位系统)2、接着我们耐心等待下载重装资源。3、资源下载完成后,等待环境部署完毕重启即可。4、进入到pe系统后,打开小白工具,选择安装的...

u盘显示被写保护怎么处理

U盘被写保护可以通过以下方法解除:格式化U盘:检查U盘上是否有写保护按钮,如果有,将其拨下,然后对U盘进行格式化即可。分区格式为exFat异常:这时需要Win+R打开窗口,输入cmd并点击确定,然后在...

电脑硬盘坏了恢复数据成功率高吗

1.不能全部恢复。因为电脑硬盘数据丢失可能是硬件故障、病毒攻击、人为误操作等原因造成,而不同的原因造成的数据丢失程度不同,可恢复的数据也有所不同。2.但也有可能可以全部恢复。如果是硬件故障引起的数...

移动硬盘怎么分区合并(移动硬盘分区合并最简单三个步骤)

1、按下组合键“win+R”打开运行窗口。2、在其中的输入框中输入“diskmgmt.msc”,再点击“确定”。3、在弹出的窗口中就可以看到要合并的磁盘了。4、在磁盘上单击鼠标右键。在弹出的选项框中点...

笔记本电脑连接不上网络怎么解决
  • 笔记本电脑连接不上网络怎么解决
  • 笔记本电脑连接不上网络怎么解决
  • 笔记本电脑连接不上网络怎么解决
  • 笔记本电脑连接不上网络怎么解决
电脑bios有什么用(电脑bios能干什么)

电脑BIOS(基本输入输出系统)是计算机启动时运行的固件,它负责初始化计算机硬件,并提供操作系统加载所需的基本功能。BIOS主要功能包括:检测和配置硬件设备、加载操作系统、管理电源和温度、提供系统启动...

华硕电脑蓝屏怎么修复(华硕蓝屏怎么办)

华硕电脑蓝屏恢复的方法如下:安全模式进入系统。重启电脑后,连续按下F8键直至出现启动选项界面,选择安全模式进入系统,若此时能够正常运行,说明问题可能是由于软件冲突引起的。检查驱动程序兼容性。过于陈旧或...

win10教育版怎么改成专业版(win10最稳定三个版本)

一、首先,点击Windows10“开始”菜单,找到电脑应用列表,二、然后,在应用列表中找到“Windows系统”文件夹中找到“命令提示符”,点击打开。三、然后,系统跳转到“命令提示符”窗口。四、然后,...

ps下载官网(ps官网免费下载)

要从Adobe官网下载AdobePhotoshop(PS),可以按照以下步骤进行:1.打开网页浏览器,进入Adobe官网的主页。网址是:https://www.adobe.com。2.在网页的顶...

取消回复欢迎 发表评论: