百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

什么叫做深度爬取?Python爬虫:scrapy请求传参实现的深度爬取

off999 2024-12-04 14:39 22 浏览 0 评论

概念和方式

深度爬取:爬取的数据没有在同一张页面中(首页数据+详情页数据)

在scrapy中如果没有请求传参,我们无法持久化存储数据

实现方式:

  • scrapy.Request(url,callback,meta)

meta是一个字典,可以将meta传递给callback

  • callback取出meta:

response.meta['item']


例程

爬取某电影网的电影名称和详情页的电影介绍

http://www.4567kp.com/frim/index1.html

这个网站首页和详情介绍不在同一页面,利用requests很容易爬取,但用scrapy必须要用到深度爬取

创建一个工程moviePro:

  1. scrapy startproject moviePro
  2. cd moviePro
  3. scrapy genspider movie www.xxx.com
  4. 修改配置文件

我们先来取出电影名称和详情页URL:

import scrapy

class MovieSpider(scrapy.Spider):
    name = 'movie'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['http://www.4567kp.com/frim/index1.html']

    def parse(self, response):
        li_list = response.xpath('/html/body/div[1]/div/div/div/div[2]/ul/li')
        for li in li_list:
            # 获取电影名称
            title = li.xpath('./div/a/@title').extract_first()
            # 详情页URL
            detail_url = 'http://www.4567kp.com' + li.xpath('./div/a/@href').extract_first()
            print(title, detail_url)

运行一下:scrapy crawl movie

上节课我们讲了如果对新网站进行手动爬取:

那我们就可以对该电影网进行详情页的爬取:

yield scrapy.Request(url=detail_url,callback=)

但我们遇到一个问题:callback=?,这里肯定不能写self.parse。我们可以再写个函数进行详情页的数据解析:

		# yield scrapy.Request(url=detail_url, callback=parse_detail)

    # 被作用于解析详情页的数据
    def parse_detail(self, response):
        desc = response.xpath('/html/body/div[1]/div/div/div/div[2]/p[5]/span[3]').extract_first()
        ...
        yield ...

先别着急省略的代码。上面我们获取了电影名称和详情页数据,我们需要管道做持久化存储的话,需要定义item

items.py文件:

import scrapy

class MovieproItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    title = scrapy.Field()
    desc = scrapy.Field()

那我们就把item写进代码中:

def parse(self, response):
    li_list = response.xpath('/html/body/div[1]/div/div/div/div[2]/ul/li')
    for li in li_list:
        # 获取电影名称
        title = li.xpath('./div/a/@title').extract_first()
        detail_url = 'http://www.4567kp.com' + li.xpath('./div/a/@href').extract_first()

        item = MovieproItem()
        item['title'] = title
        yield scrapy.Request(url=detail_url, callback=self.parse_detail)

# 被作用于解析详情页的数据
def parse_detail(self, response):
    desc = response.xpath('/html/body/div[1]/div/div/div/div[2]/p[5]/span[3]').extract_first()
    item['desc'] = desc

但是,这样的话肯定是报错的。因为parse_detail函数中并没有item,这时候,我们就需要用到请求传参:

    def parse(self, response):
        li_list = response.xpath('/html/body/div[1]/div/div/div/div[2]/ul/li')
        for li in li_list:
            # 获取电影名称
            title = li.xpath('./div/a/@title').extract_first()
            detail_url = 'http://www.4567kp.com' + li.xpath('./div/a/@href').extract_first()

            item = MovieproItem()
            item['title'] = title

            # meta的作用:可以将mate字典传递给callback
            yield scrapy.Request(url=detail_url, callback=self.parse_detail, meta={'item': item})

    # 被作用于解析详情页的数据
    def parse_detail(self, response):
        # 接收传递过来的mate
        item = response.meta['item']
        desc = response.xpath('/html/body/div[1]/div/div/div/div[2]/p[5]/span[3]').extract_first()
        item['desc'] = desc
				
        # 传递给管道
        yield item

管道文件中打印下:

class MovieproPipeline:
    def process_item(self, item, spider):
        print(item)
        return item

我们来运行一下吧:

这样就爬取到了数据!

关注Python涛哥!学习更多Python知识!

相关推荐

新手学做ppt(新手学做ppt的软件有哪些)
  • 新手学做ppt(新手学做ppt的软件有哪些)
  • 新手学做ppt(新手学做ppt的软件有哪些)
  • 新手学做ppt(新手学做ppt的软件有哪些)
  • 新手学做ppt(新手学做ppt的软件有哪些)
ghost全盘备份步骤图(用ghost怎么进行全盘备份)

可以用手动备份到指定分区。一、用一键Ghost还原中的“中文向导”备份开始-程序-一键Ghost-选出“中文向导”,Ghost中文向导-1、备份文件默认是“第1硬盘第1分区”,如果不是,将鼠标指针移...

键盘的windows键是哪一个(键盘上windows键是哪个键)
键盘的windows键是哪一个(键盘上windows键是哪个键)

windows键就是电脑键盘上ctrl键和alt键之间的按键,位于左下角。它带着微软的徽标,跟开始菜单一样的图标,它属于辅助按键,主要与其它按键组合使用,实现一些特定的功能,组合成多种快捷操作方式。这里上面所知的Win键其实就是键盘上的Wi...

2025-12-31 10:51 off999

win10打开设置快捷键(win10打开设置快捷键是什么)

1、首先打开电脑,在任务栏的语言地方点击一下再点击语言首选项。2、然后在新的界面里点击选择左侧“高级设置”按钮。3、之后在新的界面里点击选择“更改语言栏热键”按钮。4、然后在新的界面里点击选择“更改热...

flash插件下载手机版下载安装

华为手机的最新系统版本已经不再支持FlashPlayer,这是由于Adobe已于2020年底停止更新和支持FlashPlayer。因此,如果您使用最新的华为手机系统,可能无法安装和使用Flash...

官方应用商店下载(小米官方应用商店下载)

1.审核和验证:应用商店会对应用进行审核和验证,确保其质量和可靠性。开发者需要满足一定的要求才能在应用商店上架应用。而官网下载的应用没有经过此类审核和验证,因此用户需要自行评估其质量和可信度。2....

主题软件免费(主题软件免费推荐)

下载主题方法:一、打开手机找到APPStore应用软件,二、点击进去在下面找到有个搜索,点击它查找主题壁纸,三、弹出来很多主题壁纸,根据下载量和个人喜欢的应用主题选择下载相应的主题,四、下载成功后即...

一芯fc1178bc盘量产教程(一芯量产工具使用教程)

fc1178bc量产工具没有显示u盘拔下U盘,关闭量产工具,再插上U盘(先要确认卸载了安国的驱动,如果不能确认,运行LoadDriver.exe卸载),然后插上U盘,右键我的电脑---属性---硬件-...

电脑怎么样还原原来的系统(电脑怎么还原之前的系统版本)
  • 电脑怎么样还原原来的系统(电脑怎么还原之前的系统版本)
  • 电脑怎么样还原原来的系统(电脑怎么还原之前的系统版本)
  • 电脑怎么样还原原来的系统(电脑怎么还原之前的系统版本)
  • 电脑怎么样还原原来的系统(电脑怎么还原之前的系统版本)
u盘内文件损坏怎么办(u盘内文件损坏怎么办解决)

以下是8种修复U盘文件损坏的方法:1.风险自担型:试图直接复制文件如果U盘的部分文件损坏,您可能可以使用此方法。请复制文件您能打开的所有文件,并尝试将它们粘贴到桌面或其他文件夹中。但是请...

internet explorer怎么更新(22号天蝎座的运势)

1、打开IE浏览器。2、点击位于浏览器窗口的右上角的功能按钮。3、点击关于InternetExplorer。它位于下拉菜单的底部。4、勾选“自动安装新版本”复选框。它位于“关于Internet...

snapseed(snapseed手机修图软件免费版)

Snapseed是一款非常流行的手机修图工具,下面是Snapseed工具最全教程:1.打开照片:打开Snapseed,点击左上角的“打开”按钮,选择需要修图的照片。2.自动增强:点击屏幕左下角的“...

canon佳能打印机驱动下载(下载佳能打印机驱动程序)

打开开始菜单,选择运行。输入gpedit.msc,并确定。选择左边“windows设置”,右边鼠标左键双击“安全设置”。选择策略在选择安全选项再鼠标左键双击“设备:防止用户安装打印机驱动程序”。选择已...

爱思助手安卓版下载(爱思助手安卓版下载v1.21.03)

容易造成系统的崩溃在爱思助手中安装的软件都打不开或者发生闪退,很容易造成系统的崩溃需要重新刷机,所以一般不太推荐使用爱思助手。爱思助手上下载正版软件不需要AppleID,这是为了方便不会注册的用户,但...

微软拼音输入法app(微软拼音输入法App下载)
微软拼音输入法app(微软拼音输入法App下载)

1、选择微软拼音输入法的图标,点击鼠标右键,出现菜单后选择设置选项。2、在高级里把美式键盘改为微软拼音输入法,然后点击右下角的属性按钮。3、点击逐键提示选项后,选择确定按钮,在后面出现对话框中点击应用即可。微软拼音输入法是一种基于语句的智能...

2025-12-31 04:51 off999

取消回复欢迎 发表评论: