当前位置：网站首页 > 技术资源 > 正文

怎样进行全站爬取?Python爬虫:scrapy中的CrawlSpider的使用

off999 2024-10-26 12:11 56 浏览 0 评论

CrawlSpider:

概念：其实是Spider的一个子类。Spider是爬虫文件中爬虫类的父类.

子类的功能一定是多于父类.

作用:被用作于专业实现全站数据爬取

将一个页面下所有页面对应的数据进行爬取

基本使用:

创建一个工程
cd 工程
创建一个基于CrawlSpider的爬虫文件

scrapy genspider -t crawl SpiderName www.xxx.com

示例：

创建一个工程：crawlPro

scrapy startproject crawlPro
cd crawlPro
scrapy genspider -t crawl first www.xxx.com
修改配置文件（跟之前正常操作一样）

创建出来的应该是这样的：

任务：爬取校花网源码里的所有链接

http://www.521609.com/daxuexiaohua/

我们先来介绍下下面这段代码：

rules = (
    Rule(LinkExtractor(allow=r'Items/'), callback='parse_item', follow=True),
)

rules：定义抽取链接的规则。

LinkExtractor：链接提取器。

callback:回调函数。也就是解析数据的函数。

follow:

True：爬取所有页。
False：只爬取当前页面。

实例化LinkExtractor对象.

链接提取器：根据规则(allow参数) ，在页面中进行(url)爬取.

allow=‘正则’：提取链接的规则.

根据链接的规律，我们来写下正则：

# 实例化LinkExtractor对象
# 链接提取器：根据规则(allow参数) ，在页面中进行(url)爬取
# allow='正则'：提取链接的规则
link = LinkExtractor(allow=r'/daxuexiaohua/\d{1,10}\.html')
rules = (
  	# 这里我们先爬取当前页测试下。follow=False
    Rule(link, callback='parse_item', follow=False),
)

运行工程，看下效果:

scrapy crawl first

链接就获取到了。

全部代码：

first.py

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule


class FirstSpider(CrawlSpider):
    name = 'first'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['http://www.521609.com/daxuexiaohua/']

    # 实例化LinkExtractor对象
    # 链接提取器：根据规则(allow参数) ，在页面中进行(url)爬取
    # allow='正则'：提取链接的规则
    link = LinkExtractor(allow=r'/daxuexiaohua/\d{1,10}\.html')
    rules = (
      	# 实例化一个Rule对象
        # 规则解析器：接收链接提取器提取到的链接，对其发起请求，然后根据指定规则(callback)解析数据
        Rule(link, callback='parse_item', follow=False),
    )

    def parse_item(self, response):
        print(response)

怎么爬取该页面的所有链接呢？

其实就是一句代码：

link = LinkExtractor(allow=r'')

怎么过滤不是521609.com的链接？

# 打开设置allowed_domains即可
allowed_domains = ['521609.com']

注意：

一个链接提取器对应一个规则解析器（多个链接提取器和多个规则解析器）
在实现深度爬取的过程中需要和scrapy.Requests()结合使用

下节课讲CrawlSpider实现深度爬取

关注 Python涛哥！学习更多Python知识！

python爬虫技术

上一篇：如何入门python爬虫?（python爬虫怎么入门）
下一篇：你想要的都在这，一文详细讲解如何使用Python绘制柱状图

怎样进行全站爬取?Python爬虫:scrapy中的CrawlSpider的使用

相关推荐

取消回复欢迎你发表评论:

抖音上好看的小姐姐，Python给你都下载了

全网最简单易懂!495页Python漫画教程，高清PDF版免费下载

编写一个自动生成双色球号码的 Python 小脚本

python入门到脱坑输入与输出—str()函数

推荐一款好用的国产桌面软件开发工具Aardio

Python基础之元组、集合、字典

python之容器详解——字典

python 解决cv2绘制中文乱码问题

失业程序员复习python笔记——条件与循环

(新版)Python 分布式爬虫与 JS 逆向进阶实战吾爱分享

怎样进行全站爬取?Python爬虫:scrapy中的CrawlSpider的使用

相关推荐

取消回复欢迎 你 发表评论:

抖音上好看的小姐姐，Python给你都下载了

全网最简单易懂!495页Python漫画教程，高清PDF版免费下载

编写一个自动生成双色球号码的 Python 小脚本

python入门到脱坑 输入与输出—str()函数

推荐一款好用的国产桌面软件开发工具Aardio

Python基础之元组、集合、字典

python之容器详解——字典

python 解决cv2绘制中文乱码问题

失业程序员复习python笔记——条件与循环

(新版)Python 分布式爬虫与 JS 逆向进阶实战吾爱分享

取消回复欢迎你发表评论:

python入门到脱坑输入与输出—str()函数