Scrapy爬虫框架批量抓取数据轻轻松松啦~

off999 2025-06-28 15:50 40 浏览 0 评论

Scrapy爬虫框架批量抓取数据轻轻松松啦~

亲爱的小伙伴们~今天我要和大家分享一个超级实用的爬虫框架 Scrapy！作为一个经常需要收集数据的妹子，我可以告诉你们，用 Scrapy 抓取数据真的是又快又方便呢！它就像是一个温柔的小助手，帮我们自动完成各种网页数据的获取工作，让我们告别手动复制粘贴的烦恼~

安装 Scrapy

首先要安装这个可爱的小助手啦！打开命令行，输入以下命令：


pip install scrapy

Scrapy 项目结构

创建一个新项目超简单哦：


scrapy startproject my_spider

cd my_spider

scrapy genspider example example.com

执行完后，我们会得到这样的项目结构：


my_spider/

    └── my_spider/

        ├── spiders/

        │   ├── __init__.py

        │   └── example.py

        ├── __init__.py

        ├── items.py

        ├── middlewares.py

        ├── pipelines.py

        └── settings.py

编写第一个爬虫

让我们来写一个小爬虫，抓取一些可爱的图书信息吧~


import scrapy



class BookSpider(scrapy.Spider):

    name = 'bookspider'  # 爬虫的名字，要独一无二哦

    start_urls = ['http://books.example.com']  # 开始爬取的网址

    

    def parse(self, response):

        # 获取所有图书信息

        books = response.css('.book-item')

        

        for book in books:

            yield {

                'title': book.css('.title::text').get(),

                'author': book.css('.author::text').get(),

                'price': book.css('.price::text').get()

            }

小贴士：记得把 start_urls 换成真实的网址哦！这里只是示例~

数据提取技巧

Scrapy 提供了好多可爱的选择器，就像挑选首饰一样，我们可以用不同的方式来获取数据：


# CSS 选择器，简单直观

title = response.css('h1::text').get()



# XPath 选择器，功能更强大

author = response.xpath('//span[@class="author"]/text()').get()



# 结合使用也是可以的哦

price = response.css('.price').xpath('./text()').get()

保存抓取的数据

运行爬虫并保存数据超级简单：


scrapy crawl bookspider -o books.json

这样就会生成一个可爱的 JSON 文件，里面整整齐齐地存放着我们抓取的数据~

处理分页

如果要爬取多个页面，可以这样写：


def parse(self, response):

    # 处理当前页面的数据

    for book in response.css('.book-item'):

        yield {

            'title': book.css('.title::text').get()

        }

    

    # 找到下一页的链接

    next_page = response.css('.next-page::attr(href)').get()

    if next_page:

        yield response.follow(next_page, self.parse)

注意事项：爬取数据时要注意控制速度哦，设置合适的延迟，做个有礼貌的小爬虫~

设置爬虫参数

在 settings.py 中可以设置一些参数，让爬虫更温柔：


# 请求间隔时间，单位秒

DOWNLOAD_DELAY = 2



# 启用 robots.txt 规则

ROBOTSTXT_OBEY = True



# 设置 User-Agent

USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'

小伙伴们，今天的 Python 学习之旅就到这里啦！记得动手敲代码，有问题随时在评论区问我哦。Scrapy 真的是一个超级贴心的爬虫框架，希望你们也能感受到它的魅力！祝大家学习愉快，Python 学习节节高！

python爬虫框架