Python生成器入门:用“按需生产”思维处理海量数据

off999 2025-05-23 19:15 33 浏览 0 评论

想象你要制作1000个蛋糕：

列表的做法：先把1000个蛋糕全做好堆在厨房里，占满空间还容易变质
生成器的做法：有人下单时才做一个蛋糕，厨房永远只有1个蛋糕，不占空间还新鲜

这就是Python生成器的核心逻辑——按需生成数据，绝不提前囤积。本文将用漫画式思维和极简代码，带新手彻底理解这个“内存救星”。

一、为什么列表处理大数据会“卡爆”？

案例：生成1亿个数字

# 用列表存储1亿个数字（灾难现场！）
big_list = [i for i in range(100000000)]  # 电脑可能直接卡死

问题根源：

列表像一个“超级仓库”，必须把所有数据一次性存进去
数据量越大，仓库越占空间，小电脑根本扛不住！

二、生成器：数据界的“自动贩卖机”

生成器就像一台自动贩卖机：

你按下按钮（调用next()）
贩卖机现做一份零食（生成一个数据）
绝不提前生产堆在机器里

1. 生成器表达式：贩卖机的简易版

语法：

(数据生成规则 for 原材料 in 供应列表)  # 用()代替列表的[]

示例：生成1-5的平方贩卖机

square_gen = (x**2 for x in range(1, 6))  # 先造一台贩卖机，不生产任何数据

如何买零食？

print(next(square_gen))  # 按下按钮：得到1（贩卖机生产第1个数据）
print(next(square_gen))  # 再按按钮：得到4（生产第2个数据）
# 每次调用next()，贩卖机才生产一个数据，内存始终只有1个数据！

2. 生成器函数：贩卖机的定制版

如果需要复杂的生产流程（如筛选、计算），可以用函数造贩卖机：
语法：

def 贩卖机函数():
    for 原材料 in 供应列表:
        if 原材料符合条件:
            yield 加工后的产品  # yield是“出货口”，每次出一个产品后暂停

示例：生成100以内的偶数贩卖机

def even_gen():
    for x in range(100):
        if x % 2 == 0:
            yield x  # 出货口：给我一个偶数！

gen = even_gen()  # 造好贩卖机
print(next(gen))  # 0（第1次出货）
print(next(gen))  # 2（第2次出货）

三、生成器的超能力：内存占用永不爆炸

实验对比：列表vs生成器的内存消耗

数据量	列表占用内存（Python实测）	生成器占用内存
10个数字	约0.04KB	约0.0008KB
100万个数字	约40KB	约0.0008KB
1亿个数字	约4000KB（4MB）	约0.0008KB

原因：

列表：存1亿个数字 → 每个数字占4字节 → 总内存4亿字节=40MB
生成器：只存“从0开始，每次+1”的规则 → 仅需几十字节记录规则

四、生成器的3个经典使用场景

场景1：处理超大文件（如10GB日志）

传统方法（错误示范）：

with open('big.log', 'r') as f:
    lines = f.readlines()  # 把10GB文件全读进内存，电脑直接罢工！

生成器方法（正确做法）：

def read_large_file(file_path):
    with open(file_path, 'r') as f:
        for line in f:  # 文件对象本身就是生成器，逐行读取
            yield line.strip()  # 每次只存1行数据，内存稳如老狗！

# 逐行处理：统计包含"ERROR"的行数
error_count = 0
for line in read_large_file('big.log'):
    if "ERROR" in line:
        error_count += 1

场景2：实时生成数据（如模拟传感器）

import time

def live_sensor():
    while True:
        yield time.strftime("%H:%M:%S")  # 无限生成当前时间
        time.sleep(1)  # 每秒生成1个数据

# 使用：打印实时时间，不存历史数据
sensor = live_sensor()
print(next(sensor))  # 15:30:01
print(next(sensor))  # 15:30:02
# 内存始终只存最新1个时间，绝不积压！

场景3：数据流水线（过滤→转换→分析）

# 生成器链：数据像流水一样逐个处理
def generate_data():
    yield 1; yield 2; yield 3; yield 4  # 生成原始数据

def filter_even(data):
    for x in data:
        if x % 2 == 0:
            yield x  # 过滤偶数

def convert_to_str(data):
    for x in data:
        yield f"数字{x}"  # 转换格式

# 流水线：生成→过滤→转换
pipeline = convert_to_str(filter_even(generate_data()))
for item in pipeline:
    print(item)  # 输出："数字2", "数字4"

五、新手必看！生成器的3个“不能做”

不能做1：用索引访问生成器

gen = (x for x in range(5))
print(gen[2])  #  报错！生成器不能像列表一样用索引
# 正确做法：用for循环遍历或next()逐个获取

不能做2：重复使用耗尽的生成器

gen = (x for x in range(3))
print(next(gen))  # 0
print(next(gen))  # 1
print(next(gen))  # 2
print(next(gen))  #  报错！生成器已空
# 解决办法：重新创建生成器对象 gen = (x for x in range(3))

不能做3：用生成器存储需要反复访问的数据

#  错误场景：需要多次遍历数据
gen = (x for x in range(5))
print(sum(gen))  # 10（第一次遍历，生成器耗尽）
print(sum(gen))  # 0（第二次遍历，没有数据了！）

# 正确做法：用列表存储需要反复使用的数据
lst = [x for x in range(5)]
print(sum(lst))  # 10
print(sum(lst))  # 10（列表数据一直都在）

六、实战练习：用生成器计算10000以内的质数

需求：生成10000以内的所有质数，要求内存占用小于1MB
步骤1：定义质数判断函数

def is_prime(n):
    if n < 2:
        return False
    for i in range(2, int(n**0.5)+1):
        if n % i == 0:
            return False
    return True

步骤2：用生成器函数生成质数

def prime_generator(max_num):
    for n in range(2, max_num+1):
        if is_prime(n):
            yield n  # 是质数就出货！

步骤3：遍历生成器并统计

primes = prime_generator(10000)
print(f"10000以内的质数有：{list(primes)}")
# 内存占用：生成器全程仅存储当前判断的数字，远小于1MB！

总结：生成器的“三句口诀”

列表是仓库，生成器是流水线：列表存所有数据，生成器逐个造数据
用for循环替代next()：for x in 生成器: 比手动调用next()更简单
大数据用生成器，小数据用列表：处理几万个数据用列表，百万级数据用生成器

给新手的练习建议：

用生成器表达式生成1-100的奇数序列
尝试用生成器函数实现斐波那契数列（提示：用a, b = b, a+b）
思考：如何用生成器处理CSV文件的逐行解析？

生成器是Python中“聪明处理数据”的关键工具，学会它能让你在处理大数据时游刃有余。下次我们将深入迭代器原理，揭开生成器背后的神秘面纱，记得关注哦！

python判断质数

上一篇：Python入门基础命令详解
下一篇：Python新手精选:20个必做算法题，全面提升编程实力!

Python生成器入门:用“按需生产”思维处理海量数据

一、为什么列表处理大数据会“卡爆”？

案例：生成1亿个数字

二、生成器：数据界的“自动贩卖机”

1. 生成器表达式：贩卖机的简易版

2. 生成器函数：贩卖机的定制版

三、生成器的超能力：内存占用永不爆炸

实验对比：列表vs生成器的内存消耗

四、生成器的3个经典使用场景

场景1：处理超大文件（如10GB日志）

场景2：实时生成数据（如模拟传感器）

场景3：数据流水线（过滤→转换→分析）

五、新手必看！生成器的3个“不能做”

不能做1：用索引访问生成器

不能做2：重复使用耗尽的生成器

不能做3：用生成器存储需要反复访问的数据

六、实战练习：用生成器计算10000以内的质数

总结：生成器的“三句口诀”

相关推荐

取消回复欢迎你发表评论:

中华人民共和国历届领导（中华人民共和国历届领导班子成员及照片）

网盘在哪里打开（华为网盘在哪里打开）

抖音上好看的小姐姐，Python给你都下载了

飞牛NAS部署TVGate Docker项目，实现内网一键转发、代理、jx

全网最简单易懂!495页Python漫画教程，高清PDF版免费下载

win7系统还原步骤图解（win7还原电脑系统的步骤）

Python 3.14 的 UUIDv6/v7/v8 上新，别再用 uuid4 () 啦!

苹果手机怎么下载软件并安装

夜晚十大禁用直播app（未成年人禁止出镜直播）

python入门到脱坑输入与输出—str()函数

Python生成器入门:用“按需生产”思维处理海量数据

一、为什么列表处理大数据会“卡爆”？

案例：生成1亿个数字

二、生成器：数据界的“自动贩卖机”

1. 生成器表达式：贩卖机的简易版

2. 生成器函数：贩卖机的定制版

三、生成器的超能力：内存占用永不爆炸

实验对比：列表vs生成器的内存消耗

四、生成器的3个经典使用场景

场景1：处理超大文件（如10GB日志）

场景2：实时生成数据（如模拟传感器）

场景3：数据流水线（过滤→转换→分析）

五、新手必看！生成器的3个“不能做”

不能做1：用索引访问生成器

不能做2：重复使用耗尽的生成器

不能做3：用生成器存储需要反复访问的数据

六、实战练习：用生成器计算10000以内的质数

总结：生成器的“三句口诀”

相关推荐

取消回复欢迎 你 发表评论:

中华人民共和国历届领导（中华人民共和国历届领导班子成员及照片）

网盘在哪里打开（华为网盘在哪里打开）

抖音上好看的小姐姐，Python给你都下载了

飞牛NAS部署TVGate Docker项目，实现内网一键转发、代理、jx

全网最简单易懂!495页Python漫画教程，高清PDF版免费下载

win7系统还原步骤图解（win7还原电脑系统的步骤）

Python 3.14 的 UUIDv6/v7/v8 上新，别再用 uuid4 () 啦!

苹果手机怎么下载软件并安装

夜晚十大禁用直播app（未成年人禁止出镜直播）

python入门到脱坑 输入与输出—str()函数

取消回复欢迎你发表评论:

python入门到脱坑输入与输出—str()函数