Python生成器入门:用“按需生产”思维处理海量数据
off999 2025-05-23 19:15 25 浏览 0 评论
想象你要制作1000个蛋糕:
- 列表的做法:先把1000个蛋糕全做好堆在厨房里,占满空间还容易变质
- 生成器的做法:有人下单时才做一个蛋糕,厨房永远只有1个蛋糕,不占空间还新鲜
这就是Python生成器的核心逻辑——按需生成数据,绝不提前囤积。本文将用漫画式思维和极简代码,带新手彻底理解这个“内存救星”。
一、为什么列表处理大数据会“卡爆”?
案例:生成1亿个数字
# 用列表存储1亿个数字(灾难现场!)
big_list = [i for i in range(100000000)] # 电脑可能直接卡死
问题根源:
- 列表像一个“超级仓库”,必须把所有数据一次性存进去
- 数据量越大,仓库越占空间,小电脑根本扛不住!
二、生成器:数据界的“自动贩卖机”
生成器就像一台自动贩卖机:
- 你按下按钮(调用next())
- 贩卖机现做一份零食(生成一个数据)
- 绝不提前生产堆在机器里
1. 生成器表达式:贩卖机的简易版
语法:
(数据生成规则 for 原材料 in 供应列表) # 用()代替列表的[]
示例:生成1-5的平方贩卖机
square_gen = (x**2 for x in range(1, 6)) # 先造一台贩卖机,不生产任何数据
如何买零食?
print(next(square_gen)) # 按下按钮:得到1(贩卖机生产第1个数据)
print(next(square_gen)) # 再按按钮:得到4(生产第2个数据)
# 每次调用next(),贩卖机才生产一个数据,内存始终只有1个数据!
2. 生成器函数:贩卖机的定制版
如果需要复杂的生产流程(如筛选、计算),可以用函数造贩卖机:
语法:
def 贩卖机函数():
for 原材料 in 供应列表:
if 原材料符合条件:
yield 加工后的产品 # yield是“出货口”,每次出一个产品后暂停
示例:生成100以内的偶数贩卖机
def even_gen():
for x in range(100):
if x % 2 == 0:
yield x # 出货口:给我一个偶数!
gen = even_gen() # 造好贩卖机
print(next(gen)) # 0(第1次出货)
print(next(gen)) # 2(第2次出货)
三、生成器的超能力:内存占用永不爆炸
实验对比:列表vs生成器的内存消耗
数据量 | 列表占用内存(Python实测) | 生成器占用内存 |
10个数字 | 约0.04KB | 约0.0008KB |
100万个数字 | 约40KB | 约0.0008KB |
1亿个数字 | 约4000KB(4MB) | 约0.0008KB |
原因:
- 列表:存1亿个数字 → 每个数字占4字节 → 总内存4亿字节=40MB
- 生成器:只存“从0开始,每次+1”的规则 → 仅需几十字节记录规则
四、生成器的3个经典使用场景
场景1:处理超大文件(如10GB日志)
传统方法(错误示范):
with open('big.log', 'r') as f:
lines = f.readlines() # 把10GB文件全读进内存,电脑直接罢工!
生成器方法(正确做法):
def read_large_file(file_path):
with open(file_path, 'r') as f:
for line in f: # 文件对象本身就是生成器,逐行读取
yield line.strip() # 每次只存1行数据,内存稳如老狗!
# 逐行处理:统计包含"ERROR"的行数
error_count = 0
for line in read_large_file('big.log'):
if "ERROR" in line:
error_count += 1
场景2:实时生成数据(如模拟传感器)
import time
def live_sensor():
while True:
yield time.strftime("%H:%M:%S") # 无限生成当前时间
time.sleep(1) # 每秒生成1个数据
# 使用:打印实时时间,不存历史数据
sensor = live_sensor()
print(next(sensor)) # 15:30:01
print(next(sensor)) # 15:30:02
# 内存始终只存最新1个时间,绝不积压!
场景3:数据流水线(过滤→转换→分析)
# 生成器链:数据像流水一样逐个处理
def generate_data():
yield 1; yield 2; yield 3; yield 4 # 生成原始数据
def filter_even(data):
for x in data:
if x % 2 == 0:
yield x # 过滤偶数
def convert_to_str(data):
for x in data:
yield f"数字{x}" # 转换格式
# 流水线:生成→过滤→转换
pipeline = convert_to_str(filter_even(generate_data()))
for item in pipeline:
print(item) # 输出:"数字2", "数字4"
五、新手必看!生成器的3个“不能做”
不能做1:用索引访问生成器
gen = (x for x in range(5))
print(gen[2]) # 报错!生成器不能像列表一样用索引
# 正确做法:用for循环遍历或next()逐个获取
不能做2:重复使用耗尽的生成器
gen = (x for x in range(3))
print(next(gen)) # 0
print(next(gen)) # 1
print(next(gen)) # 2
print(next(gen)) # 报错!生成器已空
# 解决办法:重新创建生成器对象 gen = (x for x in range(3))
不能做3:用生成器存储需要反复访问的数据
# 错误场景:需要多次遍历数据
gen = (x for x in range(5))
print(sum(gen)) # 10(第一次遍历,生成器耗尽)
print(sum(gen)) # 0(第二次遍历,没有数据了!)
# 正确做法:用列表存储需要反复使用的数据
lst = [x for x in range(5)]
print(sum(lst)) # 10
print(sum(lst)) # 10(列表数据一直都在)
六、实战练习:用生成器计算10000以内的质数
需求:生成10000以内的所有质数,要求内存占用小于1MB
步骤1:定义质数判断函数
def is_prime(n):
if n < 2:
return False
for i in range(2, int(n**0.5)+1):
if n % i == 0:
return False
return True
步骤2:用生成器函数生成质数
def prime_generator(max_num):
for n in range(2, max_num+1):
if is_prime(n):
yield n # 是质数就出货!
步骤3:遍历生成器并统计
primes = prime_generator(10000)
print(f"10000以内的质数有:{list(primes)}")
# 内存占用:生成器全程仅存储当前判断的数字,远小于1MB!
总结:生成器的“三句口诀”
- 列表是仓库,生成器是流水线:列表存所有数据,生成器逐个造数据
- 用for循环替代next():for x in 生成器: 比手动调用next()更简单
- 大数据用生成器,小数据用列表:处理几万个数据用列表,百万级数据用生成器
给新手的练习建议:
- 用生成器表达式生成1-100的奇数序列
- 尝试用生成器函数实现斐波那契数列(提示:用a, b = b, a+b)
- 思考:如何用生成器处理CSV文件的逐行解析?
生成器是Python中“聪明处理数据”的关键工具,学会它能让你在处理大数据时游刃有余。下次我们将深入迭代器原理,揭开生成器背后的神秘面纱,记得关注哦!
相关推荐
- 360游戏中心怎么关闭(360游戏中心怎么关闭自动更新)
-
1.你把360卸载了,换成QQ管家2.你把360卸载,再安装的时候,别一键安装要,改为自定义安装,在安装过程中,如果有弹出窗口,上面显示360游戏大厅,你把360游戏大厅前面的那个选择口里点一下,里面...
- 宽带安装哪个便宜(安装宽带哪个好)
-
我认为光纤宽带是目前最便宜和最好用的选择。1.光纤宽带拥有更高的传输速度和稳定性,可以提供更好的上网体验。相比其他宽带类型,如ADSL和电缆宽带,光纤宽带的速度更快,不容易受到网络拥堵的影响。2....
- pubg加速器免费版(pubg加速器免费版无广告)
-
现在加速吃鸡的游戏加速器是有专线路线的比较好,专线的稳定很多,不过目前是没有完全免费的加速软件,很多都可以先体验,注册就可以体验的,可以多去体验几款,对比一下。目前的加速器可以分为三个等级第一等级:全...
-
- 如何用u盘重装电脑系统win7(用u盘怎样重装系统win7)
-
u盘怎么装win7系统步骤如下:1、先下载Windows7镜像,根据自己需求选择下载的版本:简化版、家庭基础版、家庭高级版、企业版等。2、下载工具软碟通。直接在搜索引擎中输入“软碟通”,选择合适的下载地址,直接下载安装即可。3、制作系统U...
-
2025-12-27 08:51 off999
- 系统驱动怎么安装(系统驱动的安装)
-
首先进入系统的设备管理器,检查一下是否存在有没有正确安装或者找不到的驱动程序的设备,然后进入硬件生产厂商官网去下载对应的操作系统的驱动程序,进行安装。如果嫌麻烦,可下载第三方软件进行辅助安装。1、如果...
-
- 设置bios密码(银河麒麟怎么设置bios密码)
-
想电脑BIOS开机密码,其实很简单,只要进入BIOS设置界面,然后选择“security”选项卡,在“security”内设置好开机密码即可。下面就跟随小编一起来学习一下具体提设置步骤吧!1、首先开机,然后快速按“F2”或者“F12”进入B...
-
2025-12-27 07:51 off999
- 华硕售后服务中心查询(华硕售后维修服务网点查询)
-
首先查看包装盒、保修卡、机器底部。三个地方的SN码及机器的序列号是不是一致。如果不一致那一定是有问题的。2然后,如果一致,我们可以拨打华硕的客服,通过机器的序列号,查询机器的基本情况,然后与说明书上的...
- 如何更改硬盘分区(硬盘怎么更改分区)
-
要修改磁盘分区,首先需要使用磁盘管理工具,如DiskManagement(Windows)或DiskUtility(Mac)。在工具中,选择要修改的磁盘并右键点击,然后选择“修改分区”选项。接着,...
- 无线路由器当交换机使用(路由器当交换机用无线wifi还可以上网吗)
-
若您想将无线路由器用作交换机,您可以按照以下步骤操作:1.确保您的无线路由器具有交换器功能。不是所有的无线路由器都具备此功能,请先确保您的设备支持。2.将您的无线路由器与网络中的其他设备连接。通常...
- computer(computer lab)
-
"电脑"这个名称实际上是人们对具有计算功能电子设备的俗称。而计算机(Computer)则是这个设备的正式名称,因为"计算"是其核心功能。在英文中,Computer是指可...
- 电脑重置20多个小时了(重置电脑一直12%)
-
重置电脑时间太长了解决办法如下1、将电脑关机然后开机或者直接点击重启,然后按住DELETE键,电脑会自动进入到BIOS;2、电脑屏幕上会显示两个选项,两个选项一般都在电脑屏幕的右方;3、其中一个选项是...
- 电脑虚拟机是什么(电脑虚拟机有啥用)
-
电脑虚拟机(VirtualMachine,VM),也称为虚拟计算机,是一种软件模拟的计算机,它在现有的计算机硬件上创建一个虚拟的计算机环境。这个虚拟环境可以用来运行操作系统、应用程序等软件,就像是在...
- 键盘图片大图(键盘图片大图清晰)
-
这个是仿苹果机上的无线键盘(妙控一代)的,属于山寨产品。1、在手机的微信或者短信或者其他可以打开键盘的应用中打开键盘,点击键盘左上角的输入法设置图标,页面显示输入法的各种设置功能;2、在输入法的设置...
- win11系统可以更新吗(w11系统可以用了吗)
-
可以1.点击“开始”,打开“设置”。2.找到“更新和安全”,选择“预览体验计划”。3.点击“开始”,需要登录微软账户。4.登录完成后弹出一个升级的渠道,选择dev进行下载win11即可。方法二:首...
欢迎 你 发表评论:
- 一周热门
-
-
抖音上好看的小姐姐,Python给你都下载了
-
全网最简单易懂!495页Python漫画教程,高清PDF版免费下载
-
Python 3.14 的 UUIDv6/v7/v8 上新,别再用 uuid4 () 啦!
-
飞牛NAS部署TVGate Docker项目,实现内网一键转发、代理、jx
-
python入门到脱坑 输入与输出—str()函数
-
宝塔面板如何添加免费waf防火墙?(宝塔面板开启https)
-
Python三目运算基础与进阶_python三目运算符判断三个变量
-
(新版)Python 分布式爬虫与 JS 逆向进阶实战吾爱分享
-
失业程序员复习python笔记——条件与循环
-
系统u盘安装(win11系统u盘安装)
-
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python面向对象编程 (60)
- python 代码加密 (65)
- python串口编程 (77)
- python封装 (57)
- python写入txt (66)
- python读取文件夹下所有文件 (59)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)
