百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

Python生成器入门:用“按需生产”思维处理海量数据

off999 2025-05-23 19:15 29 浏览 0 评论

想象你要制作1000个蛋糕:

  • 列表的做法:先把1000个蛋糕全做好堆在厨房里,占满空间还容易变质
  • 生成器的做法:有人下单时才做一个蛋糕,厨房永远只有1个蛋糕,不占空间还新鲜

这就是Python生成器的核心逻辑——按需生成数据,绝不提前囤积。本文将用漫画式思维和极简代码,带新手彻底理解这个“内存救星”。

一、为什么列表处理大数据会“卡爆”?

案例:生成1亿个数字

# 用列表存储1亿个数字(灾难现场!)
big_list = [i for i in range(100000000)]  # 电脑可能直接卡死

问题根源

  • 列表像一个“超级仓库”,必须把所有数据一次性存进去
  • 数据量越大,仓库越占空间,小电脑根本扛不住!

二、生成器:数据界的“自动贩卖机”

生成器就像一台自动贩卖机:

  • 你按下按钮(调用next())
  • 贩卖机现做一份零食(生成一个数据)
  • 绝不提前生产堆在机器里

1. 生成器表达式:贩卖机的简易版

语法

(数据生成规则 for 原材料 in 供应列表)  # 用()代替列表的[]

示例:生成1-5的平方贩卖机

square_gen = (x**2 for x in range(1, 6))  # 先造一台贩卖机,不生产任何数据

如何买零食?

print(next(square_gen))  # 按下按钮:得到1(贩卖机生产第1个数据)
print(next(square_gen))  # 再按按钮:得到4(生产第2个数据)
# 每次调用next(),贩卖机才生产一个数据,内存始终只有1个数据!

2. 生成器函数:贩卖机的定制版

如果需要复杂的生产流程(如筛选、计算),可以用函数造贩卖机:
语法

def 贩卖机函数():
    for 原材料 in 供应列表:
        if 原材料符合条件:
            yield 加工后的产品  # yield是“出货口”,每次出一个产品后暂停

示例:生成100以内的偶数贩卖机

def even_gen():
    for x in range(100):
        if x % 2 == 0:
            yield x  # 出货口:给我一个偶数!

gen = even_gen()  # 造好贩卖机
print(next(gen))  # 0(第1次出货)
print(next(gen))  # 2(第2次出货)

三、生成器的超能力:内存占用永不爆炸

实验对比:列表vs生成器的内存消耗

数据量

列表占用内存(Python实测)

生成器占用内存

10个数字

约0.04KB

约0.0008KB

100万个数字

约40KB

约0.0008KB

1亿个数字

约4000KB(4MB)

约0.0008KB

原因

  • 列表:存1亿个数字 → 每个数字占4字节 → 总内存4亿字节=40MB
  • 生成器:只存“从0开始,每次+1”的规则 → 仅需几十字节记录规则

四、生成器的3个经典使用场景

场景1:处理超大文件(如10GB日志)

传统方法(错误示范)

with open('big.log', 'r') as f:
    lines = f.readlines()  # 把10GB文件全读进内存,电脑直接罢工!

生成器方法(正确做法)

def read_large_file(file_path):
    with open(file_path, 'r') as f:
        for line in f:  # 文件对象本身就是生成器,逐行读取
            yield line.strip()  # 每次只存1行数据,内存稳如老狗!

# 逐行处理:统计包含"ERROR"的行数
error_count = 0
for line in read_large_file('big.log'):
    if "ERROR" in line:
        error_count += 1

场景2:实时生成数据(如模拟传感器)

import time

def live_sensor():
    while True:
        yield time.strftime("%H:%M:%S")  # 无限生成当前时间
        time.sleep(1)  # 每秒生成1个数据

# 使用:打印实时时间,不存历史数据
sensor = live_sensor()
print(next(sensor))  # 15:30:01
print(next(sensor))  # 15:30:02
# 内存始终只存最新1个时间,绝不积压!

场景3:数据流水线(过滤→转换→分析)

# 生成器链:数据像流水一样逐个处理
def generate_data():
    yield 1; yield 2; yield 3; yield 4  # 生成原始数据

def filter_even(data):
    for x in data:
        if x % 2 == 0:
            yield x  # 过滤偶数

def convert_to_str(data):
    for x in data:
        yield f"数字{x}"  # 转换格式

# 流水线:生成→过滤→转换
pipeline = convert_to_str(filter_even(generate_data()))
for item in pipeline:
    print(item)  # 输出:"数字2", "数字4"

五、新手必看!生成器的3个“不能做”

不能做1:用索引访问生成器

gen = (x for x in range(5))
print(gen[2])  #  报错!生成器不能像列表一样用索引
# 正确做法:用for循环遍历或next()逐个获取

不能做2:重复使用耗尽的生成器

gen = (x for x in range(3))
print(next(gen))  # 0
print(next(gen))  # 1
print(next(gen))  # 2
print(next(gen))  #  报错!生成器已空
# 解决办法:重新创建生成器对象 gen = (x for x in range(3))

不能做3:用生成器存储需要反复访问的数据

#  错误场景:需要多次遍历数据
gen = (x for x in range(5))
print(sum(gen))  # 10(第一次遍历,生成器耗尽)
print(sum(gen))  # 0(第二次遍历,没有数据了!)

# 正确做法:用列表存储需要反复使用的数据
lst = [x for x in range(5)]
print(sum(lst))  # 10
print(sum(lst))  # 10(列表数据一直都在)

六、实战练习:用生成器计算10000以内的质数

需求:生成10000以内的所有质数,要求内存占用小于1MB
步骤1:定义质数判断函数

def is_prime(n):
    if n < 2:
        return False
    for i in range(2, int(n**0.5)+1):
        if n % i == 0:
            return False
    return True

步骤2:用生成器函数生成质数

def prime_generator(max_num):
    for n in range(2, max_num+1):
        if is_prime(n):
            yield n  # 是质数就出货!

步骤3:遍历生成器并统计

primes = prime_generator(10000)
print(f"10000以内的质数有:{list(primes)}")
# 内存占用:生成器全程仅存储当前判断的数字,远小于1MB!

总结:生成器的“三句口诀”

  1. 列表是仓库,生成器是流水线:列表存所有数据,生成器逐个造数据
  2. 用for循环替代next():for x in 生成器: 比手动调用next()更简单
  3. 大数据用生成器,小数据用列表:处理几万个数据用列表,百万级数据用生成器

给新手的练习建议

  1. 用生成器表达式生成1-100的奇数序列
  2. 尝试用生成器函数实现斐波那契数列(提示:用a, b = b, a+b)
  3. 思考:如何用生成器处理CSV文件的逐行解析?

生成器是Python中“聪明处理数据”的关键工具,学会它能让你在处理大数据时游刃有余。下次我们将深入迭代器原理,揭开生成器背后的神秘面纱,记得关注哦!

相关推荐

安全教育登录入口平台(安全教育登录入口平台官网)

122交通安全教育怎么登录:122交通网的注册方法是首先登录网址http://www.122.cn/,接着打开网页后,点击右上角的“个人登录”;其次进入邮箱注册,然后进入到注册页面,输入相关信息即可完...

大鱼吃小鱼经典版(大鱼吃小鱼经典版(经典版)官方版)

大鱼吃小鱼小鱼吃虾是于谦跟郭麒麟的《我的棒儿呢?》郭德纲说于思洋郭麒麟作诗的相声,最后郭麒麟做了一首,师傅躺在师母身上大鱼吃小鱼小鱼吃虾虾吃水水落石出师傅压师娘师娘压床床压地地动山摇。...

谷歌地球下载高清卫星地图(谷歌地球地图下载器)
  • 谷歌地球下载高清卫星地图(谷歌地球地图下载器)
  • 谷歌地球下载高清卫星地图(谷歌地球地图下载器)
  • 谷歌地球下载高清卫星地图(谷歌地球地图下载器)
  • 谷歌地球下载高清卫星地图(谷歌地球地图下载器)
哪个软件可以免费pdf转ppt(免费的pdf转ppt软件哪个好)
哪个软件可以免费pdf转ppt(免费的pdf转ppt软件哪个好)

要想将ppt免费转换为pdf的话,我们建议大家可以下一个那个wps,如果你是会员的话,可以注册为会员,这样的话,在wps里面的话,就可以免费将ppt呢转换为pdfpdf之后呢,我们就可以直接使用,不需要去直接不需要去另外保存,为什么格式转...

2026-02-04 09:03 off999

电信宽带测速官网入口(电信宽带测速官网入口app)

这个网站看看http://www.swok.cn/pcindex.jsp1.登录中国电信网上营业厅,宽带光纤,贴心服务,宽带测速2.下载第三方软件,如360等。进行在线测速进行宽带测速时,尽...

植物大战僵尸95版手机下载(植物大战僵尸95 版下载)

1可以在应用商店或者游戏平台上下载植物大战僵尸95版手机游戏。2下载教程:打开应用商店或者游戏平台,搜索“植物大战僵尸95版”,找到游戏后点击下载按钮,等待下载完成即可安装并开始游戏。3注意:确...

免费下载ppt成品的网站(ppt成品免费下载的网站有哪些)

1、Chuangkit(chuangkit.com)直达地址:chuangkit.com2、Woodo幻灯片(woodo.cn)直达链接:woodo.cn3、OfficePlus(officeplu...

2025世界杯赛程表(2025世界杯在哪个国家)

2022年卡塔尔世界杯赛程公布,全部比赛在卡塔尔境内8座球场举行,2022年,决赛阶段球队全部确定。揭幕战于当地时间11月20日19时进行,由东道主卡塔尔对阵厄瓜多尔,决赛于当地时间12月18日...

下载搜狐视频电视剧(搜狐电视剧下载安装)

搜狐视频APP下载好的视频想要导出到手机相册里方法如下1、打开手机搜狐视频软件,进入搜狐视频后我们点击右上角的“查找”,找到自已喜欢的视频。2、在“浏览器页面搜索”窗口中,输入要下载的视频的名称,然后...

pubg免费下载入口(pubg下载入口官方正版)
  • pubg免费下载入口(pubg下载入口官方正版)
  • pubg免费下载入口(pubg下载入口官方正版)
  • pubg免费下载入口(pubg下载入口官方正版)
  • pubg免费下载入口(pubg下载入口官方正版)
永久免费听歌网站(丫丫音乐网)

可以到《我爱音乐网》《好听音乐网》《一听音乐网》《YYMP3音乐网》还可以到《九天音乐网》永久免费听歌软件有酷狗音乐和天猫精灵,以前要跳舞经常要下载舞曲,我从QQ上找不到舞曲下载就从酷狗音乐上找,大多...

音乐格式转换mp3软件(音乐格式转换器免费版)

有两种方法:方法一在手机上操作:1、进入手机中的文件管理。2、在其中选择“音乐”,将显示出手机中的全部音乐。3、点击“全选”,选中所有音乐文件。4、点击屏幕右下方的省略号图标,在弹出菜单中选择“...

电子书txt下载(免费的最全的小说阅读器)

1.Z-library里面收录了近千万本电子书籍,需求量大。2.苦瓜书盘没有广告,不需要账号注册,使用起来非常简单,直接搜索预览下载即可。3.鸠摩搜书整体风格简洁清晰,书籍资源丰富。4.亚马逊图书书籍...

最好免费观看高清电影(播放免费的最好看的电影)

在目前的网上选择中,IMDb(互联网电影数据库)被认为是最全的电影网站之一。这个网站提供了各种类型的电影和电视节目的海量信息,包括剧情介绍、演员表、评价、评论等。其还提供了有关电影制作背后的详细信息,...

孤单枪手2简体中文版(孤单枪手2简体中文版官方下载)

要将《孤胆枪手2》游戏的征兵秘籍切换为中文,您可以按照以下步骤进行操作:首先,打开游戏设置选项,通常可以在游戏主菜单或游戏内部找到。然后,寻找语言选项或界面选项,点击进入。在语言选项中,选择中文作为游...

取消回复欢迎 发表评论: