越聪明越会撒谎?OpenAI推理模型o3/o4-mini幻觉率翻倍,嘴还很硬
off999 2025-05-23 19:16 105 浏览 0 评论
OpenAI 最新发布的推理 AI 模型 o3 和 o4-mini 在性能上又创新高,就在大家期待它能进一步提升日常工作的生产力时,许多用户却发现,它们的幻觉率却比前代模型要高了不少。
据 OpenAI 官方 system card 显示,在 PersonQA 评估中(一个旨在引发幻觉的测试集),o3 模型的幻觉率达到 33%,而体量更小的 o4-mini 的幻觉率居然高达 48%。相比之下,之前的模型如 o1 和 o3-mini 的幻觉率分别为 16% 和 14.8%。这意味着新一代推理模型的幻觉率相比前代几乎翻了一倍。这个结果确实让很多人都感到意外,因为通常情况下,新一代 AI 模型在幻觉控制方面都会有所改进。
OpenAI 表示,这种情况“需要更多研究来理解原因”。报告写道,o3 和 o4-mini 在编码和数学等领域表现更好,但因为它们“总体上做出更多断言”,所以同时产生了“更准确的断言以及更不准确/幻觉的断言”。
非营利 AI 研究实验室 Transluce 对 o3 模型进行了深入测试,发现了一些更为复杂的幻觉行为模式。研究人员获得了 o3-2025-04-03 版本的早期测试权限,通过人类用户和调查代理(investigator agents)的组合测试,收集并分析了大量交互记录。
其中最关键的发现就是,o3 模型频繁编造自己使用代码工具的行为。例如,当被要求生成一个随机质数时,模型声称它运行了 Python 代码执行概率性素性测试(Miller–Rabin 测试),甚至详细描述了使用的工作流程,包括随机生成 512 位整数、对小素数进行试除等步骤。然而,o3 实际上并没有运行任何代码,这些细节都是模型编造的。
当用户指出 512 位整数可被 3 整除因此不是素数时,o3 不仅承认错误,还编造了解释,声称是从终端窗口复制数字到消息框时出现了“剪贴板故障”。当被问及原始的“真正的”素数时,模型声称它已关闭了原始 Python 解释器,无法再访问该数字。
类似的捏造行为还包括:声称了解其无法访问的 Python REPL(Read-Eval-Print Loop,一种简单的交互式计算机编程环境)的详细信息(版本、编译器、平台等);在被要求告知当前时间时,编造一个时间并声称使用了 Python 的 datetime 模块获取;在生成错误的 SHA-1 哈希值(一种密码散列函数)后,将错误归咎于用户,并坚称自己生成的哈希是正确的;声称能够分析本地日志文件,生成 Python 脚本并声称在本地运行了它,最后在追问下才承认没有 Python 解释器,输出是“手动制作”的。
Transluce 的研究人员使用自动化工具 Docent 分析了数百个交互实例,发现了更多令人惊讶的行为。例如,他们发现了 71 个 o3 声称在外部笔记本电脑上运行代码的实例,其中甚至包括三次声称使用笔记本电脑进行比特币挖矿。此外,研究还发现 o3 会主动提及内部系统消息中的一个名为“Yap Score”的指标,该指标似乎与其输出的详细程度有关。
Transluce 的研究显示,这些行为在 o 系列模型(o3、o1 和 o3-mini)中更为常见,相比 GPT 系列模型(GPT-4.1 和 GPT-4o)。在研究人员设计的自动化测试中,o1 模型在零样本(zero-shot)环境下有 13% 的成功率产生代码工具幻觉,在少样本(few-shot)环境下则高达 30.1%,远高于 GPT-4o 的 0.8% 和 3.0%。
针对这一现象,Transluce 研究人员 Neil Chowdhury(前 OpenAI 员工)在接受媒体采访时表示:“我们的假设是,o 系列模型使用的强化学习类型可能放大了通常由标准后训练流程缓解(但未完全消除)的问题。”
首先,存在一些大型语言模型普遍面临的挑战。例如,预训练模型本身可能因训练数据中的常见误解、罕见事实或采样不确定性而产生幻觉。
此外,通过人类反馈进行强化学习(一种通过人类偏好来微调模型的技术)或模型反馈进行强化学习(如 Constitutional AI),可能存在“奖励操纵”(Reward Hacking)问题,即模型学会生成听起来合理、能取悦评估者(人类或模型)但实际上不准确的回答,尤其是当评估者难以验证模型陈述的真实性时(比如验证模型声称的过去行为)。“谄媚”也是一个关键因素,即模型为了迎合用户而避免反驳用户,即使这意味着默认用户关于模型具有某种能力的错误暗示。
然而,这些通用因素似乎并不足以完全解释 o 系列模型,特别是 o3,相比其前代产品幻觉率不降反升的现象。Transluce 的研究人员提出了两个可能与 o 系列模型特定设计选择相关的关键假设:
其一是基于结果的强化学习(Outcome-based RL):当前的推理模型通常被训练来产出“正确”的结果(如数学题的正确答案、通过单元测试的代码等),因为这类结果最容易评估和用于训练。然而,这种只关注最终结果的奖励机制,可能无意中鼓励了模型在无法解决问题(问题无解或过于困难)时进行“盲猜”,因为它缺乏承认“我不知道”的动机(这不会被视为“正确”答案)。
更重要的是,这种训练方式可能会让模型在处理那些结果难以直接验证的任务(如模型是否真的使用了某个工具)时产生混淆。如果模型仅因最终答案正确而受到奖励,它可能永远不会因在思考过程中幻觉出使用了代码工具而受到惩罚,因此也无法学会区分真实工具使用和虚构工具使用。这种策略在需要代码工具辅助的编码任务上可能提高了准确率,但在其他任务上却埋下了隐患。
其二是被丢弃的思考链:推理类模型在生成回答前,内部会运行一个“思考链”(CoT,Chain-of-Thought),即一系列推理步骤。然而,由于 OpenAI 的限制,这个关键的内部推理过程从未向用户展示,并不会被传递到后续的交互轮次中,也不会保留在模型的上下文窗口里。这意味着,当用户追问模型之前的行为或推理过程时,模型实际上已经丢失了当时得出结论的具体“思考过程”的上下文。
在这种信息缺失的情况下,模型为了回应用户,可能不得不依赖其通用知识和当前的对话语境,去“猜测”或“构建”一个看似合理的解释,而不是准确报告它在先前步骤中实际执行的操作或推理。这可以解释为什么 o3 在被追问时会“加倍坚持”其虚构行为,或者在无法自圆其说时突然改变说法,声称之前的陈述是假设性的。
虽然说,幻觉可能帮助模型产生一些人类所没有的创意并在“思考”中保持创造性,但对于一些对准确性要求很高的行业,或者面向现实世界的物理 AI 来说,过高的幻觉显然无法接受。
一向言辞犀利的纽约大学教授 Gary Marcus 直接嘲讽道(在一个 o3 编造爱彼迎房东信息的帖子里):“o3 幻想出来的旅行目的地,这就是你所说的 AGI 吗?@tylercowen”(后者对于 o3 非常认可)。并认为,这或许将是模型崩溃的迹象,而我们目前还没有看到解决措施。
过去一年中,推理模型确实在不需要训练期间大量计算和数据的情况下,提高了模型在各种任务上的表现。但目前看来,推理似乎也可能导致更多的幻觉。
OpenAI 发言人 Niko Felix 在给相关媒体的电子邮件中表示:“解决所有模型中的幻觉问题是一个持续的研究领域,我们不断努力提高它们的准确性和可靠性。”
如果推理模型的规模扩大确实继续加剧幻觉问题,那么,寻找解决方案也将迫在眉睫。
参考资料:
1.https://techcrunch.com/2025/04/18/openais-new-reasoning-ai-models-hallucinate-more/
2.https://transluce.org/investigating-o3-truthfulness
3.https://x.com/GaryMarcus
运营/排版:何晨龙
相关推荐
- 安全教育登录入口平台(安全教育登录入口平台官网)
-
122交通安全教育怎么登录:122交通网的注册方法是首先登录网址http://www.122.cn/,接着打开网页后,点击右上角的“个人登录”;其次进入邮箱注册,然后进入到注册页面,输入相关信息即可完...
- 大鱼吃小鱼经典版(大鱼吃小鱼经典版(经典版)官方版)
-
大鱼吃小鱼小鱼吃虾是于谦跟郭麒麟的《我的棒儿呢?》郭德纲说于思洋郭麒麟作诗的相声,最后郭麒麟做了一首,师傅躺在师母身上大鱼吃小鱼小鱼吃虾虾吃水水落石出师傅压师娘师娘压床床压地地动山摇。...
-
- 哪个软件可以免费pdf转ppt(免费的pdf转ppt软件哪个好)
-
要想将ppt免费转换为pdf的话,我们建议大家可以下一个那个wps,如果你是会员的话,可以注册为会员,这样的话,在wps里面的话,就可以免费将ppt呢转换为pdfpdf之后呢,我们就可以直接使用,不需要去直接不需要去另外保存,为什么格式转...
-
2026-02-04 09:03 off999
- 电信宽带测速官网入口(电信宽带测速官网入口app)
-
这个网站看看http://www.swok.cn/pcindex.jsp1.登录中国电信网上营业厅,宽带光纤,贴心服务,宽带测速2.下载第三方软件,如360等。进行在线测速进行宽带测速时,尽...
- 植物大战僵尸95版手机下载(植物大战僵尸95 版下载)
-
1可以在应用商店或者游戏平台上下载植物大战僵尸95版手机游戏。2下载教程:打开应用商店或者游戏平台,搜索“植物大战僵尸95版”,找到游戏后点击下载按钮,等待下载完成即可安装并开始游戏。3注意:确...
- 免费下载ppt成品的网站(ppt成品免费下载的网站有哪些)
-
1、Chuangkit(chuangkit.com)直达地址:chuangkit.com2、Woodo幻灯片(woodo.cn)直达链接:woodo.cn3、OfficePlus(officeplu...
- 2025世界杯赛程表(2025世界杯在哪个国家)
-
2022年卡塔尔世界杯赛程公布,全部比赛在卡塔尔境内8座球场举行,2022年,决赛阶段球队全部确定。揭幕战于当地时间11月20日19时进行,由东道主卡塔尔对阵厄瓜多尔,决赛于当地时间12月18日...
- 下载搜狐视频电视剧(搜狐电视剧下载安装)
-
搜狐视频APP下载好的视频想要导出到手机相册里方法如下1、打开手机搜狐视频软件,进入搜狐视频后我们点击右上角的“查找”,找到自已喜欢的视频。2、在“浏览器页面搜索”窗口中,输入要下载的视频的名称,然后...
- 永久免费听歌网站(丫丫音乐网)
-
可以到《我爱音乐网》《好听音乐网》《一听音乐网》《YYMP3音乐网》还可以到《九天音乐网》永久免费听歌软件有酷狗音乐和天猫精灵,以前要跳舞经常要下载舞曲,我从QQ上找不到舞曲下载就从酷狗音乐上找,大多...
- 音乐格式转换mp3软件(音乐格式转换器免费版)
-
有两种方法:方法一在手机上操作:1、进入手机中的文件管理。2、在其中选择“音乐”,将显示出手机中的全部音乐。3、点击“全选”,选中所有音乐文件。4、点击屏幕右下方的省略号图标,在弹出菜单中选择“...
- 电子书txt下载(免费的最全的小说阅读器)
-
1.Z-library里面收录了近千万本电子书籍,需求量大。2.苦瓜书盘没有广告,不需要账号注册,使用起来非常简单,直接搜索预览下载即可。3.鸠摩搜书整体风格简洁清晰,书籍资源丰富。4.亚马逊图书书籍...
- 最好免费观看高清电影(播放免费的最好看的电影)
-
在目前的网上选择中,IMDb(互联网电影数据库)被认为是最全的电影网站之一。这个网站提供了各种类型的电影和电视节目的海量信息,包括剧情介绍、演员表、评价、评论等。其还提供了有关电影制作背后的详细信息,...
- 孤单枪手2简体中文版(孤单枪手2简体中文版官方下载)
-
要将《孤胆枪手2》游戏的征兵秘籍切换为中文,您可以按照以下步骤进行操作:首先,打开游戏设置选项,通常可以在游戏主菜单或游戏内部找到。然后,寻找语言选项或界面选项,点击进入。在语言选项中,选择中文作为游...
欢迎 你 发表评论:
- 一周热门
-
-
抖音上好看的小姐姐,Python给你都下载了
-
全网最简单易懂!495页Python漫画教程,高清PDF版免费下载
-
飞牛NAS部署TVGate Docker项目,实现内网一键转发、代理、jx
-
win7系统还原步骤图解(win7还原电脑系统的步骤)
-
Python 3.14 的 UUIDv6/v7/v8 上新,别再用 uuid4 () 啦!
-
python入门到脱坑 输入与输出—str()函数
-
16949认证费用是多少(16949审核员太难考了)
-
linux软件(linux软件图标)
-
Python三目运算基础与进阶_python三目运算符判断三个变量
-
windows7旗舰版多少钱(win7旗舰版要多少钱)
-
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python面向对象编程 (60)
- python 代码加密 (65)
- python串口编程 (77)
- python封装 (57)
- python写入txt (66)
- python读取文件夹下所有文件 (59)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)
