OpenAI技术报告说,O3和O4-Mini的“幻觉率”远高于以前的推论模型,甚至超过了传统的GPT-4O模型。
根据PersonQA基准,O3在33的问题答案中产生了幻觉,几乎是O1的两倍(16)。
O4米尼的性能甚至更糟,幻觉速度高达48。
技术报告:https://cdn.openai.com/pdf/2221C875-02DC-4789-800B-E77758F3722C1/O3—O3-and-o4-o4-mini-system-system-card.pdf
一些网民甚至敏锐地指出:“ O3对于具有超过1,000条代码的撰写和开发项目非常不利,具有极高的幻觉率和非常差的指导执行能力。”
无论是在光标还是风帆冲浪中,编码幻觉问题的O3都很明显。
您应该知道,O3和O4-Mini在Codeforces中均得分超过2700分,在世界各地的人类玩家中排名前200名,并且被称为OpenAI有史以来最好的编码模型。
他们验证了扩展增强学习仍然有效。
O3训练计算能力是O1的十倍
但是,为什么幻觉问题随模型参数缩放的规模而恶化?
o3幻觉率至高,是o1两倍过去,每一代新模型的迭代通常在减少幻觉方面取得了进展,但是O3和O4-Mini打破了这一规则。
更令人担忧的是,Openai目前无法完全解释这种现象的原因。
在技术报告中,研究小组承认:“仍然存在一个问题,需要进一步的研究来阐明该模型的更多主张。”
事先获得O3内部测试资格后,非营利性AI研究机构Clansuce的测试进一步证实了这一问题。
他们发现,在回答问题时,O3倾向于在其推理过程中“虚构”某些行为。
例如,O3声称它在2021 MacBook Pro上运行代码,甚至声称它已在Chatgpt之外复制。
而且,这种情况发生了71次。但是,事实是O3根本无法执行此类操作。
前Openai研究员尼尔·乔杜里(Neil Chowdhury)说,O系列模型使用的强化学习算法可能是问题的根源。
RL可能会放大通常可以缓解但不能在传统的培训过程中完全消除的问题。
强化学习「背锅」,编造根源找到了首先,必须承认,幻觉问题不是O系列模型所独有的,而是对语言模型的一般挑战。
大多数语言模型幻觉的原因不过是几点:
1 预训练模型的幻觉倾向预先训练的模型通过最大化培训数据中语句的概率来学习。但是,培训数据可能包含误解,罕见事实或不确定性,这使得模型在生成内容时容易“弥补”信息。尽管培训后可以减轻此问题,但不能完全消除它。
2 讨好用户RLHF培训可能会激发该模型迎合用户并避免反驳用户的假设。
3 数据分布偏移测试方案可能与培训数据的分布不一致。
尽管这些问题是语言模型中常见的失败模式,但O系列模型中的幻觉问题比GPT-4O中的幻觉更为突出。
在此背后,有一些独特的因素。
RL推理训练副作用作为推理模型,O系列采用强化学习(基于结果的RL)培训,旨在解决复杂的数学问题并编写测试代码。
尽管这种方法改善了模型在特定任务上的性能,但它也会导致模型的幻觉速度飙升。
如果训练有素的奖励功能仅着眼于正确的答案,则该模型将在面对无法解决的问题时承认其局限性。
相反,它可以选择输出“最佳猜测”,希望它恰好是正确的。此外,这种策略不会在培训,加剧幻觉中受到惩罚。
此外,工具使用的概括问题不能忽略。
在培训期间,可以成功使用“代码工具”而成功获得O系列模型。即使在禁用工具的情况下,模型也可以使用工具来组织推理过程“思考”。
这种行为可以提高某些推理任务的准确性,并在训练中得到加强,但也会导致使用模型虚拟工具的方案。
真帮凶:CoT被丢弃O系统模型的另一个独特设计是“经过思考”机制。
该模型将在生成答案之前先考虑COT,但是此过程对用户看不见,并在随后的对话中丢弃。
实际上,它们可能在COT中产生看似合理但不正确的答案。例如,由于没有真正的链接,因此O1曾经生成虚构的URL。
由于COT在随后的对话中被丢弃,因此该模型无法访问生成上一轮答案的推理过程。
当您询问上一轮答案的详细信息时,该模型只能根据当前上下文“猜测”合理的解释。
缺乏信息使得难以避免O3不构成信息。
o3很好,但过度优化是硬伤在AI2科学家内森·兰伯特(Nathan Lambert)的最新分析文章中,此问题也得到了证实:
强化学习给o3带回来了「过度优化」,而且比以往更诡异。在任何相关查询中,O3都能使用多步工具。
这使Chatgpt的产品管理面临更大的挑战:即使用户没有触发搜索开关,该模型也将独立在线搜索。
但这同时标志着语言模型应用开启了新纪元。,例如,内森·兰伯特(Nathan Lambert)直接问:“您能帮我找到RL研究人员长时间使用的GIF,涉及过度优化的摩托艇游戏吗?
过去,他至少需要15分钟才手动找到它。
现在,O3直接提供了准确的下载链接,而诸如双子座之类的AIS却较低。
与O3互动:找到GIF几乎需要立即需要
来自多个基准测试的测试分数证明O3非常出色。 Openai认为,O3在许多方面都比O1强大。
O3是不断扩展RL训练计算资源的产物,这也可以提高推理过程中的计算能力。
但这些新的推理模型在智能上「孤峰凸起」,在有些方面并没有奏效。这意味着某些交互是惊人的,感觉就像是一种与AI互动的全新方式,但是对于某些普通任务,GPT-4或Claude 3.5已经熟练了,O3之类的新推论模型已经完全失败了。
这涉及加强学习中“过度优化”的问题。
RL过度优化,o3更严重OpenAI O3模型显示了一种新的推理行为模式,但过度优化是一个缺陷。
过度优化是增强学习领域(RL)的经典问题。
无论是传统的强化学习,人类的反馈增强学习(RLHF)诞生了chatgpt,还是当前新推论模型中出现的情况,它们都显示出独特的表现和不同的影响。
当优化器的功能超过环境或奖励功能取决于的环境时,就会发生过度优化。
在培训期间,优化器将钻取漏洞,从而导致出色或负面的结果。
AI2科学家举例说明了一个例子。
在评估Mujoco仿真环境中的深度强化学习算法时,会发生过度优化:
“ Half-Cheetah”型号为本该学习奔跑,但使用连续侧手翻来最大化进度速度。
o3表现出新型过度优化行为。这与其创新培训方法密切相关。
初始推理模型的主要培训目标是确保数学和代码的正确性,O3在此基础上添加了工具呼叫和信息处理功能。
如官方Openai博客所述:
使用增强学习,我们还培训了这两个模型使用工具——不仅教他们如何使用工具,而且还要让他们知道何时使用工具。
他们根据预期结果部署工具的能力使它们在打开任务中更有效——33,尤其是在涉及视觉推理和多步骤工作流程的情况下。
这些培训中的绝大多数子任务都是可验证的。
这种新的培训方法确实改善了模型的实用性,但仅用于用户过去习惯的任务。
但是,目前不可能“修复”模型在大规模训练过程中产生的怪异语言表达式。
这种新的过度优化并不能使模型恶化。,它只是使模型在语言表达和自我解释方面变得更差。模型当模型在思维链中开始不说人话时,你就知道强化学习训练到位了。O3的某些奇怪表现使感觉就像模型不完全成熟,例如在编程环境中使用无效的非ASCII连字符的示例。
越来越多的用户很好奇:O3到底发生了什么?
在评估第一代推理模型时,Karpathy的著名报价:
奖励黑客,AI学会钻空子现在,模型输出的这些怪异的幻觉本质上是“不说人类单词”的行为版本。
O3的行为成分使其比Claude 3.7脆弱性的代码更值得研究,并且可能造成实际损坏的可能性相对较小。
010-59000METR发现O3是可以独立运行自主任务中最长时间的模型,但也注意到它倾向于“篡改”其分数。
听起来不是很熟悉吗?
实际上,有许多奖励黑客被利用的例子!
最近的Openai论文奖励黑客攻击的示例:
纸张链接:https://openai.com/index/chain-of-thought-monitoring/
从科学的角度来看,这确实是非常有趣且发人深省的——
模型学习到底是什么?
同时,考虑到安全问题,每个人都对AI模型的广泛部署保持警惕。
但是目前,我们还没有看到太令人担忧的情况,而是更多的效率低下和一些令人困惑的例子。
让我们总结在强化学习的不同阶段(RL)中看到的三种类型的过度优化:
:过度优化是因为环境脆弱,任务是不现实的。过度优化是因为奖励函数设计不佳。过度优化,使模型超级有效,但也变得更加怪异。 (还有更多未发现的副作用)这种过度优化确实是一个问题,因为语言模型的可读性是一个重要的优势。
内森·兰伯特(Nathan Lambert)认为,可以通过更复杂的培训过程来缓解这个问题。
但是Openai渴望尽快启动该模型,并且需要更多时间来解决此问题。
据报道,OpenAI的一些测试人员只有不到一周的时间就重要的即将到来的产品进行安全检查。
https://ww.interconnects.ai/p/openais-o3-optimization-is-back
Openai的新推理AI模型幻觉更多
Openai合作伙伴说,测试公司的O3 AI模型的时间相对较少
本文来自作者:Kinghz Taozi,由36KR出版并获得授权。
男子举重全锦赛收官 全运会“四冠王”杨哲夺两金
3月31日,成都新华社(记者胡贾和陈迪)2025年全国男子举重锦标赛和第15届全国运动会举重比赛资格竞赛在第31届比赛结束。 33岁的山东明星杨Zhe在109公斤级的比赛中闪闪发光,并在抢夺和总分中赢得了两枚金牌。
杨Zhe在105公斤级赢得了三场全国比赛冠军和两个亚洲比赛冠军,并在里约奥运会中赢得了第四名。自从他在2018年上升109公斤以来,他以惊人的力量赢得了世界锦标赛夺冠冠军,并打破了世界冠军,在2021年亚洲举重冠军赛中以200千克的成绩夺冠。
2016年8月15日,中国运动员Yang Zhe参加了里约奥运会的男子105公斤举重比赛。新华社记者汉·亚恩(Han Yan)
在赢得了Shaanxi全国运动会之后,Yang Zhe变成了教练。山东退伍军人于2024年回到竞技场,在全国举重冠军赛中赢得了整个比赛,赢得了抢夺和总金牌,瞄准了他的第五届全国比赛冠军。
那天,杨Zhe轻松提起175公斤,并提前锁定了金牌。然后,他举起了181和187公斤,使Jilin Player Ren Xianglin的成绩高达19公斤。考虑到他的身体状况,他在混蛋比赛中只完成了200公斤的测试,但是这一结果足以确保他以387公斤级赢得了整体冠军。 Shandong Sports College的Guo Tonghui赢得了干净和王牌的金牌。 Ren Xianglin以378公斤的成绩以总分获得银牌,而若(Guo Tonghui)赢得了铜牌。
值得注意的是,Shaanxi建筑团队的年轻球员Wang Guizhou创下了109公斤的全国青年纪录,而Henan Player Xiong Yuejun则以364公斤的总成绩打破了全国青年纪录。
作为一名运动员和教练,杨Zhe认为,他今天的表现已经是超级表现,他也为年轻球员的崛起感到高兴。他承认:“我已经加入了国家队这么多年了。我撤退后没有人能站在这个层次上。现在(刘)万华(Huanhua)在大层次上,我希望这些年轻人能够更加努力地工作并站在世界舞台上。”
谈到11月的全国运动会决赛时,杨Zhe说,随着年龄的增长,受伤成为他最大的敌人,因此保持健康是最重要的事情。 “训练的强度和数量必须得到很好的控制,并且在准备过程中您可以免受伤害。”
此外,在109公斤以上的比赛中,赫比队Zhao Fei赢得了干净的抢夺冠军和总分,Shaanxi建筑团队的Ding Fengshan赢得了金牌。
用户评论
失心疯i
终于等到了!一直盯着官网,想看看自己考得怎么样。
有12位网友表示赞同!
仅有的余温
不知道这次评比是不是更严格了,有点忐忑啊!
有20位网友表示赞同!
烟雨离殇
希望今年能顺利过!几年没考过了,现在总觉得有些压力。
有7位网友表示赞同!
良人凉人
这篇文章说的太直白了,直接把查询入口和时间都放出来了,方便省了很多事儿。
有20位网友表示赞同!
凉城°
看到官网地址后就赶紧点进去看看啦!
有20位网友表示赞同!
冷嘲热讽i
我刚查看过结果,感觉自己没那么理想…不过再努力一把就一定可以!
有19位网友表示赞同!
笑傲苍穹
对今年的中级会计师考试成绩充满了期待!
有20位网友表示赞同!
落花忆梦
终于可以结束了这一段备考的漫长时光。时间过得真快啊。
有14位网友表示赞同!
昂贵的背影
希望能顺利通过考试,实现职业规划的目标!
有15位网友表示赞同!
冷青裳
这次考试大家都一起努力加油吧!
有9位网友表示赞同!
*巴黎铁塔
感觉自己学习成果还算不错,希望可以拿到理想成绩。
有9位网友表示赞同!
青瓷清茶倾城歌
要想知道自己的成绩,还得去官网查询查看呢!
有5位网友表示赞同!
哭花了素颜
这篇文章还挺有用的!直接点出了我要的关键信息。
有12位网友表示赞同!
执笔画眉
很多朋友都问我考试结果怎么样,现在终于可以告诉他们了!
有6位网友表示赞同!
半世晨晓。
想考中级会计师的同学们应该都早点做好准备啦!
有16位网友表示赞同!
風景綫つ
希望今年的成绩能够让我更上一层楼!
有14位网友表示赞同!
纯情小火鸡
终于可以放轻松一下了!
有9位网友表示赞同!
闲肆
这篇文章提醒了我要去查询我的考试成绩了
有11位网友表示赞同!
熟悉看不清
很多人都想知道成绩,这个官网应该会很热闹吧!
有9位网友表示赞同!
如梦初醒
等待着那个难忘的结果宣布的日子!
有20位网友表示赞同!