苹果重磅论文竟然翻车了…网友喊“Cook 该裁员”了!
网友【硅谷故事】 2025-06-09 08:27:00 分享在【美国信息交流】版块    1    6

他们最近发布的一篇论文引发了AI 圈的集体吐槽,原因竟然是测试方法出了大问题

网友分享在meiguo.com上的图片

见前文:苹果宣判推理模型死刑!Google CEO:忘了AGI吧,先用好AJI

研究者Lisan al Gaib在复现苹果论文中的汉诺塔(Tower of Hanoi)测试后发现了一个惊人的事实:模型根本不是因为推理能力不行而失败,而是因为输出token限制!

网友分享在meiguo.com上的图片

要知道,汉诺塔问题需要至少2^N - 1步才能解决,而输出格式需要每步10个token外加一些固定内容。

这意味着什么?

对于Sonnet 3.7(128k输出限制)、DeepSeek R1(64K)和o3-mini(100k),当盘子数超过13个时,所有模型的准确率都会变成0——不是因为它们不会解,而是物理上就输出不了那么多内容

网友分享在meiguo.com上的图片

更讽刺的是,当问题规模变大时,模型们的反应非常人性化。它们会直接说:「由于移动次数太多,我将解释解决方法而不是列出所有32,767步」。

这就像让一个数学家在一张A4纸上写下一百万个数字,然后说他数学不行一样荒谬!

网友分享在meiguo.com上的图片

Lisan al Gaib还尝试了将问题分解成更小的块,每次只让模型执行5步。

结果呢?

使用Gemini 2.0 Flash测试后发现,分解反而让性能变得更差

网友分享在meiguo.com上的图片

模型在处理过程中会迷失在算法里,重复执行某些步骤。

虽然汉诺塔理论上是无状态的(每一步的最优移动只依赖当前状态),但模型需要历史记录才能知道自己执行到哪里了。

研究还发现了一个有趣的现象:在9-11个盘子时,token使用量会达到峰值

为什么?

因为这正是模型们开始说「我才不要写下2^n_disks - 1步」的临界点。

在此之前,模型们也不是在逐步推理。

对于5-6个盘子的小问题,还能看到一些推理过程。但超过这个规模后,它们基本就是:复述问题→复述算法→打印步骤。到了10-11个盘子,就开始拒绝输出所有步骤了。

最离谱的是苹果论文的结论

网友分享在meiguo.com上的图片

他们声称汉诺塔比其他测试更难,是因为训练数据的问题。但Lisan al Gaib指出:

这完全是胡说八道!

模型在思维链中明明白白地背诵了算法,有的甚至用代码形式展示出来。汉诺塔需要指数级的步骤(2^n),而其他游戏只需要二次方或线性的步骤,这并不意味着汉诺塔在推理上更困难。

不同游戏的单步难度是不一样的,不能简单地用步骤数来判断难度!

网友分享在meiguo.com上的图片

其他研究者也加入了吐槽大军。

Shin Megami Boson直言这篇论文「sucks ass」,他通过让模型使用工具,在苹果评为0%准确率的复杂度上达到了100%的准确率——

而且用的还是更弱的模型!

网友分享在meiguo.com上的图片

他的实验结果图「看起来像什么都没有」,因为就是一条100%准确率的直线

网友分享在meiguo.com上的图片

他总结道:「他们试图用锤子拧螺丝,然后写了篇论文说锤子在固定东西方面其实很有限。」

而最让我气愤加失望的是,苹果似乎在努力证明AI有问题,而不是去用AI 改进用户体验。

Pliny the Liberator(@elder_plinius)的吐槽一针见血:

在Siri能做到不止是第四次尝试才成功创建日历事件之前,我不会读任何来自库比蒂诺那个巨大陈腐甜甜圈的AI研究论文。

网友分享在meiguo.com上的图片

他接着说:

如果我是苹果CEO,看到我的团队发表一篇只专注于记录当前方法局限性的论文,我会当场解雇所有参与者。谁他妈在乎这个。去想办法突破它们!

Luci Dreams(@Luci_Drea)调侃道:

「我们没有好的AI,所以看看你们AI的缺陷,别玩得太开心了」

Chris Fry(@Chrispyfryz)质疑:

说真的,他们在那边到底在干什么

R(@rvm0n_)表示:

我无法理解他们怎么搞砸得这么厉害

网友分享在meiguo.com上的图片

Freedom_Aint_Free(@baianoise)的比喻更是精准:

这就像起亚的工程师写论文说丰田车无法在没有大修的情况下跑200万英里

Ben Childs(@Ben_Childs)幽默地说:

看,苹果确实有AI,而且很棒。他们只是在另一所高中上学。你不会认识她的。

SPUDNIK(@tuber_terminal)模仿Siri的语音识别错误:

「好的,所以你想让我在勺子日的六点火腿创建一个应用软膏?我应该创建它吗?」

苹果正在被Tim Cook「Cook」了——这些研究人员花时间证明AI有问题,而不是去改进用户体验。

网友分享在meiguo.com上的图片

你说,Cook 是不是该裁了这帮人?

出处:见配图右下角

meiguo.com 发布人签名/座右铭立足美国硅谷,分享有关创业的所有故事!
大家都在看
楼主新近贴
回复/评论列表
默认   热门   正序   倒序
meiguo.com 创始人

emotion

6   2025-06-09 08:27:00  回复

回复/评论:苹果重磅论文竟然翻车了…网友喊“Cook 该裁员”了!

暂无用户组 升级
退出
等级:0级
美果:
美过
精华推荐
  1. 川普政府计划改革移民签证制度和入籍考试
  2. 美国移民新机遇:紧缺人才的绿卡通道“无需排期”
  3. 中美经贸谈判重启,瑞典磋商和商界代表团访华“双管齐下”
  4. 广西防城港“奔驰女司机事件”引发全网热议
  5. 中国政府在构筑战略资源防线,重拳打击稀土走私!
  6. 难怪马斯克公开认错… 川普总统的相关杀器可以更多?
  7. 川普总统签署了“对等关税令” 引发全球震荡
  8. 麻省理工学院发布AI学习平台“MIT Learn”
  9. 中美连谈5小时,川普总统公开感叹“中国太强硬”… 英伟达在加紧扩大芯片出口量
  10. 英伟达的市值突破了四万亿美元,创人类历史纪录!
  11. 突然“失去住持”的少林寺情况如何了?
  12. “外星来客”以每小时21.6万公里的速度向地球飞来
  13. 川普政府在力推药价改革和数字医疗系统
  14. “全球最强护照”排行榜又更新了(2025版)
  15. 蔡文胜的2025大动作之五,香港投资版图在持续扩张!
  16. 川普总统批评支持者,马斯克激烈回应!
  17. 核聚变技术或将成为黄金价格的颠覆者
  18. 健身网红在飞机上的着装引争议
  19. 美国新法案“大漂亮”引发了全球资本配置大调整
  20. 萝莉岛是美国的政治中心?马斯克并非不懂政治,而是太懂了!
  21. 川普总统“访华表态”继续反复
  22. 美国再次宣布退出联合国教科文组织
  23. 移民并非背叛,是一种勇敢的人生轨迹选择!
  24. 川普政府打算“发钱啦”
  25. 宗庆后家族的多处海外房产曝光,价值数亿元!
  26. 中国🇨🇳开始质疑英伟达芯片“存后门”
  27. 美国国会通过了减税法案,马斯克和川普总统再次激烈交锋!
  28. 川普总统宣布“金卡计划”网站开放
  29. 川普总统声称希望中国“增加美油采购”
  30. 遥控器电池,被幼儿误吞… 欧系保险公司赔付了近1.4亿元人民币!
  31. 孩子沉迷手机的真相和破局之道
  32. 在美国可以感受欧洲风情的五座小镇
  33. 马斯克打算组建新党“美国党”代表中间派
  34. 川普政府的对华政策突然改变了?
  35. 苹果投资了6000亿美元,加速“美国制造”计划!
  36. 比尔盖茨的财富突然蒸发了510亿美元,真相却令人肃然起敬!

美国动态 美果搜索

Your IP: 216.73.216.171, 2025-08-15 10:57:38

Processed in 4.63126 second(s)

头像

用户名:

粉丝数:

签名:

资料 关注 好友 消息
已有0次打赏
(6) 分享
分享
取消