苹果重磅论文竟然翻车了…网友喊“Cook 该裁员”了!
网友【硅谷故事】 2025-06-09 08:27:00 分享在【美国信息交流】版块    1    6

他们最近发布的一篇论文引发了AI 圈的集体吐槽,原因竟然是测试方法出了大问题

网友分享在meiguo.com上的图片

见前文:苹果宣判推理模型死刑!Google CEO:忘了AGI吧,先用好AJI

研究者Lisan al Gaib在复现苹果论文中的汉诺塔(Tower of Hanoi)测试后发现了一个惊人的事实:模型根本不是因为推理能力不行而失败,而是因为输出token限制!

网友分享在meiguo.com上的图片

要知道,汉诺塔问题需要至少2^N - 1步才能解决,而输出格式需要每步10个token外加一些固定内容。

这意味着什么?

对于Sonnet 3.7(128k输出限制)、DeepSeek R1(64K)和o3-mini(100k),当盘子数超过13个时,所有模型的准确率都会变成0——不是因为它们不会解,而是物理上就输出不了那么多内容

网友分享在meiguo.com上的图片

更讽刺的是,当问题规模变大时,模型们的反应非常人性化。它们会直接说:「由于移动次数太多,我将解释解决方法而不是列出所有32,767步」。

这就像让一个数学家在一张A4纸上写下一百万个数字,然后说他数学不行一样荒谬!

网友分享在meiguo.com上的图片

Lisan al Gaib还尝试了将问题分解成更小的块,每次只让模型执行5步。

结果呢?

使用Gemini 2.0 Flash测试后发现,分解反而让性能变得更差

网友分享在meiguo.com上的图片

模型在处理过程中会迷失在算法里,重复执行某些步骤。

虽然汉诺塔理论上是无状态的(每一步的最优移动只依赖当前状态),但模型需要历史记录才能知道自己执行到哪里了。

研究还发现了一个有趣的现象:在9-11个盘子时,token使用量会达到峰值

为什么?

因为这正是模型们开始说「我才不要写下2^n_disks - 1步」的临界点。

在此之前,模型们也不是在逐步推理。

对于5-6个盘子的小问题,还能看到一些推理过程。但超过这个规模后,它们基本就是:复述问题→复述算法→打印步骤。到了10-11个盘子,就开始拒绝输出所有步骤了。

最离谱的是苹果论文的结论

网友分享在meiguo.com上的图片

他们声称汉诺塔比其他测试更难,是因为训练数据的问题。但Lisan al Gaib指出:

这完全是胡说八道!

模型在思维链中明明白白地背诵了算法,有的甚至用代码形式展示出来。汉诺塔需要指数级的步骤(2^n),而其他游戏只需要二次方或线性的步骤,这并不意味着汉诺塔在推理上更困难。

不同游戏的单步难度是不一样的,不能简单地用步骤数来判断难度!

网友分享在meiguo.com上的图片

其他研究者也加入了吐槽大军。

Shin Megami Boson直言这篇论文「sucks ass」,他通过让模型使用工具,在苹果评为0%准确率的复杂度上达到了100%的准确率——

而且用的还是更弱的模型!

网友分享在meiguo.com上的图片

他的实验结果图「看起来像什么都没有」,因为就是一条100%准确率的直线

网友分享在meiguo.com上的图片

他总结道:「他们试图用锤子拧螺丝,然后写了篇论文说锤子在固定东西方面其实很有限。」

而最让我气愤加失望的是,苹果似乎在努力证明AI有问题,而不是去用AI 改进用户体验。

Pliny the Liberator(@elder_plinius)的吐槽一针见血:

在Siri能做到不止是第四次尝试才成功创建日历事件之前,我不会读任何来自库比蒂诺那个巨大陈腐甜甜圈的AI研究论文。

网友分享在meiguo.com上的图片

他接着说:

如果我是苹果CEO,看到我的团队发表一篇只专注于记录当前方法局限性的论文,我会当场解雇所有参与者。谁他妈在乎这个。去想办法突破它们!

Luci Dreams(@Luci_Drea)调侃道:

「我们没有好的AI,所以看看你们AI的缺陷,别玩得太开心了」

Chris Fry(@Chrispyfryz)质疑:

说真的,他们在那边到底在干什么

R(@rvm0n_)表示:

我无法理解他们怎么搞砸得这么厉害

网友分享在meiguo.com上的图片

Freedom_Aint_Free(@baianoise)的比喻更是精准:

这就像起亚的工程师写论文说丰田车无法在没有大修的情况下跑200万英里

Ben Childs(@Ben_Childs)幽默地说:

看,苹果确实有AI,而且很棒。他们只是在另一所高中上学。你不会认识她的。

SPUDNIK(@tuber_terminal)模仿Siri的语音识别错误:

「好的,所以你想让我在勺子日的六点火腿创建一个应用软膏?我应该创建它吗?」

苹果正在被Tim Cook「Cook」了——这些研究人员花时间证明AI有问题,而不是去改进用户体验。

网友分享在meiguo.com上的图片

你说,Cook 是不是该裁了这帮人?

出处:见配图右下角

meiguo.com 发布人签名/座右铭立足美国硅谷,分享有关创业的所有故事!
大家都在看
楼主新近贴
回复/评论列表
默认   热门   正序   倒序
meiguo.com 创始人

emotion

6   2025-06-09 08:27:00  回复

回复/评论:苹果重磅论文竟然翻车了…网友喊“Cook 该裁员”了!

暂无用户组 升级
退出
等级:0级
美果:
美过
精华推荐
  1. 中美AI竞争的新格局已定?
  2. 美国移民局(ICE)新提案打算限制福利使用,有记录者可能影响绿卡申请!
  3. 外国人的入境中国手续简化,可以提前在网上填报入境卡了!
  4. 美国“H-1B”签证新规:在境内的申请人,免缴10万美元费用!
  5. 中美经贸磋商“展现战略对称”新态势
  6. 中美稀土博弈,美国政策在急转直下!
  7. 联邦政府启动“红色日落行动” 审查比特币矿机的供应链
  8. 2026年版的“公共负担”新规复活,华人家庭遭遇精准打击!
  9. 人类史上“最贵CEO”诞生!马斯克的“万亿薪酬”背后
  10. 川普总统正式签属涉台法案,解放军示警!
  11. 黄仁勋警示川普政府,再不开放“对华AI芯片出口”就来不及啦!
  12. 中国已经全额缴纳了联合国会费,联合国的财政危机缓解!
  13. 学习英语12年后,终于实现了“美国梦”!
  14. 川普政府终于听说了日本新首相【高市早苗】因为台海表态引发外交危机的事儿了?
  15. 700万人参与了反川普集会?
  16. 美国青少年“67”流行语的现象引关注
  17. 美国在AI竞争中失利了?阿里千问模型在全球领先
  18. 一美分硬币“Penny”铸造历史正式终结
  19. 中美高层通话后… 川普总统计划明年访华,芯片管制也松口了!
  20. 五角大楼的机密报告:中国导弹可以击沉美军航母
  21. 美国仍然依赖纸质信件的真相剖析
  22. 在海外漂泊12年后的真实感受
  23. 英伟达H200芯片的对华销售仍然在受美国的两重限制
  24. 全球高等教育的新趋势:留学生求学地“多元化”
  25. 恢复或加入?重获中国国籍的路径比较
  26. 美国的房地产市场显现了矛盾信号
  27. AWS最大区域故障,带崩多项服务!
  28. 45岁后“人生黄金期”是认知和创造力的新高峰
  29. ICE启动了在社交媒体的全天候监控项目
  30. 美国司法部起诉了柬埔寨“电信诈骗集团”的头目
  31. 感恩节餐桌的费用回落,零售商推出了低价套餐!
  32. SpaceX在加速IPO计划,目标估值1.5万亿美元!
  33. 川普政府再次出奇招!拒绝所有胖子的移民申请?
  34. 中美两国元首在釜山会晤:就关税、大豆和稀土已经达成共识
  35. 美国政府批准了对台3.3亿美元的军售
  36. MIT稳居了CS榜首!美国大学的最新排名出炉
头像

用户名:

粉丝数:

签名:

资料 关注 好友 消息
已有0次打赏
(6) 分享
分享
取消