苹果重磅论文竟然翻车了…网友喊“Cook 该裁员”了!
网友【硅谷故事】 2025-06-09 08:27:00 分享在【美国信息交流】版块    1    4

他们最近发布的一篇论文引发了AI 圈的集体吐槽,原因竟然是测试方法出了大问题

网友分享在meiguo.com上的图片

见前文:苹果宣判推理模型死刑!Google CEO:忘了AGI吧,先用好AJI

研究者Lisan al Gaib在复现苹果论文中的汉诺塔(Tower of Hanoi)测试后发现了一个惊人的事实:模型根本不是因为推理能力不行而失败,而是因为输出token限制!

网友分享在meiguo.com上的图片

要知道,汉诺塔问题需要至少2^N - 1步才能解决,而输出格式需要每步10个token外加一些固定内容。

这意味着什么?

对于Sonnet 3.7(128k输出限制)、DeepSeek R1(64K)和o3-mini(100k),当盘子数超过13个时,所有模型的准确率都会变成0——不是因为它们不会解,而是物理上就输出不了那么多内容

网友分享在meiguo.com上的图片

更讽刺的是,当问题规模变大时,模型们的反应非常人性化。它们会直接说:「由于移动次数太多,我将解释解决方法而不是列出所有32,767步」。

这就像让一个数学家在一张A4纸上写下一百万个数字,然后说他数学不行一样荒谬!

网友分享在meiguo.com上的图片

Lisan al Gaib还尝试了将问题分解成更小的块,每次只让模型执行5步。

结果呢?

使用Gemini 2.0 Flash测试后发现,分解反而让性能变得更差

网友分享在meiguo.com上的图片

模型在处理过程中会迷失在算法里,重复执行某些步骤。

虽然汉诺塔理论上是无状态的(每一步的最优移动只依赖当前状态),但模型需要历史记录才能知道自己执行到哪里了。

研究还发现了一个有趣的现象:在9-11个盘子时,token使用量会达到峰值

为什么?

因为这正是模型们开始说「我才不要写下2^n_disks - 1步」的临界点。

在此之前,模型们也不是在逐步推理。

对于5-6个盘子的小问题,还能看到一些推理过程。但超过这个规模后,它们基本就是:复述问题→复述算法→打印步骤。到了10-11个盘子,就开始拒绝输出所有步骤了。

最离谱的是苹果论文的结论

网友分享在meiguo.com上的图片

他们声称汉诺塔比其他测试更难,是因为训练数据的问题。但Lisan al Gaib指出:

这完全是胡说八道!

模型在思维链中明明白白地背诵了算法,有的甚至用代码形式展示出来。汉诺塔需要指数级的步骤(2^n),而其他游戏只需要二次方或线性的步骤,这并不意味着汉诺塔在推理上更困难。

不同游戏的单步难度是不一样的,不能简单地用步骤数来判断难度!

网友分享在meiguo.com上的图片

其他研究者也加入了吐槽大军。

Shin Megami Boson直言这篇论文「sucks ass」,他通过让模型使用工具,在苹果评为0%准确率的复杂度上达到了100%的准确率——

而且用的还是更弱的模型!

网友分享在meiguo.com上的图片

他的实验结果图「看起来像什么都没有」,因为就是一条100%准确率的直线

网友分享在meiguo.com上的图片

他总结道:「他们试图用锤子拧螺丝,然后写了篇论文说锤子在固定东西方面其实很有限。」

而最让我气愤加失望的是,苹果似乎在努力证明AI有问题,而不是去用AI 改进用户体验。

Pliny the Liberator(@elder_plinius)的吐槽一针见血:

在Siri能做到不止是第四次尝试才成功创建日历事件之前,我不会读任何来自库比蒂诺那个巨大陈腐甜甜圈的AI研究论文。

网友分享在meiguo.com上的图片

他接着说:

如果我是苹果CEO,看到我的团队发表一篇只专注于记录当前方法局限性的论文,我会当场解雇所有参与者。谁他妈在乎这个。去想办法突破它们!

Luci Dreams(@Luci_Drea)调侃道:

「我们没有好的AI,所以看看你们AI的缺陷,别玩得太开心了」

Chris Fry(@Chrispyfryz)质疑:

说真的,他们在那边到底在干什么

R(@rvm0n_)表示:

我无法理解他们怎么搞砸得这么厉害

网友分享在meiguo.com上的图片

Freedom_Aint_Free(@baianoise)的比喻更是精准:

这就像起亚的工程师写论文说丰田车无法在没有大修的情况下跑200万英里

Ben Childs(@Ben_Childs)幽默地说:

看,苹果确实有AI,而且很棒。他们只是在另一所高中上学。你不会认识她的。

SPUDNIK(@tuber_terminal)模仿Siri的语音识别错误:

「好的,所以你想让我在勺子日的六点火腿创建一个应用软膏?我应该创建它吗?」

苹果正在被Tim Cook「Cook」了——这些研究人员花时间证明AI有问题,而不是去改进用户体验。

网友分享在meiguo.com上的图片

你说,Cook 是不是该裁了这帮人?

出处:见配图右下角

meiguo.com 发布人签名/座右铭立足美国硅谷,分享有关创业的所有故事!
大家都在看
楼主新近贴
回复/评论列表
默认   热门   正序   倒序
meiguo.com 创始人

emotion

4   2025-06-09 08:27:00  回复

回复/评论:苹果重磅论文竟然翻车了…网友喊“Cook 该裁员”了!

暂无用户组 升级
退出
等级:0级
美果:
美过
精华推荐
  1. 美国联邦调查局警示:“新型医疗保险”骗局泛滥
  2. 金星地壳似乎剧烈变化了,NASA即将启动新任务探索求证!
  3. 鲁比奥声称将会收紧中国留学生的签证审批政策
  4. 在美国,千万别做的这些事盘点!
  5. 手机充电习惯是影响电池寿命的根本原因
  6. 川普政府的关税政策或将加速中国崛起,助力中国成为全球的经济主导力量!
  7. 全球AI人才的争夺战白热化,顶尖研究员成为了科技巨头争夺焦点
  8. 中美通话的内容简短,但意味深长!
  9. 旅居海外十几年,母亲是心头之痛!
  10. 美国对华为“HarmonyOS”采取行动,引发科技领域的新争议!
  11. 任天堂的Switch 2正式发售,参数细节全曝光!
  12. 互联网女皇“340页AI报告”猛料刷屏
  13. 美国政府“管不着”加州?纽森州长说继续做中国生意!
  14. 属于中国的世纪可能已经到来
  15. 美国暂停了学生签证预约,申请者在社交媒体平台的活动须谨慎!
  16. 美国的州排名出炉,犹他州连续三年领先!
  17. 出乎全世界意料,中美两国的“2025日内瓦谈判”太亲密了吧?
  18. 川普家族“哈佛风波”和签证政策的突变
  19. 马斯克的“130天政府生涯”终结后…
  20. 在美国生活半年,分享几句扎心实话!
  21. 川普总统:加拿大可以免费加入“金穹”导弹防御系统
  22. 美国房价仍然高位,“美国梦”成奢望!
  23. 盖茨列出了10项改变世界的技术名单
  24. 英国2岁男童竟然刷新了门萨俱乐部“最年轻男性”会员纪录
  25. 美国“非法移民家庭”遣返行动引发了“婴幼儿无国籍”的危机
  26. “蜗居”纽约的中国穷人:男女同住,毫无私隐… 却坚持不肯回国
  27. 中美贸易战的谈判再起,稀土贸易成为焦点
  28. 判刑15年!发币ICO的定性为诈骗
  29. 在美国生活半年,分享一下可能让人失望的真话!
  30. 中美各自取消91%关税!为防🇺🇸川普政府反悔,🇨🇳重申关键问题!
  31. 美国企业在强化回归办公室的工作要求
  32. 川普和马斯克的公开交锋升级了
  33. 能熟练运用AI也不行?硅谷的40万人在近期被炒鱿鱼
  34. 嘴唇经常干裂起皮,或许并非缺水!
  35. 世界瞩目的电话,十个不寻常的细节剖析!
  36. 中美两国元首针对当下双边关系和经贸合作,☎️通话交流!

美国动态 美果搜索

Your IP: 216.73.216.119, 2025-06-12 18:27:56

Processed in 0.04401 second(s)

头像

用户名:

粉丝数:

签名:

资料 关注 好友 消息