苹果重磅论文竟然翻车了…网友喊“Cook 该裁员”了!
网友【硅谷故事】 2025-06-09 08:27:00 分享在【美国信息交流】版块    1    4

他们最近发布的一篇论文引发了AI 圈的集体吐槽,原因竟然是测试方法出了大问题

网友分享在meiguo.com上的图片

见前文:苹果宣判推理模型死刑!Google CEO:忘了AGI吧,先用好AJI

研究者Lisan al Gaib在复现苹果论文中的汉诺塔(Tower of Hanoi)测试后发现了一个惊人的事实:模型根本不是因为推理能力不行而失败,而是因为输出token限制!

网友分享在meiguo.com上的图片

要知道,汉诺塔问题需要至少2^N - 1步才能解决,而输出格式需要每步10个token外加一些固定内容。

这意味着什么?

对于Sonnet 3.7(128k输出限制)、DeepSeek R1(64K)和o3-mini(100k),当盘子数超过13个时,所有模型的准确率都会变成0——不是因为它们不会解,而是物理上就输出不了那么多内容

网友分享在meiguo.com上的图片

更讽刺的是,当问题规模变大时,模型们的反应非常人性化。它们会直接说:「由于移动次数太多,我将解释解决方法而不是列出所有32,767步」。

这就像让一个数学家在一张A4纸上写下一百万个数字,然后说他数学不行一样荒谬!

网友分享在meiguo.com上的图片

Lisan al Gaib还尝试了将问题分解成更小的块,每次只让模型执行5步。

结果呢?

使用Gemini 2.0 Flash测试后发现,分解反而让性能变得更差

网友分享在meiguo.com上的图片

模型在处理过程中会迷失在算法里,重复执行某些步骤。

虽然汉诺塔理论上是无状态的(每一步的最优移动只依赖当前状态),但模型需要历史记录才能知道自己执行到哪里了。

研究还发现了一个有趣的现象:在9-11个盘子时,token使用量会达到峰值

为什么?

因为这正是模型们开始说「我才不要写下2^n_disks - 1步」的临界点。

在此之前,模型们也不是在逐步推理。

对于5-6个盘子的小问题,还能看到一些推理过程。但超过这个规模后,它们基本就是:复述问题→复述算法→打印步骤。到了10-11个盘子,就开始拒绝输出所有步骤了。

最离谱的是苹果论文的结论

网友分享在meiguo.com上的图片

他们声称汉诺塔比其他测试更难,是因为训练数据的问题。但Lisan al Gaib指出:

这完全是胡说八道!

模型在思维链中明明白白地背诵了算法,有的甚至用代码形式展示出来。汉诺塔需要指数级的步骤(2^n),而其他游戏只需要二次方或线性的步骤,这并不意味着汉诺塔在推理上更困难。

不同游戏的单步难度是不一样的,不能简单地用步骤数来判断难度!

网友分享在meiguo.com上的图片

其他研究者也加入了吐槽大军。

Shin Megami Boson直言这篇论文「sucks ass」,他通过让模型使用工具,在苹果评为0%准确率的复杂度上达到了100%的准确率——

而且用的还是更弱的模型!

网友分享在meiguo.com上的图片

他的实验结果图「看起来像什么都没有」,因为就是一条100%准确率的直线

网友分享在meiguo.com上的图片

他总结道:「他们试图用锤子拧螺丝,然后写了篇论文说锤子在固定东西方面其实很有限。」

而最让我气愤加失望的是,苹果似乎在努力证明AI有问题,而不是去用AI 改进用户体验。

Pliny the Liberator(@elder_plinius)的吐槽一针见血:

在Siri能做到不止是第四次尝试才成功创建日历事件之前,我不会读任何来自库比蒂诺那个巨大陈腐甜甜圈的AI研究论文。

网友分享在meiguo.com上的图片

他接着说:

如果我是苹果CEO,看到我的团队发表一篇只专注于记录当前方法局限性的论文,我会当场解雇所有参与者。谁他妈在乎这个。去想办法突破它们!

Luci Dreams(@Luci_Drea)调侃道:

「我们没有好的AI,所以看看你们AI的缺陷,别玩得太开心了」

Chris Fry(@Chrispyfryz)质疑:

说真的,他们在那边到底在干什么

R(@rvm0n_)表示:

我无法理解他们怎么搞砸得这么厉害

网友分享在meiguo.com上的图片

Freedom_Aint_Free(@baianoise)的比喻更是精准:

这就像起亚的工程师写论文说丰田车无法在没有大修的情况下跑200万英里

Ben Childs(@Ben_Childs)幽默地说:

看,苹果确实有AI,而且很棒。他们只是在另一所高中上学。你不会认识她的。

SPUDNIK(@tuber_terminal)模仿Siri的语音识别错误:

「好的,所以你想让我在勺子日的六点火腿创建一个应用软膏?我应该创建它吗?」

苹果正在被Tim Cook「Cook」了——这些研究人员花时间证明AI有问题,而不是去改进用户体验。

网友分享在meiguo.com上的图片

你说,Cook 是不是该裁了这帮人?

出处:见配图右下角

meiguo.com 发布人签名/座右铭立足美国硅谷,分享有关创业的所有故事!
大家都在看
楼主新近贴
回复/评论列表
默认   热门   正序   倒序
meiguo.com 创始人

emotion

4   2025-06-09 08:27:00  回复

回复/评论:苹果重磅论文竟然翻车了…网友喊“Cook 该裁员”了!

暂无用户组 升级
退出
等级:0级
美果:
美过
精华推荐
  1. 川普政府的关税政策或将加速中国崛起,助力中国成为全球的经济主导力量!
  2. 判刑15年!发币ICO的定性为诈骗
  3. 嘴唇经常干裂起皮,或许并非缺水!
  4. 金星地壳似乎剧烈变化了,NASA即将启动新任务探索求证!
  5. 在美国,千万别做的这些事盘点!
  6. 川普家族“哈佛风波”和签证政策的突变
  7. 中美贸易战的谈判再起,稀土贸易成为焦点
  8. 中美通话的内容简短,但意味深长!
  9. 美国企业在强化回归办公室的工作要求
  10. 美国“非法移民家庭”遣返行动引发了“婴幼儿无国籍”的危机
  11. 中美两国元首针对当下双边关系和经贸合作,☎️通话交流!
  12. 手机充电习惯是影响电池寿命的根本原因
  13. 鲁比奥声称将会收紧中国留学生的签证审批政策
  14. 旅居海外十几年,母亲是心头之痛!
  15. 盖茨列出了10项改变世界的技术名单
  16. 属于中国的世纪可能已经到来
  17. 美国的州排名出炉,犹他州连续三年领先!
  18. 世界瞩目的电话,十个不寻常的细节剖析!
  19. 能熟练运用AI也不行?硅谷的40万人在近期被炒鱿鱼
  20. 互联网女皇“340页AI报告”猛料刷屏
  21. 任天堂的Switch 2正式发售,参数细节全曝光!
  22. 在美国生活半年,分享几句扎心实话!
  23. 川普总统:加拿大可以免费加入“金穹”导弹防御系统
  24. 美国联邦调查局警示:“新型医疗保险”骗局泛滥
  25. 美国物价到底贵不贵?近距离窥视一下佛罗里达州的中产家庭的日常消费
  26. 美国政府“管不着”加州?纽森州长说继续做中国生意!
  27. 出乎全世界意料,中美两国的“2025日内瓦谈判”太亲密了吧?
  28. 美国对华为“HarmonyOS”采取行动,引发科技领域的新争议!
  29. 美国暂停了学生签证预约,申请者在社交媒体平台的活动须谨慎!
  30. 马斯克的“130天政府生涯”终结后…
  31. 在美国生活半年,分享一下可能让人失望的真话!
  32. “蜗居”纽约的中国穷人:男女同住,毫无私隐… 却坚持不肯回国
  33. 美国房价仍然高位,“美国梦”成奢望!
  34. 英国2岁男童竟然刷新了门萨俱乐部“最年轻男性”会员纪录
  35. 全球AI人才的争夺战白热化,顶尖研究员成为了科技巨头争夺焦点
  36. 中美各自取消91%关税!为防🇺🇸川普政府反悔,🇨🇳重申关键问题!

美国动态 美果搜索

Your IP: 216.73.216.188, 2025-06-11 09:56:45

Processed in 0.09832 second(s)

头像

用户名:

粉丝数:

签名:

资料 关注 好友 消息