收藏文章 楼主
在谷歌“改变AI历史”的竟然是偶然之作?
网友【硅谷故事】 2025-02-14 00:49:33 分享在【时代发展的印记】版块    1    0

谷歌两位大佬回应一切:从PageRank到AGI的25年。

现任首席科学家Jeff Dean、出走又回归的Transformer作者Noam Shazeer,与知名播客主持人Dwarkesh Patel展开对谈。

视频刚发几个小时,就有20万+网友在线围观。

网友分享在meiguo.com上的图片

两人都是谷歌远古员工,经历了从MapReduce到Transformer、MoE,他们发明了很多改变整个互联网和AI的关键技术。

Noam Shazeer却谈到当初入职谷歌只是为了捞一笔就跑,没想到成了改变世界的那个人。

在两个多小时的谈话中,他们透露了AI算力的现状:

单个数据中心已经不够了,Gemini已经在跨多个大城市的数据中心异步训练。

也对当下最流行的技术趋势做了探讨:

推理算力Scaling还有很大空间,因为与AI对话比读书仍然便宜100倍

未来的模型架构会比MoE更灵活,允许不同的团队独立开发不同的部分

……

网友们也在边听边po发现的亮点:

比如在内存中存储一个巨大的MoE模型的设想。

网友分享在meiguo.com上的图片

以及“代码中的bug可能有时会对AI模型有正面影响”。

随着规模的扩大,某些bug正是让研究人员发现新突破的契机。

推理算力Scaling的未来

很多人觉得AI算力很贵,Jeff Dean不这么认为,他用读书和与AI讨论一本书来对比:

当今最先进的语言模型每次运算的成本约为10-18美元,这意味着一美元可以处理一百万个token。

相比之下,买一本平装书的成本大约相当于每1美元买1万个token(单词数换算成token)。

那么,与大模型对话就比读书便宜约100倍。

网友分享在meiguo.com上的图片

这种成本优势,为通过增加推理算力来提升AI的智能提供了空间。

从基础设施角度来看,推理时间计算的重要性增加可能会影响数据中心规划。

可能需要专门为推理任务定制硬件,就像谷歌初代TPU一样,它最初是为推理的目的设计,后来才被改造为也支持训练。

网友分享在meiguo.com上的图片

对推理的依赖增加可能意味着不同的数据中心不需要持续通信,可能导致更分布式、异步的计算。

在训练层面,Gemini 1.5已经开始使用多个大城市的计算资源,通过高速的网络连接将不同数据中心中的计算结果同步,成功实现了超大规模的训练。

对于大模型来说,训练每一步的时间可能是几秒钟,因此即使网络延迟有50毫秒,也不会对训练产生显著影响。

网友分享在meiguo.com上的图片

到了推理层面,还需要考虑任务是否对延迟敏感。如果用户在等待即时响应,系统需要针对低延迟性能进行优化。然而,也有一些非紧急的推理任务,比如运行复杂的上下文分析,可以承受更长的处理时间。

更灵活和高效的系统可能能够异步处理多个任务,在提高整体性能的同时最大限度地减少用户等待时间。

此外,算法效率的提升,如使用较小的草稿(Draft)模型,可以帮助缓解推理过程中的瓶颈。在这种方法中,较小的模型生成潜在的token,然后传递给较大的模型进行验证。这种并行化可以显著加快推理过程,减少一次一个token的限制。

网友分享在meiguo.com上的图片

Noam Shazeer补充,在进行异步训练时,每个模型副本会独立进行计算,并将梯度更新发送到中央系统进行异步套用。虽然这种方式会使得模型参数略有波动,理论上会有影响,但实践证明它是成功的。

相比之下,使用同步训练模式能提供更加稳定和可重复的结果,这是许多研究者更加青睐的模式。

在谈到如何保证训练的可重复性时,Jeff Dean提到一种方法是记录操作日志,尤其是梯度更新和数据批次的同步记录。通过回放这些操作日志,即使在异步训练的情况下,也能够确保结果的可重复性。这种方法可以让调试变得更加可控,避免因为环境中的其他因素导致结果不一致。

Bug也有好处

顺着这个话题,Noam Shazeer提出一个有意思的观点:

训练模型时可能会遇到各种各样的bug,但由于噪音的容忍度,模型可能会自我调整,从而产生未知的效果。

甚至有的bug会产生正面影响,随着规模的扩大,因为某些bug在实验中可能会表现出异常,让研究人员发现新的改进机会。

当被问及如何在实际工作中调试bug时,Noam Shazeer介绍他们通常会在小规模下进行大量实验,这样可以快速验证不同的假设。在小规模实验中,代码库保持简单,实验周期在一到两个小时而不是几周,研究人员可以快速获得反馈并做出调整。

Jeff Dean补充说,很多实验的初期结果可能并不理想,因此一些“看似不成功”的实验可能在后期仍然能够为研究提供重要的见解。

与此同时,研究人员面临着代码复杂性的问题:虽然不断叠加新的改进和创新是必要的,但代码的复杂性也会带来性能和维护上的挑战,需要在系统的整洁性和创新的推进之间找到平衡。

未来模型的有机结构

他们认为,AI模型正在经历从单一结构向模块化架构的重要转变。

如Gemini 1.5Pro等模型已经采用了专家混合(Mixture of Expert)架构,允许模型根据不同任务激活不同的组件。例如在处理数学问题时会激活擅长数学的部分,而在处理图像时则会激活专门处理图像的模块。

然而,目前的模型结构仍然较为僵化,各个专家模块大小相同,且缺乏足够的灵活性。

Jeff Dean提出了一个更具前瞻性的设想:未来的模型应该采用更有机的结构,允许不同的团队独立开发或改进模型的不同部分。

例如,一个专注于东南亚语言的团队可以专门改进该领域的模块,而另一个团队则可以专注于提升代码理解能力。

这种模块化方法不仅能提高开发效率,还能让全球各地的团队都能为模型的进步做出贡献。

在技术实现方面,模型可以通过蒸馏(Distillation)技术来不断优化各个模块。这个过程包括将大型高性能模块蒸馏为小型高效版本,然后在此基础上继续学习新知识。

路由器可以根据任务的复杂程度,选择调用合适规模的模块版本,从而在性能和效率之间取得平衡,这正是谷歌Pathway架构的初衷。

网友分享在meiguo.com上的图片

这种新型架构对基础设施提出了更高要求。它需要强大的TPU集群和充足的高带宽内存(HBM)支持。尽管每个调用可能只使用模型的一小部分参数,但整个系统仍需要将完整模型保持在内存中,以服务于并行的不同请求。

现在的模型能将一个任务分解成10个子任务并有80%的成功率,未来的模型能够将一个任务分解成100或1000个子任务,成功率达到90%甚至更高。

“Holy Shit时刻”:准确识别猫

回过头看,2007年对于大模型(LLMs)来说算得上一个重要时刻

当时谷歌使用2万亿个tokens训练了一个N-gram模型用于机器翻译。

但是,由于依赖磁盘存储N-gram数据,导致每次查询需大量磁盘I/O(如10万次搜索/单词),延迟非常高,翻译一个句子就要12小时。

于是后来他们想到了内存压缩、分布式架构以及批处理API优化等多种应对举措。

内存压缩:将N-gram数据完全加载到内存,避免磁盘I/O;

分布式架构:将数据分片存储到多台机器(如200台),实现并行查询;

批处理API优化:减少单次请求开销,提升吞吐量。

过程中,计算能力开始遵循摩尔定律在之后逐渐呈现爆发式增长。

从2008年末开始,多亏了摩尔定律,神经网络真正开始起作用了。

网友分享在meiguo.com上的图片

那么,有没有哪一个时刻属于“Holy shit”呢?(自己都不敢相信某项研究真的起作用了)

不出意外,Jeff谈到了在谷歌早期团队中,他们让模型从油管视频帧中自动学习高级特征(如识别猫、行人),通过分布式训练(2000台机器,16000核)实现了大规模无监督学习。

而在无监督预训练后,模型在监督任务(ImageNet)中性能提升了60%,证明了规模化训练无监督学习的潜力。

网友分享在meiguo.com上的图片

接下来,当被问及如今谷歌是否仍只是一家信息检索公司的问题,Jeff用了一大段话表达了一个观点:

AI履行了谷歌的原始任务

简单说,AI不仅能检索信息,还能理解和生成复杂内容,而且未来想象力空间巨大。

至于谷歌未来去向何方,“我不知道”。

不过可以期待一下,未来将谷歌和一些开源源代码整合到每个开发者的上下文中。

换句话说,通过让模型处理更多tokens,在搜索中搜索,来进一步增强模型能力和实用性。

当然,这一想法已经在谷歌内部开始了实验。

实际上,我们已经在内部代码库上为内部开发人员进行了关于Gemini模型的进一步培训。

网友分享在meiguo.com上的图片

更确切的说法是,谷歌内部已经达成25%代码由AI完成的目标。

在谷歌最快乐的时光

有意思的是,这二位还在对话中透露了更多与谷歌相关的有趣经历

对1999年的Noam来说,本来没打算去谷歌这样的大公司,因为凭直觉认为去了也可能无用武之地,但后来当他看到谷歌制作的每日搜索量指数图表后,立马转变了想法:

这些人一定会成功,看起来他们还有很多好问题需要解决

于是带着自己的“小心思”就去了(主动投了简历):

挣一笔钱,然后另外开开心心去搞自己感兴趣的AI研究网友分享在meiguo.com上的图片

而加入谷歌后,他就此结识了导师Jeff(新员工都会有一个导师),后来两人在多个项目中有过合作。

谈到这里,Jeff也插播了一条他对谷歌的认同点:

喜欢谷歌对RM愿景(响应式和多模态,Responsive and Multimodal)的广泛授权,即使是一个方向,也能做很多小项目。

而这也同样为Noam提供了自由空间,以至于当初打算“干一票就跑”的人长期留了下来。

网友分享在meiguo.com上的图片

与此同时,当话题转向当事人Jeff时,他的一篇关于平行反向传播的本科论文也被再次提及。

这篇论文只有8页,却成为1990年的最优等本科论文,被明尼苏达大学图书馆保存至今。

其中,Jeff探讨了两种基于反向传播来平行训练神经网络的方法。

模式分割法(pattern-partitioned approach):

将整个神经网络表示在每一个处理器上,把各种输入模式划分到可用的处理器上;

网络分割法(network-partitioned approach)

流水线法(pipelined approach):

将神经网络的神经元分布到可用的处理器上,所有处理器构成一个相互通信的环。然后,特征通过这个pipeline传递的过程中,由每个处理器上的神经元来处理。

他还构建了不同大小的神经网络,用几种不同的输入数据,对这两种方法进行了测试。

结果表明,对于模式分割法,网络大、输入模式多的情况下加速效果比较好。

当然最值得关注的还是,我们能从这篇论文中看到1990年的“大”神经网络是什么样:

3层、每层分别10、21、10个神经元的神经网络,就算很大了。网友分享在meiguo.com上的图片

论文地址:https://drive.google.com/file/d/1I1fs4sczbCaACzA9XwxR3DiuXVtqmejL/view

Jeff还回忆道,自己测试用的处理器,最多达到了32个。

(这时的他应该还想不到,12年后他会和吴恩达、Quoc Le等人一起,用16000个CPU核心,从海量数据中找出猫。)

不过Jeff坦言,如果要让这些研究成果真正发挥作用,“我们需要大约100万倍的计算能力”

后来,他们又谈到了AI的潜在风险,尤其是当AI变得极其强大时可能出现的反馈循环问题。

换句话说,AI通过编写代码或改进自身算法,可能进入不可控的加速改进循环(即“智能爆炸”)。

这将导致AI迅速超越人类控制,甚至产生恶意版本。就像主持人打的比方,有100万个像Jeff这样的顶尖程序员,最终变成“100万个邪恶的Jeff”。

(网友):新的噩梦解锁了哈哈哈!

网友分享在meiguo.com上的图片

最后,谈及在谷歌最快乐的时光,二人也分别陷入回忆。

对Jeff来说,在谷歌早期四五年的日子里,最快乐的莫过于见证谷歌搜索流量的爆炸式增长。

建造一个如今20亿人都在使用的东西,这非常不可思议。

至于最近,则很开心和Gemini团队构建一些,即使在5年前人们都不敢相信的东西,并且可以预见模型的影响力还将扩大。

网友分享在meiguo.com上的图片

而Noam也表达了类似经历和使命,甚至喜滋滋cue到了谷歌的“微型厨房区域”。

据介绍,这是一个大约有50张桌子的特别空间,提供咖啡小吃,人们可以在这里自由自在闲聊,碰撞想法。

网友分享在meiguo.com上的图片

一说到这个,连Jeff也手舞足蹈了(doge):

Okk,以上为两位大佬分享的主要内容。

参考链接:
[1] https://x.com/JeffDean/status/1889780178983031035[2]https://x.com/dwarkesh_sp/status/1889770108949577768

撰文:梦晨、一水

出处:头条号 @量子位

meiguo.com 发布人签名/座右铭立足美国硅谷,分享有关创业的所有故事!
大家都在看
楼主新近贴
回复/评论列表
默认   热门   正序   倒序
meiguo.com 创始人

emotion

0   2025-02-14 00:49:33  回复

回复/评论:在谷歌“改变AI历史”的竟然是偶然之作?

暂无用户组 升级
退出
等级:0级
美果:
美过
精华推荐
  1. 川普总统正式接任,成为美国第47任总统
  2. 为何大火一直“不放过”洛杉矶?
  3. 23岁中国女留学生在南加州的住所内遇害,曾控诉白人男友“性虐待”!
  4. 川普总统公开称赞中方领导人,认可中美可以友好相处!
  5. 川普总统在开工首日就向1300万非法移民动手了
  6. 滞留美国的华裔非法移民“遭遇流放”,首批119人已起飞!
  7. 胃癌发病率和筷子🥢有关系?
  8. 在美国生活,这四证缺一不可!
  9. 在美国买房的省税攻略“十个妙招”
  10. 《纽约时报》刊登的中国父子文章:为何送儿子留学美国
  11. “TikTok难民”如何玩转中国社交网络?一夜间“小红书”刷屏全美
  12. 以色列和哈马斯终于同意停火
  13. 周受资 ~ 真正强大的CEO
  14. 美国首都机场为何全美风险最高?川普总统“怒喷航管弱智”
  15. 警告川普和马斯克的?美军特种兵策划了Cybertruck爆炸案
  16. 川普总统首次公开回应“TRUMP”数字货币项目
  17. 赴美生子的中国人在纠结剖不剖?美国人在寻思“移民鹤岗”呢!
  18. 中国企业在2025 CES“疯狂圈粉儿”
  19. 川普总统在接任首日或将推上百项行政命令
  20. 福布斯曝光了Deepseek 梁文锋的净资产
  21. 谷歌地图和苹果地图已经都修改了美国湾(墨西哥湾)
  22. TikTok在美国全面恢复了
  23. 金牌讲师在洛杉矶的生存之道
  24. 美军再次增建两艘新航母
  25. 川普政府的“朝令夕改”最短纪录再次刷新
  26. 美国最高法院“无视了”川普的延期请求?TikTok在下周关闭了!
  27. “复活版”TikTok“拿捏了”美国人的软肋?
  28. 在美国买房,看Open House时需要注意的问题汇总
  29. 赵本山在纽约:前排票价1400美元,团队聚餐画面曝光!
  30. 遭遇“断粮”的BBC叛变了?
  31. DOGE让1.4万公务员失业?马斯克已经做好最坏心理准备!
  32. 中国电影市场的2025春节档 ~ 简直就是神仙打架
  33. 大S【徐熙媛】病逝,享年48岁!
  34. 全美境内,非法移民“驱逐战”打响了!
  35. 罪犯也能当总统?美国的底线呢?
  36. 美签面签后的全面复盘:审核原因和拒签因素剖析

美国动态 美果转盘 美果商店

Your IP: 3.22.241.222, 2025-02-21 03:29:47

Processed in 0.60252 second(s)

头像

用户名:

粉丝数:

签名:

资料 关注 好友 消息
已有0次打赏
(0) 分享
分享
取消