谷歌创始人的最新访谈，揭秘了Gemini突然强大的原因？ – 时代发展的印记

谷歌创始人的最新访谈，揭秘了Gemini突然强大的原因？

网友【美果波特】 2025-05-25 05:42:00 分享在【时代发展的印记】版块 1 18

网友分享在meiguo.com上的图片

近日，谷歌创始人谢尔盖·布林接受了知名播客主理人洛根的访谈。对话探讨了谷歌 I/O 大会上的最新动态，以及谷歌 AI 开发的整体现状。布林说，这一系列发布非常精彩，甚至有一些令他感到意外的元素，例如谷歌搜索中的虚拟试穿功能，反响热烈。但仍有大量工作要做，才能顺利实现所有已宣布的功能。

布林表示，纵观人工智能发展的更广阔轨迹，看到当前的进展与几年前对奇点的理性推理截然不同，人工智能的发展方式令人惊讶：

1、语言模型已成为人工智能发展的主要驱动力，这在 15 年前并不明显，尤其是考虑到 DeepMind 过去专注于物理基础。

2、思维模型的惊人可解释性，可以洞察其推理过程，从安全角度来看具有显著的积极意义。

从架构上看，布林发现不同的模型非常相似，甚至看似不同的模型，例如视频传播模型训练过程正在不断发展。后训练阶段（微调、强化学习工作）在整体工作中所占的比例越来越大，此阶段添加了工具使用等功能，使模型更加强大。

关于推理扩展，特别是深度思考计划。布林说，谷歌的愿景是让模型能够思考更长时间（数小时、数天甚至数月），从而对复杂问题给出更好的答案，这与克服实现长上下文输入的挑战相比，谷歌一直在努力实现这一点。从短期任务的训练模型推广，到期望它们在几天内开发出新的东西，是一个正在克服的重大差距。人工智能时刻凸显了评估问题的普遍难度，无论对于人类还是人工智能而言。

最后，布林还反思了谷歌的地位和创新步伐。他认为，企业必须定期进行自我改造，尽管充满挑战，但谷歌凭借其在大规模数据、谷歌大脑和 Transformer 方面的经验，已经为人工智能转型做好了充分准备。他对目前看到的加速发展感到乐观，并解释了谷歌大模型从跟随到领跑的原因。他特提到，与 2024 年的赶超相比，2025 年已经取得了显著进展。Gemini 2.5 Pro是一次明显的飞跃，在大多数排行榜上仍然位居第一。最近推出的Gemini 2.5 Flash也被认为是一款速度超快、性能强大的模型，在许多排行榜上排名第二。

网友分享在meiguo.com上的图片

以下是访谈原文：

主持人：大家好，感谢你们的加入。我们有一个 I/O 特别节目。谢尔盖·布林，我们正在谈论有关谷歌的一切。感谢你抽出时间来聊天。

谢尔盖·布林：谢谢你洛根。而且，你和我一直在聊天空间和各种产品中，但在现实生活中一起出去玩也很愉快。

主持人：是的。我在加州的经历总是非常有趣，昨天和今天我花了很多时间在一起，当你与每个人面对面相处时，你会感受到人工智能进步的温暖和人性。所以这真的非常有趣。但是我们坐在 I/O 这里，我认为全世界的普遍情绪以及内部团队的情绪，对于 Google 来说都是无比伟大的一天。我们所有产品的模型都取得了巨大的进步。你的看法是什么？你的反应是什么？显然，我们还有很多事情要做，但是你的心思在哪儿？

谢尔·盖布林：是的，我认为这绝对是一系列非凡的发布。说实话，我可能甚至不知道其中的 30% 左右。时间有限，而且我对 Gemini 了解很深，我甚至不知道虚拟适配，例如，谷歌搜索中的产品。我没有意识到我们正在上线那个。有很多事情让我感到惊讶。

我认为反响非常好。不过还有很多事情，我认为人们需要花一些时间来探索和理解。显然我们现在正忙着交付所有发布的内容。这需要很大的精力，只是确保事情实际上能够顺利进行，人们能够注册，并享受所有这些新功能等等。我觉得 I/O 对许多其他人来说是大量工作的开始。对于一些团队来说，这就像是终点线，而对于其他一些队伍来说，这就像是起跑线。

Gemini 的核心文本模型

主持人：我们推出了更多Gemini发布，你如何看待你的重点，就像深度思维团队的重点一样，例如 VO 和Imagen。谷歌有一整套生成媒体模型，刚刚宣布了音乐模型，你怎么判断你是从事生成媒体方面的工作，还是主要关注 Gemini？

谢尔盖·布林：我主要关注 Gemini，即核心文本模型。主要因为我认为这将帮助我们更好地编码和开发人工智能背后的科学。这是我最关注的重点。同时，生成媒体也非常令人惊叹，感觉像是超人。

使用文本模型，有一些数学问题，无论我如何，我可能能够解决它，但它出错了或者类似的事情，或者偶然发现一段代码，虽然这种情况越来越少，实际上我现在依靠 Gemini 来做一些编码数学等等。但无论如何，它还是在人类的范围内。鉴于我的艺术天赋，我根本不可能创作出图像或视频。我的意思是，如果我是一名专家，比如摄像师、3D 渲染师或特效师，那么我可以想象这需要做大量的工作。这必须要经过一个月的艰苦工作，才能得到我几分钟内就能得到的东西。显然它在视觉上非常引人注目，它会吸引你。你无法逃脱。

Gemini 和 Veo 3 中的原生音频

主持人：带有 VO 的音频片段，让我感觉像我以前一样，我个人认为生成视频很棒，但对我来说总是有点花哨，我想当我昨天在舞台上看到 V3 中的音频时，我认为那一刻对我来说就像是制作的，好吧，实际上很多人都能够这样做，因为实际上从历史上看，你可以生成视频，但你必须去，比如音频来自哪里，你怎么同步所有内容？现在你可以让人类喜欢说话和进行对话，而且它做得很好，这真是让我大吃一惊。

谢尔盖·布林：是的，你说得对。我一直是它的忠实粉丝。我个人觉得我是一个很注重视觉效果的人。我并不是一个非常热衷于音频的人，但是这些年来，特别是像谷歌眼镜这样的产品，我的意思是，当我们添加一些声音时，这意味着它为声音增添了如此丰富的内容，添加音频比添加3D 效果更好。

如果你玩过这个大型可穿戴设备的话，你会发现一些 3D 的东西很酷。但无论如何，当你让音频工作时，这只是一个令人难以置信的感知变化，我知道我看到了模型训练过去一个月或两个月，我刚刚从一个地方到它到另一个地方，这只会感觉不同。

主持人：是的，看看这些功能如何融合将会很有趣，因为它看起来确实与Gemini 有很多相似之处，比如Gemini 模型，显然我们在 I/O 和 VO 的Gemini 模型中都实现了原生音频支持，我今天早上与 Tulsi 进行了交谈，就像这些类似的突破一样，它们有什么不同？从技术角度来看，这听起来实际上在技术上非常不同，但很酷的是，我们有其他轨道来进行这项创新，理想情况下，所有这些都以某种方式回溯到 Gemini。

谢尔盖·布林：是的。我认为我们花了很长时间才在 Gemini 中发布原生音频。它已经在那里一年了。基础模型中不允许有经过至少一年训练的音频。我总是觉得，只是有太多的事情要做。像原生音频输入、原生音频输出，已经存在很久了，但是要通过所有这些让它真正运行良好，我认为需要很长时间。但是，它终于出来了。我不认为这是可行的，正如你所说，VO的做法是一样的，我相信，音频也是通过 Diffusion 来实现的，就像视频一样。

事实上，如果你在训练过程中观察，你实际上可以看到它生成的视频。就像进入百分之几，它是这样的，形状不太正确，文字有点像战争之类的东西，但后来它成形并发展，直到在运行结束时你就得到了你今天所看到的东西。我很确定那是基于 Diffusion 的音频， Diffusion 是一种非常强大的技术。正如你所知，我们发送了文本 Diffusion，进行早期小规模的测试运行。我认为这是我很感激的事情之一，我们拥有一批机器学习研究人员，可以同时在不同的模式下探索不同的基础技术。

网友分享在meiguo.com上的图片

模型训练运行的见解

主持人：是的，到目前为止，Gemini Diffusion 的结果看起来非常有希望。我希望模型能够取得进展，并且一切能够完全发挥作用，因为演示是有效的。我们在镜头外交谈，演示看起来真的很棒。所以希望它的能力能够很好地转化，并且从这个角度来看一切都能正常运作，但是你之前提到过，就像观看训练运行一样。我实际上还没有看到它是什么样子。那么观看训练跑究竟意味着什么呢？

谢尔盖·布林：也许你已经看到了我们的文本模型，但是，我们能够测试中间检查点，在 10% 的训练、20% 的训练等等。模型在那些时间点上很弱，但你可以通过它来了解轨迹。所以，通常特别是如果你有一个大的训练运行，你会使用很多计算并且你对它寄予厚望，你会通过各种方式在整个运行过程中多次测试它。所以你会对它的流行趋势有相当好的了解。这对于文本模型来说是正确的，这对于融合VO 的视频模型来说是正确的。所有这些模型都有这些中间结果，你可以看一下。如果你真的深入其中，你肯定会检查它们，因为你对它到底会产生什么感到紧张和兴奋。

当前 AI 发展与过去预期的对比

主持人：我当时正在听 Sundar （谷歌CEO）和Dave Freeberg 的对话，Sunnar评论说，甚至 15 年前，你和 Larry （谷歌另一位创始人拉里·佩奇）以及他就在谈论，就像谷歌的团队也在谈论这个面向未来的人工智能时刻会是什么样子？这与你们10 或 15 年前谈论的内容非常相似。我很好奇，此刻最让你惊讶的事情是什么？如果你想看看搜索或技术，我们可以将其应用于产品，或者看看什么是令人惊讶的，什么是几乎如你所料会发生的？

谢尔盖·布林：是的。你我认为从智力的角度来看，你可以通过奇点来推理。著名的雷·库兹韦尔（Ray Kurzweil）就做过这样的事，但那是几十年前的事了。我不记得他说的是哪一天，那是2037 年，我不记得了。他根据自己的推断确定了一些日期。今天看来也许有点保守，我不知道，但是你可以通过理智来推理它。我认为看到它的发生是完全不同的。我认为当你谈论15 年前的事情时，我不会说你是在开玩笑。你真的在谈论它，但你有点像想象科幻的未来，但它几乎就像一个游戏，就像你只是与其他对此感兴趣的人聊天。我觉得这很有趣。但是正如我所说的，看到它真正开始发生，感觉非常不同。

当然，事情发生的方式相当令人惊讶。我可以给你举个例子。语言模型似乎就是人工智能现在的发展方式。我认为15 年前你不一定知道这一点。事实上，DeepMind在过去，甚至现在，已经在这种物理基础上投入了大量的精力，拥有一个物理世界作为基础是很重要的，而且我们显然正在做这方面的实验。但这些语言模型已经发展到这个程度的事实并不明显。而且有一个有趣的副作用，特别是对于思维模型而言，它们也具有令人惊讶的可解释性。就像你可以看透这些思维模型之一的想法以及它是如何得出结论的。如果没有大量的工具，你就不可能检查模型的权重并尝试从中推断出一些东西。但是你可以理解，它的很多推理都是用非常容易理解的术语来表达的。

所以我认为这是15 年前你不一定能想到的。这是一个有趣的惊喜，我认为这给人很大的安慰。我并不是说我们应该忽视它，但从安全的角度来看，这些东西在某种程度上确实表达了它们的想法，我认为这是一个很大的优点。是的，有一些论文讨论他们是如何撒谎之类的，但我认为影响相对较小。

模型训练的演变

主持人：你觉得今天接近模型训练过程时，当模型从文本输入或文本输出转变为实际系统时，它看起来有多么不同或多么相似？我认为我们实际上已经把它当作Gemini 2.0，搜索是原生的，代码执行是原生的，就像模型在过程中学习它一样。你是否认为训练基础设施或我们对模型的思考方式会发生根本性的变化，因为它们不再是模型了？它们确实像我们为人们创造的完整系统。

谢尔盖·布林：我认为这是几件事的汇合。有一点非常引人注目，那就是所有不同模型在架构上是多么的相似，例如 VO，你可能会认为视频传播与某些文本语言模型非常不同，但从架构上讲，它们有大量的共同之处。令人吃惊的是，共享的内容如此之多，其中很多都以 Transform 为核心，这要感谢 Noam 和我们已有近十年的团队。现在我们正在添加诸如工具使用之类的内容。

这些事情大多发生在我们所谓的后期训练期间。目前，后训练在整体训练中所占的比例越来越大。以前一切都是 99%预先训练，现在有点转变了，也许是 90% 或80% 等等。这种后训练有点像有些人所说的微调，但它包括我们所做的 RL 类型的工作，以前这只是你最后做的一点点塑造。但是现在，材料越来越多，而工具使用在现在更大的阶段中出现，这让模型变得更加强大。

推理和深度思考的未来

主持人：是的，我还有两个问题，因为我想让你回到办公室工作，以便我们能够继续取得模型进展。第一个是关于推理扩展，我想我们宣布我们展示了深度思考的结果，这有点像继续扩大2.5 专业版并让它推理更长时间并具有某种平行的思维过程。你对此的总体反应是什么？我们似乎还处于扩展范式的早期阶段，将会有大量额外的解锁，但显然你在这方面还处于困境中，所以我很好奇你的想法是什么？

谢尔盖·布林：有趣的是，我们有大约五种不同的方法来做这种事情，它们都集中在这个深度思考上。所以，很高兴看到所有这些人和这些团队聚集在一起，有时我们会分散，需要很长时间，但在这种情况下，我们采纳了所有人的最佳想法，将它们结合在一起，它肯定会产生更强的结果。我认为这种情况持续发生得越多，就越像是一种超能力。如果你能拥有这些模型，我知道很多顶级人工智能实验室都在谈论这个问题，但如果你能拥有这些模型，而不是只花一分钟思考就能得出答案，如果你可以让它们运行一个小时、一天或一个月，它们实际上能让你对一个非常重要的问题给出更好的答案，这将是非常有价值的。

这有点新，而且并不简单。这有点像，我们破解了输入的长上下文。我们之前就这样做过，而且我们已经有一年半左右的时间掌握了超过一百万条信息。现在，我们需要无限的背景，所以必须继续努力。我不是说百万就够了，但这种概括并不简单，对于一个模型来说，这就像你要经历土拨鼠日一样，你只是一遍又一遍地经历。你可以以个人身份体验一天。你尝试这个，尝试那个，现在突然间你的生活就开始了，事情日复一日、周复一周、月复一月地发生着。这是一种非平凡的概括。但我们已经知道该怎么做了。

在输出方面，如果你所做的只是一些简短的小数学问题，那么这也是不简单的。从这个角度来看，这有点像的，我们面试人们时，我们会问他们10 个面试问题或其他问题，然后我们希望他们在几个月内建立这些大型系统，但不清楚这是否真的是测试一个人的正确方法。但是在人工智能模型上，我们已经这样做了一百万次。就像我们只训练他们做一些简单的、聪明的数学问题、编码之类的。然后从那里开始的期望是，他们实际上可以花很长时间来开发一些新的东西，这需要花上好几天的时间去思考。这很不简单，但这是一个我们正在开始克服的差距，这是一个巨大的飞跃。

谷歌的创业文化与加速 AI 创新

主持人：是的，你给出的这个例子就像我们如何测试和评估模型一样，一直在提醒我，生活中的很多事情就像这个人工智能时刻告诉我的那样，生活中的很多事情实际上就像一个评估问题，甚至像采访人、试图建立一个伟大的团队这样的挑战，所有这些事情的核心都是一个评估问题，而我们人类还没有解决这个问题，我并不奇怪我们也没有解决人工智能评估问题。做到这一点并不是一件容易的事。

我要问你的最后一个问题是，这就像是对我们所看到的一切以及 I/O 和创新步伐的再次回应。Sundar在屏幕上展示了一张幻灯片，实际上知道 Demis（谷歌DeepMind CEO戴米斯·哈萨比斯）所做的，其中展示了我们在 2024 年发的所有产品，以及到目前为止我们在 2025 年发的所有产品，而且我很确定 2025 年部分比 2024 年部分要大，因此就像发生明显的加速。至少从我个人角度来说，加入谷歌感觉我已经在这里待了差不多一年或一年多一点了。对我来说，加入谷歌确实感觉像是一次创业经历，我很好奇你对此的反应。但同时，在看到谷歌成长和扩张以及过去 20 年发生的一切之后，你对此有何看法？

谢尔盖·布林：很好的问题。首先，我认为公司需要定期进行自我重塑。有不同的重要技术转变，我想你知道我们最初是一家网络公司，我们必须让移动工作，我们知道我们从来都不擅长社交。现在我们处于人工智能领域，我认为从那里开始它是令人兴奋的，因为在某些方面谷歌一直是一家人工智能公司。我们一直致力于大规模数据和分析。我们也是许多现代大型机器学习的诞生地，从谷歌大脑到Transformer等等。我的意思是，这是公司的 DNA。所以，这是我们应该做好充分准备去实现的转变。

任何转变对于任何公司来说可能都是困难的。但我对此感觉非常好，而且我认为从 24 年到 25年，我们在很多层面上都赶上了，特别是Gemini 2.5 Pro的推出，那就像是一个明显的飞跃，我知道无论在不同的基准上，也许我们在2.5 Pro 之前是第一名，这是一个很大的进步，有点全面，甚至到目前为止，它仍然在大多数排行榜上排名第一。在风格控制方面，不管你怎么衡量它，所以这真的是一个非常令人兴奋的飞跃，我认为这既是，某种科学的因果，我们背后的科学引擎。它将帮助我们前进，这要感谢我们过去一年来所做的所有科学研究，我们最终才能够生产出这个模型。

此后不久，又发生了很多其他事情。我们已经经历了2.5 Pro 型号的几次不同迭代。我不知道大家是否注意到昨天我们推出了新的2.5 Flash。你是否注意到，实际上在许多测量中，它都排在2.5 Pro之后，排名第二。因此，凭借Gemini2.5 Flash模型，我们现在在许多不同的排行榜上都名列前茅。我认为，在所有其他公告中，很多人可能都忽略了这一点。它被埋了，但它就像一个超级快速的模型。我认为它会对很多用例有吸引力。有了今年 2.5 Pro 的基石，我认为我们能够在此基础上继续发展并保持这种势头，这真的令人兴奋。这将是伟大的一年。

网友分享在meiguo.com上的图片

主持人：谢尔盖，感谢你抽出时间。我感谢你对大家的大力推动。看起来很有趣，我们为你准备了一份特别的礼物。我很想看到你拆箱，然后有人会在一秒钟内把它带给我们。

谢尔盖·布林：谢谢你，洛根，当他们把它拿过来的时候，我只想说谢谢你，洛根。

主持人：我看到你一直在努力工作，让你所有的客户和合作伙伴都满意，并追踪可能出现的数百万个问题。我的意思是这并不那么容易。

谢尔盖·布林：很多企业人士都希望拥有这些模型，部署它们，并且不会崩溃，每一个细微差别，从函数调用到缓存，再到所有数以百万计的事情。我们非常擅长把客户放在第一位，将需求传达给团队，真正处于领先地位，所以团队现在正在努力，谢谢。大家正在全力以赴。

主持人：给你一份特别的礼物。

谢尔盖·布林：好的。谢谢。我现在就拆箱吗？

主持人：是的，你必须立即拆箱。

谢尔盖·布林：我们必须抓住它，因为这是使这一切成为可能的因素之一。这是一个TPU V4，顺便说一下，在内部我们称之为 Pufferfish。这些是一两年前最热门的东西，我们现在已经进入了新一代。我们仍然在这方面做很多工作。他们必须将其从某个数据中心取出。它还没被使用。我们确实不需要计算，我们确实需要TPU。有时一些早期的样本有点缺陷，也许这就是其中之一，但我很感激。谢谢。

主持人：谢谢。感谢你的收听。

出处：头条号 @划重点KeyPoints

这家伙浪费了“黄金广告位”，啥也没签！