谷歌重磅发布第七代TPU Ironwood,专为推理设计,性能较从初代飙升3600倍,可与英伟达B200一较高下。不仅如此,谷歌还带来了Veo 2等多款模型全新升级,就连「谷歌版」MCP协议也公布了。
推理时代的首款TPU诞生了!
昨晚,一年一度的谷歌云大会上,首次亮相了谷歌第七代TPU——Ironwood,直接叫板英伟达Blackwell B200。
它是谷歌迄今为止性能最强、可扩展性最高的定制AI加速器,也是首款专为推理设计的加速器。
相较于2018年的第一代TPU,Ironwood推理性能飙涨3600倍,效率提升了29倍。
甚至,第七代全新TPU的性能是世界第一大超算的24倍。谷歌将于今年晚些时候正式推出TPU v7。
继MPC之后,谷歌大会上首次亮相Agent2Agent(A2A)开放协议,为智能体提供一个通用语言,可以在不同生态系统沟通协作。
还有ADK、Agentspace,为开发者提供了全面构建、操作、管理AI智能体的能力。
此外,谷歌云大会精彩纷呈,Veo 2、Imagen 3、Chirp 3纷纷迭代升级,文本转音乐模型Lyria,Vertex AI成为唯一覆盖视频、图像、语音和音乐的全新生成式AI平台。
下一步,极具性价比Gemini 2.5 Flash也将登录Vertex AI。
推理时代首款TPU出世,媲美B200
Ironwood的诞生,不仅标志着谷歌在AI硬件又一大突破,还代表着AI基础设施的重大转变。
在谷歌看来,当下被动「响应式」模型,正转变为主动「生成式」智能体。
这种转变的核心在于,AI不再仅仅停留在提供原始数据层面,而是能够主动检索信息、生成见解。
这正是在这个「推理时代」,谷歌对未来AI基础设施的定义:更智能、更主动、更具协作性。
主要特性
· 性能显著提升,同时注重功耗效率,使AI工作负载能够更具成本效益地运行。
相比起第六代TPU Trillium,Ironwood在功耗效率(perf/watt)上实现了2倍的提升;比2018年推出的首款Cloud TPU,更是高出了近30倍。
同时,谷歌先进的液冷解决方案和优化的芯片设计,即使在持续、繁重的AI工作负载下,也能可靠地维持高达标准风冷两倍的性能。
图 3. 功耗效率相较于TPU v2提升了29.3倍
· 高带宽内存(HBM)容量大幅增加
Ironwood芯片搭载了高达192GB的显存,是Trillium的6倍。
如此一来,便可以处理更大的模型和数据集,同时还减少了频繁数据传输的需求,进而提高了性能。
· HBM带宽显著提高
Ironwood芯片在带宽方面提升到了惊人的7.2 Tbps,是Trillium的4.5倍。
极高的带宽确保了快速的数据访问,这对于现代AI中常见的内存密集型工作负载至关重要。
· 芯片间互连(ICI)带宽增强
Ironwood的双向带宽已增加到1.2 Tbps,是Trillium的1.5倍。这种芯片之间更快的通信,有助于大规模高效的分布式训练和推理。
用Ironwood驱动推理时代
Ironwood为要求最严苛的AI工作负载提供了所需的大规模并行处理能力,例如用于训练和推理的、具有思考能力的超大规模稠密LLM或MoE模型。
对于谷歌Cloud客户,Ironwood可根据AI工作负载需求提供两种规格——256芯片或9,216芯片。
图 1. FP8浮点运算峰值性能相较于TPU v2提升了3600倍
其中,每个单独的芯片峰值算力达4,614 TFLOPs。
当扩展到每个pod 9,216个芯片,总计达到42.5 Exaflop时,Ironwood的算力是世界上最大的超级计算机El Capitan的24倍以上——后者每个pod仅能提供1.7 Exaflops。
不仅如此,Ironwood还配备了增强版的专门用于处理高级排序和推荐任务的加速器——SparseCore。从而为更广泛的工作负载提供加速,包括超越传统AI领域,进入金融和科学领域。
Pathways是由谷歌DeepMind开发的ML运行时,可在多个TPU芯片上实现高效的分布式计算。
谷歌Cloud上的Pathways使得超越单个Ironwood Pod变得简单直接,能够将数十万个Ironwood芯片组合在一起,从而快速推进生成式AI计算的前沿。
图 2. Ironwood原生支持FP8,而v4和v5p的峰值TFlops为模拟值
OpenAI研究员针对Ironwood与英伟达GB 200做了性能对比,并表示TPU v7与GB200性能相当,甚至略胜一筹。
全模态AI平台来了,Veo 2再升级
随着音乐功能的加入,Vertex AI 现在是唯一一个拥有涵盖所有模态——视频、图像、语音和音乐——的生成式媒体模型的平台。
这次放出的重大更新共有四项:
· 文本转音乐模型Lyria,让客户可以从文本提示词开始,生成完整的、生产就绪的素材。
· Veo 2的新编辑和摄像机控制功能,可帮助企业客户精确地优化和再利用视频内容。
· Chirp 3现在包含了Instant Custom Voice,这是一种仅需10秒音频输入即可创建定制语音的新方法。
· Imagen 3改进了图像生成和图像修复能力,用于重建图像中缺失或损坏的部分,并使物体移除编辑的质量更高。
Lyria:文生音乐模型
Lyria能生成高保真音频,细致捕捉精妙之处,并能在多种音乐流派中提供丰富、细节详尽的乐曲。
· 企业可以提升品牌体验
根据品牌独特的调性,为营销活动、产品发布或沉浸式店内体验快速定制配乐。
通过Lyria,企业可以创建与目标受众产生深度共鸣的声音,培养情感联系并增强品牌记忆度。
· 创作者可以简化内容创作流程
对于视频制作、播客和数字内容创作而言,寻找完美的免版税音乐可能是一个耗时且昂贵的过程。
而Lyria可以在几分钟内生成定制音乐曲目,直接契合您内容的情绪、节奏和叙事,从而帮助加速制作工作流程并降低授权成本。例如:
创作一首高能的比波普 (Bebop) 曲调。优先突出令人眩晕的萨克斯管和小号独奏,以闪电般的速度交换复杂的乐句。钢琴应提供打击乐式的和弦伴奏,行进贝斯 (walking bass) 和快节奏的鼓点驱动着狂热的能量。基调应是令人振奋且激烈的。捕捉深夜、烟雾缭绕的爵士俱乐部的感觉,展示精湛技艺和即兴创作。要让听众无法安坐。
Veo 2:扩展编辑功能
Veo 2则为视频的创建、编辑和视觉效果添加了一套强大的功能集,使其从一个生成工具转变为一个全面的视频创作和编辑平台:
· 视频修复 (Inpainting):无需手动修饰即可获得干净、专业的编辑效果。
你可以移除视频中不需要的背景图像、徽标或干扰物,使它们在每一帧中都平滑完美地消失,看起来就像从未存在过一样。
· 画面扩展 (Outpainting):扩展现有视频素材的画面,将传统视频转换为针对网页和移动平台优化的格式。
你可以轻松调整内容来适应不同的屏幕尺寸和宽高比——例如,将横向视频转换为用于社交媒体短视频的纵向视频。
· 应用复杂的电影拍摄技术:新功能包括指导镜头构图、摄像机角度和节奏等。
团队可以轻松运用复杂的电影拍摄技术,无需复杂的提示词或专业知识。
例如,使用摄像机预设向不同方向移动摄像机、创建延时摄影效果或生成无人机风格镜头。
通过连接两个现有素材创建连贯的视频。
借助插值(Interpolation)功能,你可以定义视频序列的开始和结束,让Veo无缝生成连接帧。
这确保了平滑过渡并保持视觉连续性,从而创造出精美且专业的最终成品。
Chirp 3:即时定制语音和转录功能更新
Chirp 3的高清语音(HD voices)功能提供了超过35种语言的自然逼真语音,并有8种说话人选项。
除此之外,谷歌还新增了两个功能:
· 即时定制语音(Instant Custom Voice)
只需要10秒的音频输入,即可生成逼真的定制语音。这使得企业能够个性化呼叫中心、开发无障碍内容,并建立独特的品牌声音——同时保持一致的品牌形象。
· 带说话人日志功能的转录(Transcription with Diarization)
这项强大的功能可以精确地分离和识别多人录音中的单个说话人,显著提高转录内容的清晰度和可用性,适用于会议纪要、播客分析和多方通话录音等应用场景。
Imagen 3:改进质量和编辑功能
作为谷歌最高质量的文本转图像模型,Imagen 3能够生成具有比之前更好细节、更丰富光照和更少干扰性伪影的图像。
这次,谷歌显著改进了Imagen 3的图像修复(inpainting)能力,用于重建图像中缺失或损坏的部分。
尤其是在物体移除(object removal)方面,不仅质量更高,而且效果也更加自然。
MCP之后,谷歌再造A2A协议
智能体可以帮助人们做很多工作,从订购新电脑,到协助客服人员,再到支持供应链规划。
智能体越来越实用的关键在于让它们能够在一个动态的多智能体生态系统中相互协作,跨越孤立的数据系统和应用程序。
为此,谷歌推出了全新的开放协议——Agent2Agent(A2A),获得了超过50家合作伙伴的支持和贡献。
A2A协议将使AI智能体能够相互通信,安全地交换信息,并在各种企业平台或应用程序上协调行动。
它是一个开放协议,与Anthropic的模型上下文协议(MCP)相辅相成。
A2A设计原则
A2A遵循了五大核心原则:
· 拥抱智能体的能力:A2A致力于让智能体以它们自然、非结构化的方式协作。
· 基于现有标准:A2A构建在已有的、广泛使用的标准之上,比如HTTP、SSE、JSON-RPC。
· 默认安全:A2A从设计之初就支持企业级别的认证和授权,与OpenAPI的认证机制保持一致,确保安全性。
· 支持长时间运行的任务:设计A2A时考虑了灵活性,它能胜任从快速任务到需要数小时甚至数天的深入研究等多种场景,尤其是在有人的参与下。
· 不限模态:智能体的世界不只有文本,因此我们设计A2A时支持多种模态,包括音频和视频流,让它更加多样化。
A2A如何工作
A2A让「客户端」智能体和「远程」智能体之间的沟通变得更顺畅。
客户端智能体负责制定和传达任务,而远程智能体则负责执行这些任务,尽量提供正确的信息或采取正确的行动。这个互动涉及几个关键功能:
· 能力发现:智能体可以通过JSON格式的「Agent Card」来展示自己的能力。客户端智能体可以根据这个「名片」找到最适合执行某项任务的智能体,并通过A2A与远程智能体沟通。
· 任务管理:客户端智能体和远程智能体之间的交流以完成任务为核心,目的是满足用户的需求。
· 协作:智能体之间可以互相发送消息,分享上下文、回复、产物或用户指令。
· 用户体验协商:每条消息中包含「parts,」,这是一个完整的内容单元,比如一张生成的图片。
实例:寻找候选人
用户(比如招聘经理)可以让自己的智能体去寻找符合职位描述的候选人。
这个智能体会与其他专业智能体互动,帮你挖掘潜在候选人。用户收到推荐名单后,可以再指示智能体安排后续面试,让找人的过程更顺畅。面试结束后,还可以让另一个智能体帮忙做背景调查。
A2A有望开启一个智能体相互操作的新时代,推动创新,打造更强大、更灵活的AI智能体系统。我们相信,这个协议将为未来铺平道路,让智能体能够无缝协作,解决复杂问题,提升我们的生活。
我们致力于与合作伙伴和社区一起,公开构建这个协议。我们会把协议开源,并为贡献者设立清晰的参与路径。
谷歌AI代码助手,变身超强智能体
此次大会的另一个更新,就是谷歌的AI编码助手——Gemini Code Assist,已经在预览中获得了「智能体」能力!
在Cloud Next大会上,谷歌宣布:Code Assist现在可以部署新的AI智能体,这些智能体可以执行多个步骤,来完成复杂的编程任务。
例如,这些智能体可以从Google Docs中的产品规格创建应用程序,或者将代码从一种语言转换为另一种语言。
另外,Code Assist现在除了其他编码环境外,还可在Android Studio中使用。
这次升级,也是谷歌被GitHub Copilot、Cursor和Devin这些竞争者给逼疯了。
肉眼可见,现在AI编程隐含着巨大的掘金市场,各家的竞争也日趋白热化。
不过,Code Assist能做到什么程度,目前还不清楚。研究表明,即使是今天最好的代码生成AI,也往往会引入安全漏洞和错误,这是由于编程逻辑理解能力的弱点。
比如对Devin的一项评估就发现,它只完成了20项任务中的3项。
接下来,就让我们期待Gemini Code Assist在实际编程环境中的表现了。
出处:见配图右下角