北京时间2025年9月16日晚间的中国央视《新闻联播》节目中,报道了中国联通三江源绿电智算中心项目的建设情况。
在报道画面里,一个详细的国产算力卡参数对比表格清晰展示了阿里平头哥PPU芯片的技术规格。
平头哥PPU芯片搭载了96GB HBM2e显存,这个容量与英伟达目前在中国市场主打的H20芯片完全相同,比英伟达A800的80GB显存要多出16GB。 不过在显存技术上,H20采用的更新一代HBM3技术,而PPU使用的是HBM2e。
芯片间互联带宽达到700GB/s,这个速度显著超过了A800的400GB/s,虽然仍略低于H20的水平,已经大大缩小了差距。
接口方面支持PCIe 5.0×15规格,优于A800的PCIe 4.0×16,与H20保持同级。
功耗控制表现突出,平头哥PPU的功耗为400W,与A800相同,比H20的550W降低了近28%,这意味着在相同能耗下可以提供更多的算力。
三江源智算中心已经签约的国产算力设备包括1747台服务器和22832张算力卡,总算力达到3479P。
其中阿里云部署了1024台设备、16384张平头哥算力卡,提供1945P算力,占已签约总算力的55.9%。
中科院部署了512台设备,配备4096张沐曦算力卡,提供984P算力。 北京京仪则部署了83台设备,使用1328张壁仞算力卡,提供450P算力。 中昊芯英也提供了128台设备,贡献200P算力。
拟签约项目还将新增2002P算力,涉及太初元碁、燧原科技、摩尔线程等厂商的芯片产品。
阿里自研AI芯片的历史可以追溯到2019年。当年9月25日,平头哥在杭州云栖大会发布了首款AI推理芯片含光800。 该芯片以上古神剑“含光”命名,寓意“含而不露,光而不耀”。
含光800在ResNet-50测试中推理性能达到78563 IPS,即每秒处理7.8万张照片,能效比为500 IPS/W。
这些指标达到当时业界最高水平,性能是同期最好AI芯片的4倍,能效比是第二名的3.3倍。
在杭州城市大脑的实际应用中,处理主城区交通视频需要40颗传统GPU,延时300毫秒。
而使用含光800芯片后,只需4颗芯片就能胜任同样任务,延时降至150毫秒。 相当于1颗含光800的算力等同于10颗GPU。
含光800采用12nm制程工艺,累计集成170亿晶体管。 它通过软硬件协同创新,集成达摩院算法优化计算存储密度,能够单芯片完成大网络模型计算。
2021年10月19日,平头哥又发布了倚天710通用服务器CPU芯片。这款芯片采用5nm工艺,单芯片容纳600亿个晶体管,基于ARMv9架构,内含128核CPU,主频最高达到3.2GHz。
在标准测试集SPECint2017上,倚天710的分数达到440,超过业界标杆20%,能效比提升50%以上,成为当时业界性能最强的ARM服务器芯片。
与专注于AI推理的含光800不同,倚天710是通用服务器CPU芯片。
2025年8月底,有媒体报道称阿里巴巴已经开发出一种比旧款芯片更通用的新款AI芯片,主要用于AI推理任务,以填补英伟达留下的市场空白。 该芯片当时已进入测试阶段。
硅谷科技媒体The Information在9月11日报道称,阿里和百度都在使用自研的AI芯片训练模型。阿里将自研芯片用于开发较小的AI模型,但并没有完全放弃英伟达的芯片。
阿里集团CEO吴泳铭在8月29日的财报电话会上透露,阿里已经针对算力供应链构建了“后备方案”,通过与不同合作伙伴合作建立多元化储备。 他明确表示3800亿元的资本开支将按预期推进。
这些资金覆盖芯片研发、算力中心建设,以及巩固“云服务+芯片+模型”的全栈布局优势。
平头哥PPU芯片采用与英伟达架构兼容的设计,分为基础版和高级版两个产品线。 基础版侧重AI推理,峰值算力达120TFLOPS,满足中高端推理场景需求。
兼容CUDA生态的特性显著降低了客户迁移成本。 已经有企业将GPT-3.5衍生模型部署在PPU集群上,推理成本降低了50%,且精度保持99.7%一致。
三江源智算中心1945P算力的落地直接支撑了阿里云在AI推理、智慧城市、工业质检等垂直领域的服务能力,形成了“芯片研发-算力落地-市场反馈”的循环。
出处:见配图右下角