美国时间2025年1月28日开盘后,美国科技股一片哀嚎,人工智能芯片领先供应商英伟达股价直接暴跌 12%。此外,Meta和 谷歌母公司 Alphabet,英伟达的竞争对手 Marvell、还有博通、美光和台积电也均大幅下跌。
造成美国股市哀鸿遍野的原因,是一款来自东方的"神秘AI应用":DeepSeek。这款来自中国的AI产品,登顶了美国苹果地区的免费下载榜,一举超越了AI巨头ChatGPT!一时间,硅谷的所有从业者,纷纷坐立不安……
DeepSeek打破了美国AI垄断
DeepSeek是一家来自中国的开发开源大型语言模型的人工智能公司,总部位于浙江杭州。DeepSeek作为开源的大型语言AI模型,在最新发布的DeepSeek- R模型中,在仅有极少数标注数据的情况下,极大提升了模型的推理能力。
目前在数学、代码、自然语言推理,以及科学领域的测试中,性能比肩目前行业的领头羊,OpenAI O1的正式版。这一结果不仅震惊了整个硅谷,更是让美国政府苦心经营的限制中国AI的策略落空。
从2022年的拜登政府,到如今的川普2.0,为了构建美国AI科技领先的护城河,美国政府先后三次出台芯片法案,切断了中国获得美国强大芯片的渠道,试图限制中国AI技术的发展。例如英伟达公司的GPU H100型号,原本被认为是构建AI模型竞争力的关键产品,被禁止出口中国。但随着DeepSeek的发布被彻底颠覆,美国在AI上进行的芯片封锁“政策破产”。
青出于蓝
在很多AI基准测试结果与Open AI不相上下的情况下,DeepSeek仅仅花费了560万美元,就完成了R1模型的训练,这让硅谷的各家公司相当震惊。要知道,行业领头羊OpenAI每年的投入是50亿美元,而背后的金主微软则是投入了130亿美元,谷歌在2024年度的报表中,更是豪掷了惊人的510亿美元!
DeepSeek可能是对美国股市的最大威胁,因为该模型引发了对数千亿美元资本支出的效用的质疑。“如果训练模型变得更便宜、更快、更容易,那么对使用AI的需求将增长和加速得更快,这确保了计算的供应将被使用。这也就有了开篇美国科技硬件和AI公司股票集体暴跌的一幕。
所以,DeepSeek是如何做到如此小的预算达成如此高的成就呢?这主要愿意DeepSeek的工程师们,利用强大的开源模型,让开发者们跳过了自行构建和训练模型。只需要在现有模型的基础上,进行自己模型的构建。行业内部的词汇是“蒸馏”:即利用一个非常大的模型,来帮助你训练小模型,并在特定任务上表现更出色。
对此,OpenAI的创始人萨姆·奥特曼发文表示:“复制已有有效的事物相对容易,但在不确定任何前景的情况下,但尝试新事物、冒险和挑战则是极其困难的。”话里话外,奥特曼对于突然杀出来DeepSeek这个对手相当不爽。
其实,在AI领域中,所有的公司都是靠着互相模仿起家:Google建立了第一批大型语言模型,但是并未将其作为第一优先级,ChatGPT看到了机会后,抄袭了Google的想法迅速进入这一领域。而当ChatGPT成为行业领头羊时,谷歌,亚马逊和Meta等公司纷纷入局,
同样,DeepSeek也对于自己的来源没有藏着掖着,当对DeepSeek提问你是什么型号时,DeepSeek会直接回答说,我是由OpenAI所创建的人工智能,架构则是基于ChatGPT-4。不过,这绝非是简单的“站在巨人肩膀上”,而是青出于蓝而胜于蓝的故事。如今的DeepSeek,不仅是简单的模仿,而是通过创新进行弯道超车。
DeepSeek与ChatGPT 最大的不同在于:DeepSeek R1是开源的,而 ChatGPT是闭源的。开源意味着开发者有着完全的访问权限,而一旦开源软件赶上甚至超越闭源软件,所有开发者都将会转向开源软件。
这就给Open AI这样的行业领头羊敲响了警钟,今天你们还是领跑者,明天就有可能被迎头赶上!
美国硅谷的CEO们赞叹不已
想知道自己做的到底怎么样,要听听对手对你的评价。面对DeepSeek的突然崛起,微软CEO萨提亚・纳德拉在瑞士达沃斯论坛上表示:“DeepSeek 的新模型令人印象深刻,尤其是在如何高效开发开源模型并进行推理计算方面。它的计算效率非常出色,我们应当非常、非常认真地对待来自中国的这些技术进展。”
AI科技初创公司Scale AI创始人亚历山大·王(Alexandr Wang)同样在达沃斯论坛上,他表示,过去十年来,美国可能一直在人工智能竞赛中领先于中国,但DeepSeek的AI大模型发布可能会“改变一切”,尤其是在开源领域。
Meta创始人马克·扎克伯格在一档播客节目中表示,DeepSeek的大模型非常先进。美国科技行业虽然暂时领先,但中国正在全力冲刺,两者差距很小。而Meta已经成立了四个专门研究小组来研究量DeepSeek的工作原理并基于此来改进旗下大模型Llama。
小分队1和2试图搞清楚DeepSeek是如何降低训练和运行成本的;
小分队3负责研究DeepSeek可能使用了哪些数据来训练模型;
小分队4正在考虑基于DeepSeek模型的属性重组Meta模型的新技术。
Meta的惶恐并不意外,毕竟,当部门里一个高管的薪资就超过整个DeepSeek V3的训练成本,而且这样的高管还有几十位,他们该如何向高层交代?
揭秘DeepSeek团队
而DeepSeek能取得今天的成就,绝非一日之功,同样是经历了多年的努力和“孵化”。创始人梁文峰来自浙江大学,拥有信息与电子工程学系本科和硕士学位。从2008年起,他就开始带领团队使用机器学习等技术探索全自动量化交易。不过直到2023年7月,DeepSeek才算是正式成立,进军通用人工智能领域,且至今也未对外进行融资。
面对如此神秘的公司,前OpenAI政策主管、如今Anthropic联合创始人Jack Clark认为,DeepSeek雇用了“一批高深莫测的奇才”。不过,梁文峰在接受采访时曾透露,这里没有什么高深莫测的奇才,不过都是来自Top高校的毕业生、包括尚未毕业的博四、博五实习生,还有一些毕业不久的年轻人。
DeepSeek团队最大的特点是名校、年轻,即使是团队Leader级别,年纪也多在35岁以下。不到140人的团队,工程师和研发人员几乎都来自清华大学、北京大学、中山大学、北京邮电大学等国内顶尖高校。
作为AI公司的创始人,梁文峰也曾被问到关于钱够不够的问题:怎么看待做量化同时做大量基础研发,不烧钱吗?对此他的回答是:一件激动人心的事,或许不能单纯用钱衡量。就像家里买钢琴,一来买得起,二来是因为有一群急于在上面弹奏乐曲的人。
中美之间的AI竞争刚刚开始
2011年,马斯克在接受媒体采访时,主持人问了他一个问题,如何看看待中国比亚迪?马斯克听完后,不仅哈哈大笑,随后还反问道,你见过比亚迪的车辆吗?我不认为比亚迪有什么好的产品!时间推到2023年时,有网友把这段旧视频翻出来后,马斯克大方承认了自己当年的错误。他说,这是很多年前的事儿了,如今他们的汽车很具竞争力。
这样的状况,又一次出现在AI的领域中。一年半前,谷歌的前CEO埃里克·施密特曾说过,中国的人工智能领域落后美国两到三年。但到了本周ABC电视台《This Week》节目上,这位前CEO改了口“在过去的六个月里,中国以惊人的速度迎头赶上。”
乔治梅森大学(George Mason University)AI研究员迪恩·鲍尔 (Dean Ball)认为,这一趋势表明,中国开发团队正在迅速接近前沿技术水平。他指出,DeepSeek的小型版本R1能够在普通家庭电脑上运行,这将有助于推动AI应用的快速普及:“DeepSeek小型模型的卓越性能意味着强大的推理系统会迅速传播,并能在本地硬件上运行——远离任何集中监管(包括美国的出口管制)的视线。”
如今的美国,正计划大举砸钱投入AI基础设施。就在上周,美国新任总统川普宣布OpenAI、甲骨文、软银将成立一家合资企业“星际之门项目”,未来四年斥资5000亿美元(约合人民币3.6万亿元)建设新的AI数据中心。川普的人工智能“沙皇”萨克斯表示,DeepSeek“表明人工智能竞赛将非常具有竞争力,美国人能自信但不能自满。
中国AI公司证明了用有限的计算资源,足以做出顶尖水平的模型。DeepSeek R1正在改写AI游戏规则。随着更多的中国AI公司通过开源和低价模型的进入,这场中美之间的AI竞争大戏,才刚刚开始……
出处:微信公众号 @冰汝看美国