收藏文章 楼主
绕过了CUDA?DeepSeek的论文惹争议
网友【chuang】 2025-01-29 14:05:38 分享在【时代发展的印记】版块    1    22

英伟达刚刚从DeepSeek-R1引发的4万亿元暴跌中缓过劲来,又面临新的压力?

网友分享在meiguo.com上的图片

硬件媒体Tom‘s Hardware带来开年最新热议:

DeepSeek甚至绕过了CUDA,使用更底层的编程语言做优化。

网友分享在meiguo.com上的图片

这一次是DeepSeek-V3论文中的更多细节,被人挖掘出来。

来自Mirae Asset Securities Research(韩国未来资产证券)的分析称,V3的硬件效率之所以能比Meta等高出10倍,可以总结为“他们从头开始重建了一切”。

在使用英伟达的H800 GPU训练DeepSeek-V3时,他们针对自己的需求把132个流式多处理器(SMs)中的20个修改成负责服务器间的通信,而不是计算任务

变相绕过了硬件对通信速度的限制。

网友分享在meiguo.com上的图片
DeepSeek-V3 Technical Report

这种操作是用英伟达的PTX(Parallel Thread Execution)语言实现的,而不是CUDA。

PTX在接近汇编语言的层级运行,允许进行细粒度的优化,如寄存器分配和Thread/Warp级别的调整。

这种编程非常复杂且难以维护,所以行业通用的做法是使用CUDA这样的高级编程语言。

换句话说,他们把优化做到了极致。

有网友表示,如果有一群人嫌CUDA太慢而使用PTX,那一定是前量化交易员。

网友分享在meiguo.com上的图片

一位亚马逊工程师提出灵魂质问:CUDA是否还是护城河?这种顶尖实验室可以有效利用任何GPU。

网友分享在meiguo.com上的图片

甚至有网友开始畅想,如果“新源神”DeepSeek开源了一个CUDA替代方案……

网友分享在meiguo.com上的图片

那么事情是否真会如此?

DeepSeek真的绕过了CUDA?

首先要明确的是,PTX仍然是英伟达GPU架构中的技术,它是CUDA编程模型中的中间表示,用于连接CUDA高级语言代码和GPU底层硬件指令。

PTX类似汇编语言,代码大概长这样:

网友分享在meiguo.com上的图片
来自tinkerd.net

在实际编译流程中,CUDA代码首先被编译为PTX代码,PTX代码再被编译为目标GPU架构的机器码(SASS,Streaming ASSembler)。

CUDA起到了提供高级编程接口和工具链的作用,可以简化开发者的工作。而PTX作为中间层,充当高级语言和底层硬件之间的桥梁。

另外,这种两步编译流程也使得CUDA程序具有跨架构的兼容性和可移植性。

反过来说,像DeepSeek这种直接编写PTX代码的做法,首先不仅非常复杂,也很难移植到不同型号的GPU。

有从业者表示,针对H100优化的代码迁移到其他型号上可能效果打折扣,也可能根本不工作了。

网友分享在meiguo.com上的图片

所以说,DeepSeek做了PTX级别的优化不意味着完全脱离了CUDA生态,但确实代表他们有优化其他GPU的能力。

事实上,我们也能看到DeekSeek已经与AMD、华为等团队紧密合作,第一时间提供了对其他硬件生态的支持。

网友分享在meiguo.com上的图片

One More Thing

还有人提出,如此一来,让AI擅长编写汇编语言是AI自我改进的一个方向。

网友分享在meiguo.com上的图片

我们不知道DeepSeek内部是否使用AI辅助编写了PTX代码——

但是确实刚刚见证DeepSeek-R1编写的代码显著提升大模型推理框架的运行速度

Llama.cpp项目中的一个新PR请求,使用SIMD指令(允许一条指令同时处理多个数据)显著提升WebAssembly在特定点积函数上的运行速度,提交者表示:

这个PR中的99%的代码都是由DeekSeek-R1编写的。我唯一做的就是开发测试和编写提示(经过一些尝试和错误)。

是的,这个PR旨在证明大模型现在能够编写良好的底层代码,甚至能够优化自己的代码。

网友分享在meiguo.com上的图片

llama.cpp项目的创始人检查了这段代码后表示“比预期的更爆炸”。

网友分享在meiguo.com上的图片

参考链接:
[1] https://www.tomshardware.com/tech-industry/artificial-intelligence/deepseeks-ai-breakthrough-bypasses-industry-standard-cuda-uses-assembly-like-ptx-programming-instead
[2] https://x.com/bookwormengr/status/1883355712191123666
[3] https://tinkerd.net/blog/machine-learning/cuda-basics/
[4] https://www.amd.com/en/developer/resources/technical-articles/amd-instinct-gpus-power-deepseek-v3-revolutionizing-ai-development-with-sglang.html
[5] https://x.com/ggerganov/status/1883888097185927311

编译:梦晨、西风

出处:见配图右下角

meiguo.com 发布人签名/座右铭我已经有美国绿卡了,只差美果绿卡啦!
大家都在看
楼主新近贴
回复/评论列表
默认   热门   正序   倒序
meiguo.com 创始人

emotion

22   2025-01-29 14:05:38  回复

回复/评论:绕过了CUDA?DeepSeek的论文惹争议

暂无用户组 升级
退出
等级:0级
美果:
美过
精华推荐
  1. 华人科学家再次遭遇系统性排查,75%留美学者“萌生去意”!
  2. 瞄准美国公民了?川普总统的“驱逐行动”在变本加厉
  3. 这位美国年轻人在中国玩儿一圈,浪费掉美国政府的16亿美金?
  4. 全球研究机构top10盘点:中国9家,美国1家
  5. 美国驻华大使馆:“赴美生子”一律拒签
  6. 独自搭乘美国硬座火车,52小时横穿美国!
  7. 美国人在凌晨三点排队,不为苹果手机… 竟然是为中国毛绒玩具“拉布布”?
  8. 美国小伙儿在武当山修行十余年,终于获得“中国绿卡”了!
  9. 全面盘点:加州大学的9大分校
  10. 华尔街“教父”空降北京,李嘉诚的“228亿美元交易”突遭截胡
  11. 童工可以合法夜班了?
  12. 川普总统:在未来几周内开始发放“金卡签证”
  13. 美国“大规模”取消国际留学生的签证
  14. 2025年,必须认识的一个英文单词 ~ tariff
  15. 中国“不陪川普玩”了… 从此不理会美方闹剧!
  16. 盘点美国最繁华的城市 top10
  17. 中美博弈2.0了?川普政府“百日执政”,撤回对华善意!
  18. 【读懂AI Agent】MetaGPT、Mila、斯坦福、耶鲁、谷歌的合作论文
  19. 遭遇无故吊销学签,藤校的中国留学生起诉且赢了🇺🇸国土安全部!
  20. 美国《时代》周刊:DeepSeek【梁文锋】
  21. 川普关税政策可能导致意外后果
  22. 百万民众“上街游行”抗议川普政府的百天?
  23. 近半数中国小包裹的接收人是贫困美国百姓?
  24. 在量子世界“玩儿游戏”?物理学家展示了量子计算机的新前景
  25. 台湾政府:一场误会呀
  26. Google决定终止开源Android啦?
  27. BBC:在川普政府的关税打击下,为何中国不低头?
  28. 马斯克的丑闻?和多名女性有染,有上百个孩子?
  29. 哪些关键技术决定了如今大模型格局?Google的首席科学家“万字演讲”回顾AI发展的十年
  30. 中国的中产家庭,送孩子赴美留学就是鸡肋之举?
  31. 美国华人在近期出入境美国,绿卡和签证的持有者须知!
  32. 中方意识到谈判时机已至?迅速派出“王牌代表应邀”和美国财长会面了
  33. 关税战持续了96小时… 突然大反攻?
  34. 关于“跨国婚姻”婚姻绿卡,给配偶申请绿卡的各种细节问题!
  35. 中美关税战的最佳写实作品~乌合麒麟发布《就不跪》
  36. 这小伙年仅25岁,已经是百亿美金公司的创始CEO了!

美国动态 美果搜索

Your IP: 3.15.198.191, 2025-05-09 05:49:53

Processed in 0.12529 second(s)

头像

用户名:

粉丝数:

签名:

资料 关注 好友 消息
已有0次打赏
(22) 分享
分享
取消