game show 澳门六合彩正版资料大全免费网站黑芝麻和黑米的功效澳
你的位置:澳门六合彩官网 > 澳门六合彩正版资料大全免费网站黑芝麻和黑米的功效澳 > 澳门六合彩正版资料大全免费网站黑芝麻和黑米的功效澳 “DeepSeek甚而绕过了CUDA”,论文细节再引热议,工程师灵魂发问:英伟达护城河还在吗?
澳门六合彩正版资料大全免费网站黑芝麻和黑米的功效澳 “DeepSeek甚而绕过了CUDA”,论文细节再引热议,工程师灵魂发问:英伟达护城河还在吗?

2024-09-08 09:57    点击次数:130


  

起首:量子位(ID: QbitAI)作家梦晨 西风澳门六合彩正版资料大全免费网站黑芝麻和黑米的功效澳

英伟达刚刚从DeepSeek-R1激励的缓牛逼来,又靠近新的压力?

硬件媒体Tom‘s Hardware带来开年最新热议:

DeepSeek甚而绕过了CUDA,使用更底层的编程话语作念优化。

这一次是DeepSeek-V3论文中的更多细节,被东谈主挖掘出来。

来自Mirae Asset Securities Research(韩国改日财富证券)的分析称,V3的硬件服从之是以能比Meta等跨越10倍,不错纪念为“他们从新运行重建了一切”。

在使用的H800 GPU历练DeepSeek-V3时,他们针对我方的需求把132个流式多惩办器(SMs)中的20个修改成崇敬工作器间的通讯,而不是推敲任务。

变相绕过了硬件对通讯速率的鸿沟。

这种操作是用英伟达的PTX(Parallel Thread Execution)话语罢了的,而不是CUDA。

PTX在接近汇编话语的层级运行,允许进行细粒度的优化,如寄存器分派和Thread/Warp级别的迂曲。

这种编程十分复杂且难以珍贵,是以行业通用的作念法是使用CUDA这么的高档编程话语。

换句话说,他们把优化作念到了极致。

有网友默示澳门六合彩正版资料大全免费网站黑芝麻和黑米的功效澳,要是有一群东谈主嫌CUDA太慢而使用PTX,那一定是前量化走动员。

一位亚马逊工程师提倡灵魂指责:CUDA是否如故护城河?这种顶尖履行室不错有用愚弄任何GPU。

甚而有网友运行畅思,要是“新源神”DeepSeek开源了一个CUDA替代决策……

那么事情是否真会如斯?

DeepSeek简直绕过了CUDA?

领先要明确的是,PTX仍然是英伟达GPU架构中的时刻,它是CUDA编程模子中的中间默示,用于辩论CUDA高档话语代码和GPU底层硬件指示。

PTX相通汇编话语,代码大约长这么:

在实质编译历程中,CUDA代码领先被编译为PTX代码,PTX代码再被编译为指标GPU架构的机器码(SASS,Streaming ASSembler)。

CUDA起到了提供高档编程接口和用具链的作用,不错简化诞生者的职责。而PTX动作中间层,充任高档话语和底层硬件之间的桥梁。

另外,这种两步编译历程也使得CUDA步调具有跨架构的兼容性和可移植性。

反过来说,像DeepSeek这种径直编写PTX代码的作念法,领先不仅十分复杂,也很难移植到不同型号的GPU。

有从业者默示,针对H100优化的代码挪动到其他型号上可能恶果打扣头,也可能根底不职责了。

是以说,DeepSeek作念了PTX级别的优化不料味着十足脱离了CUDA生态,但如实代表他们有优化其他GPU的智商。

事实上,咱们也能看到DeekSeek依然与AMD、华为等团队详尽互助,第一时辰提供了对其他硬件生态的复旧。

One More Thing

还有东谈主提倡,如斯一来,让AI擅长编写汇编话语是AI自我改良的一个标的。

我们知道,在传统的蒸汽弹射器之外,电磁弹射具备更高效的性能,能够让各种战斗机,包括固定翼无人机迅速升空。如今,076用上电磁弹射器,意味着我们不仅拥有了更多选择的作战方案,更重要的是,在制空权和快速反应能力方面,我们的领先优势得到了进一步巩固。

咱们不知谈DeepSeek里面是否使用AI接济编写了PTX代码——

然而如实刚刚见证DeepSeek-R1编写的代码显耀进步大模子推理框架的运行速率。

Llama.cpp技俩中的一个新PR申请,使用SIMD指示(允许一条指示同期惩办多个数据)显耀进步WebAssembly在特定点积函数上的运行速率,提交者默示:

这个PR中的99%的代码齐是由DeekSeek-R1编写的。我唯独作念的即是诞生测试和编写教唆(经过一些尝试和失实)。 是的,这个PR旨在证实大模子目下能够编写讲究的底层代码,甚而能够优化我方的代码。

llama.cpp技俩的首创东谈主查验了这段代码后默示“比预期的更爆炸”。

参考运动:[1]https://www.tomshardware.com/tech-industry/artificial-intelligence/deepseeks-ai-breakthrough-bypasses-industry-standard-cuda-uses-assembly-like-ptx-programming-instead[2]https://x.com/bookwormengr/status/1883355712191123666[3]https://tinkerd.net/blog/machine-learning/cuda-basics/[4]https://www.amd.com/en/developer/resources/technical-articles/amd-instinct-gpus-power-deepseek-v3-revolutionizing-ai-development-with-sglang.html[5]https://x.com/ggerganov/status/1883888097185927311

2025,信心同业,好意思好可期