我要投稿

DeepSeek：没用CUDA，没用NVlink，AMD率先拥抱

发布日期：2025-02-14 18:44:41 浏览次数： 2451 作者：算力百科

结论：deepseek 打破了两个固有思维:

1.NVLink之前被吹的神乎其神，Deepseek实践证明NVLink不是必须的dpu完全可以替代

2.cuda被认为是英伟达护城河，可以加速训练，deepseek实践证明cuda也不是必须的，PTX（Parallel Thread Execution）汇编直接操作硬件指令集效率更高，类似于dsp+软核方案，类似的方案，华为、寒武纪都有。

DeepSeek绕过了CUDA，使用更底层的编程语言做优化。这种操作是用英伟达的PTX（Parallel Thread Execution）语言实现的，而不是CUDA。deepseek V3的硬件效率之所以能比Meta等高出10倍，可以总结为“他们从头开始重建了一切”。

所有的国产芯都有类似pxt的技术，其实就是连接硬件语言的中间语言，也就是说能在英伟达上实现deepseek训练，就可以在寒武纪和升腾上实现deepseek训练。

0、PTX、LLVM 和 CUDA 基本概念

PTX、LLVM 和 CUDA 在并行计算和编程领域都有各自的特点和作用。

基本概念

PTX（Parallel Thread Execution）

它是 NVIDIA 设计的一种中间语言，作为 GPU 程序的一种抽象表示。PTX 代码独立于具体的 NVIDIA GPU 硬件架构，提供了一个介于高级编程语言和底层 GPU 机器码之间的层次，可在不同代的 NVIDIA GPU 上进行编译执行。
LLVM（Low Level Virtual Machine）

是一个模块化和可重用的编译器基础设施项目，由一系列工具和库组成。它包含前端（如 Clang，用于处理 C、C++ 等语言）、中间表示（LLVM IR）和后端（可生成多种目标平台的机器码），为开发编译器、静态分析器等提供支持。
CUDA（Compute Unified Device Architecture）

是 NVIDIA 推出的一种并行计算平台和编程模型，允许开发者使用类似 C、C++ 的语言在 NVIDIA GPU 上进行通用计算。CUDA 提供了一系列的 API 和工具，使得开发者可以方便地将计算任务分配到 GPU 的多个线程上并行执行。

功能用途

PTX

主要用于在 NVIDIA GPU 上实现并行计算，通过编写 PTX 代码，开发者可以更接近底层地控制 GPU 的执行。它可以作为一种中间表示，方便在不同的 NVIDIA GPU 架构之间进行移植。
例如，开发者可以编写一次 PTX 代码，然后在不同型号的 NVIDIA GPU 上进行编译和执行。

LLVM

功能较为通用，不仅可以用于 GPU 编程，还可以用于编译各种高级编程语言，生成不同平台（包括 CPU、GPU、FPGA 等）的机器码。
提供了丰富的优化器和工具链，可对代码进行各种优化操作，如常量折叠、死代码消除等，以提高代码性能。

CUDA

专注于 NVIDIA GPU 的并行计算，为开发者提供了简单易用的编程接口，使他们可以使用熟悉的编程语言（如 C、C++）来编写 GPU 程序。
提供了一系列的库和工具，如 CUDA Math Library（CUDAMath）、CUDA Deep Neural Network library（cuDNN）等，可加速深度学习、科学计算等领域的应用。

编程难度

PTX

编程难度相对较高，因为它更接近底层硬件，开发者需要对 GPU 的架构和并行计算原理有较深入的了解。编写 PTX 代码需要手动管理线程、内存等资源，并且要考虑不同 GPU 架构的差异。

LLVM

对于普通开发者来说，直接使用 LLVM 进行编程也有一定难度，因为它涉及到编译器的底层原理和中间表示。但 LLVM 提供了一些高级前端（如 Clang），使得开发者可以使用熟悉的高级语言进行编程，降低了编程难度。

CUDA

编程难度相对较低，尤其是对于有 C、C++ 编程基础的开发者。CUDA 提供了简单的语法和 API，使得开发者可以方便地将计算任务分配到 GPU 上执行，而无需过多关注底层硬件细节。

适用场景

PTX

适用于对 GPU 性能有极高要求，需要精确控制 GPU 执行的场景。例如，在开发高性能计算库、定制化的 GPU 算法等方面，PTX 可以提供更细粒度的控制。

LLVM

适用于需要开发跨平台编译器、进行代码优化和静态分析的场景。由于 LLVM 的通用性，它可以支持多种编程语言和目标平台，在编译器开发、代码转换等领域有广泛应用。

CUDA

适用于快速开发 NVIDIA GPU 上的并行计算应用，特别是在深度学习、科学计算、图形处理等领域。CUDA 提供的丰富库和工具可以帮助开发者快速实现高性能的并行计算。

一、从CUDA到PTX：打破英伟达的“技术护城河”

DeepSeek-V3的横空出世，不仅以6710亿参数的MoE架构和557万美元的超低成本震撼行业，更通过底层技术优化，动摇了英伟达CUDA生态的统治地位。

不用CUDA生态。其核心突破在于直接采用英伟达的底层指令集PTX（Parallel Thread Execution）进行编程优化，而非依赖CUDA高级接口。这种操作相当于“跳过中间商”，在接近汇编语言的层级实现细粒度控制，例如寄存器分配、线程束（Warp）调度，甚至将H800 GPU的132个流式多处理器（SMs）中的20个专门用于服务器间通信优化，从而绕过硬件通信瓶颈，实现10倍于Meta等巨头的训练效率。

这一策略颠覆了行业对CUDA的依赖惯性。CUDA虽简化了开发流程，但其高级抽象层牺牲了部分性能潜力。DeepSeek的实践表明，**通过极致的底层优化，完全可以在不依赖CUDA的情况下释放GPU算力**，同时证明英伟达的硬件设计并非“铁板一块”，其技术护城河存在可突破的缺口。

二、技术细节：从架构到硬件的全栈重构

1. 硬件效率的极致榨取

DeepSeek团队对H800 GPU的改造堪称“外科手术级”：通过PTX语言重新分配计算资源，将部分SM单元用于通信任务，优化流水线并行算法（如DualPipe算法），减少流水线停滞和通信开销。这种“从头重建一切”的硬核优化，使得训练框架的计算与通信高度重叠，显著降低了传统依赖NVLink等专用互联技术的必要性。