我要投稿

【AI】来Get下CUDA

发布日期：2024-06-07 06:11:06 浏览次数： 2584

作者：毛毛Post

微信搜一搜，关注“毛毛Post”

最近在GPU上部署模型，才了解到CUDA，废话少说，来了解下CUDA!

看效果

这是2个向量的加法的加法，使用GPU来计算的！

话原理

概念

CUDA stands for Compute Unified Device Architecture，是英伟达开发的并行计算和编程的框架，使得开发者可以使用GPU用于通用处理任务，而不仅仅局限于图形渲染！

这里我们理解下GPU，对比CPU的计算单元，可以看到GPU的计算很多！

NVIDIA GPU 的并行计算的工作流程，在代码上分为两步：

1. CPU 调用核函数的函数，该函数由 GPU 执行。

2. GPU 根据给定的并行量，并行执行该函数。

CUDA 中，执行核函数的一个基本单位被称为线程（thread）。若干个 thread 组合成线程块（block），而一次调用中所有的线程块组成了一个网格（grid）

CPU 调用核函数的同时，会指定执行该核函数的线程块数量和每个线程块中线程的数量。这也就意味着，核函数中的内容会被并行地执行线程块的数量 ×每个线程块内的线程数量次！

核函数

__global__ 是 CUDA C/C++ 的函数修饰符，表示该函数为核函数
核函数会在 GPU 上执行，但由主机代码调用
返回类型必须为 void
在调用kernel函数时，函数名后的<<<b, t>>>：b代表线程块的数目，t代表每个线程块的线程数目。

__global__ void myKernel() {printf("Hello world\n");}int main(int argc, char const *argv[]) {myKernel<<<4,2>>>();return 0;}

比如这个代码，是4个线程块和每个线程块中2个线程来执行，就会输出8个 hello world

其他，比如内存的分配和回收；主机（CPU）和设备（GPU）之前的数据传输，错误处理等

本次的CUDA编程会涉及到如下的环节

1）定义CUDA核函数vectoradd,是__global__ void

这里说明了向量相加，，这个就是核函数，是GPU来运行

2）定义主函数 main，

定义参数
分配GPU的内存
初始化数据
将数据从主机内存复制到设备内存
调用CUDA核函数
将结果从设备内存复制回主机内存
打印结果
释放GPU内存

来实践

1）先申请GPU或本地有，我申请是RTX 4090,大概¥2.7一个小时，内存120G，CPU 16核

2）安装cuda toolkit，我是直接云镜像安装了，cuda 11

3）配置cuda变量环境

Sudo vi /root/ .bashrc

4）创建cuda文件

sudo vim cuda_program.cu

文件中的代码如下

// 示例：vector_add.cu#include// CUDA核函数，对两个向量进行加法操作__global__ void vectorAdd(int *a, int *b, int *c, int n) { int tid = blockIdx.x * blockDim.x + threadIdx.x; if (tid < n) c[tid] = a[tid] + b[tid];}int main() { int n = 10; int a[n], b[n], c[n]; int *dev_a, *dev_b, *dev_c; // 分配GPU内存 cudaMalloc((void**)&dev_a, n * sizeof(int)); cudaMalloc((void**)&dev_b, n * sizeof(int)); cudaMalloc((void**)&dev_c, n * sizeof(int)); // 初始化数据 for (int i = 0; i < n; i++) { a[i] = i; b[i] = i * i; } // 将数据从主机内存复制到设备内存 cudaMemcpy(dev_a, a, n * sizeof(int), cudaMemcpyHostToDevice); cudaMemcpy(dev_b, b, n * sizeof(int), cudaMemcpyHostToDevice); // 定义CUDA核函数调用配置 dim3 blocksPerGrid(1); dim3 threadsPerBlock(n); // 调用CUDA核函数 vectorAdd<<>>(dev_a, dev_b, dev_c, n); // 将结果从设备内存复制回主机内存 cudaMemcpy(c, dev_c, n * sizeof(int), cudaMemcpyDeviceToHost); // 打印结果 printf("Vector addition result:\n"); for (int i = 0; i < n; i++) { printf("%d + %d = %d\n", a[i], b[i], c[i]); } // 释放GPU内存 cudaFree(dev_a); cudaFree(dev_b); cudaFree(dev_c); return 0;}

5) nvcc编译