微信扫码
与创始人交个朋友
我要投稿
当我们为模型训练及推理做硬件选型时,NVIDIA 几乎是唯一选择。这是一家全球知名的图形处理器(GPU)公司,成立于 1993 年。因为在 GPU 领域,尤其 AI 领域芯片的垄断性优势,其创始人黄仁勋被坊间称为「黄教主」
NVIDIA 英伟达官网
https://www.nvidia.cn/
NVIDIA Studio 设计本和台式电脑对比
https://www.nvidia.cn/studio/compare-gpus/
NVIDIA 显卡排行榜
Graphical Processing Units (GPUs)
图形处理单元(GPU)是一种功能强大的电子芯片,用于在沉浸式视频游戏、电影和其他视觉媒体中呈现丰富的 2D/3D 图形和动画
案例 1:视频渲染 当一个电影制片公司决定制作一部具有高度视觉效果的 3D 电影时,他们需要大量的计算能力来渲染每一帧。这里,CUDA 核心非常有用,因为它们能够处理大量的细节,如光线追踪、纹理和阴影。例如,当一束光从一个光源反射到一个物体上,然后反射到摄像机上,CUDA 核心可以用来计算这个光线路径上的所有细节,确保最终的图像看起来真实并且美观。
案例 2:面部识别 安全系统、智能手机和许多应用程序现在都使用面部识别技术。这需要通过深度学习模型来识别人的面部特征。Tensor 核心在这里发挥关键作用,它们可以迅速地处理神经网络中的大量矩阵乘法和加法,确保面部识别既准确又快速。
这个表格依据价格进行排序,价格从低到高。更多排名看后面《NVIDIA显卡排行榜》章节介绍。
H100 比 A100 快多少?
16-bit 推理快约 3.5 倍,16-bit 训练快约 2.3 倍。
https://timdettmers.com/2023/01/30/which-gpu-for-deep-learning/
以下是我们为您提供的,基于显卡 4090 上的 chatglm 和 chatglm2 模型的 Fine tuning 实验数据概览:
模型 | 数据条数 | 时长 | 技术 |
chatglm | 9999 | 1:42:46 | pt2 |
chatglm | 39333 | 6:45:21 | pt2 |
chatglm | 9999 | 1:31:05 | Lora |
chatglm | 39333 | 5:40:16 | Lora |
chatglm2 | 9999 | 1:50:27 | pt2 |
chatglm2 | 39333 | 7:26:25 | pt2 |
chatglm2 | 9999 | 1:29:08 | Lora |
chatglm2 | 39333 | 5:45:08 | Lora |
Falcon 是目前为止 huggingface 上排行榜第一的模型
根据不同的使用情境,以下是使用的建议GPU:
模型 | 显卡要求 | 推荐显卡 |
Running Falcon-40B | 运行 Falcon-40B 所需的显卡应该有 85GB 到 100GB 或更多的显存 | See Falcon-40B table |
Running MPT-30B | 当运行 MPT-30B 时,显卡应该具有80GB的显存 | See MPT-30B table |
Training LLaMA (65B) | 对于训练 LLaMA (65B),使用 8000 台 Nvidia A100 显卡。 | Very large H100 cluster |
Training Falcon (40B) | 训练 Falcon (40B) 需要 384 台具有 40GB 显存的 A100 显卡。 | Large H100 cluster |
Fine tuning an LLM (large scale) | 大规模微调 LLM 需要 64 台 40GB 显存的 A100 显卡 | H100 cluster |
Fine tuning an LLM (small scale) | 小规模微调 LLM 则需要 4 台 80GB 显存的 A100 显卡。 | Multi-H100 instance |
1、大模型内存选择
大模型训练需要高性能的计算机硬件来保证训练的效率和速度。建议选择具有高速的ECC或DDR5内存。现在训练时一般在 GLM 、 LLaMA 等大模型的基础上进行训练,国内会选择 A800/H800 x 8 的 GPU 配置,与此同时内存一般会选择相似大小以提升效率,常规选择 512 内存。
2、大模型所需磁盘
大模型训练需要存储大规模的数据集和模型参数,因此需要足够的存储资源来保证数据能够快速地被读取和处理。建议选择具有大容量、高速的存储设备,如 SSD 或 NVMe 固态硬盘。一般 4T-8T 不等。
3、推荐配置参考
GPU算力平台:大模型训练、自动驾驶、深度学习解决方案。
TPU 是 Google 专门用于加速机器学习的硬件。它特别适合大规模深度学习任务,通过高效的架构在性能和能源消耗上表现出色。
它的优点和应用场景
适用于图像处理、自然语言处理、推荐系统等多个领域。在国外,科研机构、大公司和初创企业普遍使用 TPU。
下面是对两款 NVIDIA GPU 在火山引擎、阿里云、腾讯云的价格进行对比:
A100:在云服务中,A100 是顶级的企业级 GPU,适用于高性能计算需求。
NVIDIA A100:
云服务提供商 | GPU 型号 | CPU 核心数 | 内存(GiB) | 价格(元/小时) |
火山引擎 | A100 | 14 核 | 245 | 40.39 |
阿里云 | A100 | 16 vCPU | 125 | 34.742 |
腾讯云 | A100 | 16 核 | 96 | 28.64 |
NVIDIA T4:
云服务提供商 | GPU 型号 | CPU 核心数 | 内存(GiB) | 价格(元/小时) |
阿里云 | T4 | 4 vCPU | 15 | 11.63 |
火山引擎 | T4 | 4 核 | 16 | 11.28 |
腾讯云 | T4 | 8 核 | 32 | 8.68 |
主要用于学习和训练,不适合提供服务。
Colab:谷歌出品,升级服务仅需 9 美金。colab.google.com
Kaggle:免费,每周 30 小时 T4,P100 可用。www.kaggle.com
AutoDL:价格亲民,支持 Jupyter Notebook 及 ssh,国内首选。www.autodl.com
建议:若需高速下载,尤其依赖于 GitHub 或 Docker 官方镜像,建议选择国外服务器。
此网站能实时对比各种型号显卡
https://technical.city/zh/video/nvidia-rating
下面截图给大家 Top 100,详细请看原文链接。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-12-21
台前调度是未来XR、AI工作流的重要交互方式
2024-12-21
NVIDIA全栈AI战略:从GPU到AI工作流的演进
2024-12-21
深度|AI 的下个十年,藏不住了!
2024-12-20
突破科技界限:OPPO 与 Azure 携手塑造智能手机新体验|智有可为
2024-12-20
Nvidia 的 CUDA 护城河到底有多深?
2024-12-20
9.3K Star 全能电脑AI助手!ScreenPipe:离线版 Rewind.ai,智能记录你的电脑活动
2024-12-20
火山引擎与FoloToy,乐鑫等企业联合发布 AI + 硬件智跃计划
2024-12-18
NVIDIA 推出高性价比的生成式 AI 超级计算机
2024-03-30
2024-05-09
2024-07-07
2024-07-23
2024-07-01
2024-06-24
2024-06-08
2024-06-05
2024-06-21
2024-07-11
2024-12-20
2024-12-15
2024-11-12
2024-11-11
2024-10-29
2024-10-22
2024-10-18
2024-10-16