支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


4090单卡运行Deepseek r1:671B满血版

发布日期:2025-03-29 06:45:22 浏览次数: 1628 作者:缘来如赐
推荐语

探索NVIDIA RTX 4090显卡在Deepseek r1:671B模型中的性能极限。

核心内容:
1. 硬件配置要求:NVIDIA GeForce RTX 4090显卡及382G内存
2. 环境配置指南:CUDA、conda环境设置及依赖安装
3. 模型下载与优化:Deepseek-r1:671B Q4_K_M量化版下载及国内源设置

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家


需要配置

显存: 24G

内存:382G

模型文件: deepseek-r1:671b 的 Q4_K_M 量化

硬件配置


显卡:NVIDIA GeForce RTX 4090 24G


内存:64G * 8 DDR5 4800


cpu:Intel(R) Xeon(R) Gold 6430


环境配置


1.cuda环境,版本需要在12.4以上,

官网链接https://developer.nvidia.com/cuda-toolkit-archive


wget https://developer.download.nvidia.com/compute/cuda/12.6.0/local_installers/cuda_12.6.0_560.28.03_linux.runsudo sh cuda_12.6.0_560.28.03_linux.run


2. 安装conda环境(可选)


wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-py310_24.11.1-0-Linux-x86_64.shbash ./Miniconda3-py310_24.11.1-0-Linux-x86_64.shconda create --name ktransformers python=3.11conda activate ktransformers


3.安装必要依赖:


sudo apt-get update && sudo apt-get install gcc g++ cmake ninja-build


4.安装ktransformer:


## flash_attn安装pip install flash_attn -i https://mirrors.aliyun.com/pypi/simple/## ktransformer使用源码安装git clone https://github.com/kvcache-ai/ktransformers.gitcd ktransformers## 拉取子模块代码git submodule initgit submodule update## 运行编译脚本bash install.sh


下载速度过慢,修改编译脚本里(install.sh)指定为国内源:


pip install -r requirements-local chat.txt -i https://mirrors.aliyun.com/pypi/simple/


模型下载


模型文件是 deepseek-r1:671b 的 Q4_K_M 量化版。由于模型文件过大,所以下载速度比较慢。


使用 modelscope 下载


官网地址:https://www.modelscope.cn/models


pip install modelscopemodelscope download --model unsloth/DeepSeek-R1-GGUF --local_dir /path/to/models --include DeepSeek-R1-Q4_K_M-* --max-workers 108


命令参数解释:


model:是指定魔塔社区上的模型项目


local_dir:是指定文件的下载路径(路径不存在会自动创建)


include:是指定下载文件(其中 DeepSeek-R1-Q4_K_M-* 是匹配所有前缀为 DeepSeek-R1-Q4_K_M-的文件)


max-workers:是指定下载文件建立的连接数(一般该值设置为 CPU 核心数减 即可。本机 CPU 核心数为 112,这里指定 108,该值越大下载越快)。


模型运行 


进入配置好的conda环境之后,执行命令


python -m ktransformers.local_chat --model_path deepseek-ai/DeepSeek-R1 --gguf_path /path/to/model --cpu_infer 48 --force_think true --max_new_tokens 128


命令参数解释:


model_path :魔搭项目路径,用于远程拉取必要的json文件


gguf_path :下载的 gguf 模型文件所在的路径


cpu_infer:用于推理的 CPU 核心数,本机的 CPU 核心数是 64,这里设置 48cpu_infer 默认值是 1010 个核心数推理速度较慢,可以适当增加,但是不要超过 CPU 核心数减 2force_think:设置为 true 才能够看到模型的思考过程,否则默认是不输出模型的思考过程的。


max_new_tokens:需要生成的tokens数量


模型初次加载大约需要 10 分钟,模型将被载入内存的 buff/cache 中,如果内存不够,模型是无法被成功运行的,最终运行效果如下:

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询