AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


DeepSeek等8种大模型本地化部署及其表现

发布日期:2025-02-26 08:10:09 浏览次数: 1675 来源:单细胞组学
推荐语

探索本地化部署大模型的实践与效果,深入了解Ollama蒸馏模型在单细胞注释中的应用表现。

核心内容:
1. 访问受限背景下的大模型本地化部署方式
2. Ollama蒸馏模型的下载、加载与单细胞注释测试方法
3. 本地化部署模型的性能对比与内存需求分析

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

01

背景

    
由于访问过多,目前满血版DeepSeek R1 (深度思考模式)使用经常受限:
付费API的deepseek-reasoner模式也同样受限:
OpenAI开放了免注册的chatbox,但还是有地区使用限制。
本地化部署大模型有多种方式:Ollama和vLLM等。本文主要介绍Ollama的蒸馏模型(Distilled models)部署及其表现。

    02

目的


测试本地化部署的LLMs在单细胞注释分析中的表现

    03

方法


1. 下载Ollama。直接在官网下载,很方便。
2. 加载模型。
ollama run deepseek-r1:7b
    为了匹配用户的硬件条件,Ollama提供了不同大小的蒸馏模型。7b的蒸馏小模型比较适合大多数个人电脑(16GB内存)。这里的7b表示70亿参数量。模型文件的大小主要受参数量和精度(precision)影响。参数量和精度越高,对硬件的性能要求越大。为了方便做比较,ollama本地化部署模型的参数量和精度分别为7b~9b和4bit。
3. 测试本地化蒸馏模型在单细胞注释中的表现。
# 调用本地模型之前运行:ollama serve
git clone https://github.com/Zhihao-Huang/scPioneercd scPioneerRscript ./result/annotation_locally_test.R

04

结果


基于API的满血版大模型的结果:
本地化蒸馏模型的结果:

05

总结


1. 本地化部署的DeepSeek R1的准确率远不如满血版的DeepSeek。API的DeepSeek V3和DeepSeek R1的表现不俗。
2. 本地化模型中,llama3.1:8b的准确率最高;deepseek-r1的两个蒸馏版本70b和7b表现欠佳。
3. 7b+4bit的本地化模型需要5GB内存。CPU型号 Xeon(R) Gold 6238R CPU @ 2.20GHz,用50个逻辑核心数运行,需要1分钟左右。推荐个人电脑使用7b左右的参数量。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询