支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


Ollama+Nginx+4090打造DeepSeek-R1-32B高可用大模型集群,助力企业拥抱AI时代

发布日期:2025-02-12 08:49:46 浏览次数: 2456 作者:真聊技术
推荐语

探索AI时代企业级高可用模型集群的构建方案。

核心内容:
1. DeepSeek-R1-32B模型集群的成本效率与自主性优势
2. 模型集群在性能与可靠性方面的表现
3. 技术可控性与软硬件协同优化的实现策略

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

今年是 DeepSeek-R1 系列模型深入千行百业,助力企业全面拥抱 AI 变革 的关键一年!

无论企业是 自研应用,还是基于大模型推出 AIGC 产品,都需要高效部署 DeepSeek-R1。在企业级场景下,采用模型集群方案至关重要,其优势主要体现在以下几个方面:

  1. 成本效率与自主性

  • 长期成本优化:避免云厂商API调用费用,尤其在高并发场景下边际成本更低。

  • 数据主权保障:敏感数据无需外传,满足金融、医疗等行业的合规要求(如GDPR、HIPAA)。

  • 定制化能力:支持模型微调(Fine-tuning)、领域适配(Domain Adaptation)及业务逻辑嵌入。

  • 性能与可靠性

    • 低延迟响应:本地化部署消除公网传输延迟,结合模型量化技术可实现毫秒级推理。

    • 弹性扩展:通过Docker动态扩缩容应对流量波动,避免单点瓶颈。

    • 高可用架构:多副本部署结合负载均衡(如Nginx/HAProxy)实现服务冗余。

  • 技术可控性

    • 版本迭代灵活:支持灰度发布、A/B测试,快速验证模型优化效果。

    • 软硬件协同优化:可针对特定硬件(如NVIDIA GPU+NVLink)优化计算图与算子。

    首先,我们在中间件选型时充分考虑了企业的综合成本,最终确定了以下技术组合:

    DeepSeek-R1-32B(量化版) + Nginx + Ollama + 4090 GPU

    为确保系统的高可用性,至少需要配置两块 4090 GPU。同时,在应用端设置限流机制,当模型负载达到上限时,系统会向用户提供友好的提示。

      服务器繁忙,请稍后再试。

      总体部署方案

      1、选择 Ollama 的 Docker 版本,便于随时跟进 Ollama 的最新版本升级。

      2、采用 Nginx 反向代理,实现模型接口的负载均衡。

      3、对于 DeepSeek-R1-32B,我们推荐使用基于 Ollama 量化的版本(约 20G),主要考虑其能在单块 4090 GPU 上顺利部署,同时在能力和性能上均能满足需求。当然,如果企业经济实力充足,也可以选择原始版(约 70G),此版本启动一个模型服务需要 4 块 4090 GPU,而实现高可用则需配置 8 块 4090 GPU

      Linux下Ollama的安装

      实现目标:确保每个 Ollama 的 Docker 容器独占一块 4090 GPU,并配置独立端口。保证 Docker 启动时 Ollama 服务自动启动,停止 Docker 时 Ollama 服务也随之停止。

      执行以下命令创建与启动Docker:

        sudo docker run -dp 8880:11434 --runtime=nvidia --gpus device=0 --name DeepSeek-R1-1 -v /model/deepseek-r1-32b:/root/.ollama/models ollama/ollama:0.5.7

        第二个Docker可以启动8881端口,选择GPU的1号卡,名字DeepSeek-R1-2,具体命令大家自己写就可以。

        Nginx配置

        实现目标:负载所有Ollama提供的模型接口,实现模型高可用配置。

        Nginx配置如下:

          upstream deepseek_r1_api {    random;    server 192.168.1.10:8880 ;    server 192.168.1.11:8881 ;}
          server {    listen       80 ;    server_name  _;    charset utf-8;    access_log  /nginx/deepseek_llm.log main;
              location / {        proxy_pass http://deepseek_r1_api;    }}

          请求URL示例:

            http://ip:80/api/generate

            请求cURL示例:

              curl --location --request POST 'http://ip:80/api/generate' \--header 'Content-Type: application/json' \--data-raw '{  "model": "deepseek-r1:32b",  "prompt":"你能做些什么?",  "stream": true }'
              Open WebUI远程验证
              下载与安装
              地址:https://github.com/open-webui/open-webui
              找到“If Ollama is on your computer, use this command:”提示语,并复制命令。
              注:我们采用Docker环境部署,本地环境请自行安装。
              将复制的命令,在一个新的命令提示符窗口下打开。
              安装完成后可以在Docker列表中看到Open WebUI的条目。
              2、Open WebUI+DeepSeek-R1
              Open WebUI地址:http://localhost:3000
              拷贝地址在浏览器中打开,或是点击Docker Open WebUI条目中红框圈住的部分。
              打开后的Open WebUI界面如下:
              点击“开始使用”,完成管理员账号的创建,配置远程模型,就可以进入聊天界面。
              选择“管理员面板”-“外部连接”-“Ollama API”,添加外部地址。
              写在最后
              通过上述架构设计,企业可构建高可用、低成本的私有化模型服务,同时为后续模型迭代奠定技术基础。
              最后让它再为我写一首诗!

              我的提示词:

              用李白的诗体,写一首诗,随便写点啥主题。

            53AI,企业落地大模型首选服务商

            产品:场景落地咨询+大模型应用平台+行业解决方案

            承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

            联系我们

            售前咨询
            186 6662 7370
            预约演示
            185 8882 0121

            微信扫码

            添加专属顾问

            回到顶部

            加载中...

            扫码咨询