我要投稿

DeepSeek满血版云端私有化部署，支持知识库，仅2.5万/月！

发布日期：2025-03-05 18:12:12 浏览次数： 1720 作者：智星云算力

智星云提供一站式大模型服务方案，支持Deepseek全系模型（R1满血版/V3、70B/32B）及量化/非量化部署。

提供模型调优、RAG知识库构建与实时联网搜索能力。

集成Agent智能体框架实现多任务处理，配备多级鉴权体系保障数据安全，满足企业级场景需求，适配不同规模用户提供精准智能服务。

DeepSeek云端私有化方案：

DeepSeek云端私有化方案测试报告：

本报告针对两台4090服务器型号deepseek-R1的大语言模型在不同并发场景下（5 到 55 并发）的性能表现进行了系统测试。

测试指标涵盖整体耗时、吞吐量、每秒请求数（QPS）、平均响应延时、首 token 响应时间（TTFT）、每个输出 token 生成耗时（TPOT）、以及输入/输出 token 数量等。

所有数据均来自标准openqa数据集。

综合各并发级别的测试数据，deepseek-R1 模型在低并发（5、15）下响应较快，但随着并发数提高（25至55），系统吞吐量虽不断提升，但平均延时及每token生成时间也随之增加，特别是在高并发下尾部延时明显上升，模型在高并发环境下能够稳定处理请求。

并发与吞吐量以及输出token的关系图表：

吞吐量与并行

一、测试环境与配置

模型信息：deepseek-R1

超时设置：连接与读取超时均为120s

测试数据集：openqa

请求参数：

最大输出 token：2048

输入 token 数：约 22～28

输出 token 数：大致在 650～1200 范围内

并发测试：共测试了 5、15、25、35、45、55 并发，无一例失败请求

二、各并发级别数据概览

下表为各并发场景下的核心指标（平均吞吐量单位：tokens/s；QPS：每秒请求数）：

说明：从5、25、35、45、55并发测试中可见，随着并发数提高，系统整体吞吐量呈上升趋势，而平均延时及每个输出token的生成耗时也逐步增加；但15并发测试中TTFT明显偏高（平均3.025s），可能受测试样本较少或调度偶发延时影响。

三、关键性能指标

四、详细数据

5请求5并发

15请求15并发

25请求25并发

35请求35并发

45请求45并发

55请求55并发

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-29

MCP：AI时代的“万能插座”，大厂竞逐的焦点

2025-04-29

打起来了！MCP VS A2A，谁才是Agent的未来事实标准？

2025-04-29

Google 的 A2A 与 MCP 该如何选择？还是两种都用？

2025-04-29

一站式AI应用开发平台 Firebase Studio

2025-04-29

精华好文！用LLM评估LLM，真的靠谱吗？技术上如何实现？

2025-04-29

分而治之：全面解析分布式分离 Inference 系统

2025-04-29

AI 落地难？MCP 或许就是那把「关键钥匙」！

2025-04-29

企业级大模型推理和部署平台 2025

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

OpenAI o1与GPT4o的对比分析

2024-09-23

大模型｜“上下文长度”和“上下文窗口”不再傻傻分不清楚！

2024-07-31

一文带你了解大模型——智能体（Agent）

2024-05-28

50+个AI大模型在不同领域的应用案例

2024-08-04

全面对比dify、coze、streamlit、chainlit

2024-04-26

【深度】AI搜索产品深度分析-搜索原理和商业模式分析

2024-07-09

一文读懂OpenAI新发布o1系列大模型

2024-09-17

大家都在问

打起来了！MCP VS A2A，谁才是Agent的未来事实标准？

2025-04-29

Google 的 A2A 与 MCP 该如何选择？还是两种都用？

2025-04-29

精华好文！用LLM评估LLM，真的靠谱吗？技术上如何实现？

2025-04-29

大模型是否有必要本地化部署？

2025-04-28

给 AI 小白的说明书：什么是 Manus？AI Agent为什么重要？

2025-04-28

MCP爆火背后：AI Agent的生产力时代来了吗？

2025-04-28

从MCP到超级Agent：这场AI生产力革命将淘汰谁？

2025-04-28

一文了解：为什么大模型 Agent框架（A2A）采用 JSON-RPC 2.0？

2025-04-28

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB