我要投稿

Ollama高并发测试

发布日期：2025-03-24 15:57:29 浏览次数： 1649 作者：Python伊甸园

本文主要来测试一下ollama的高并发能力。

具体配置如下：

一、Ollama默认参数执行

我们打开4个窗口，然后分别让DeepSeek “给我讲一个笑话” ，看下不同窗口的答题顺序。

通过答题顺序可以看到，在不进行参数设置时，模型是一个一个执行。这样就说明，默认参数下，Ollama并不支持高并发，它会逐个回复我们的请求。

二、调整Ollama高并发参数

在ollama内，有两个参数与高并发有关分别是：

OLLAMA_MAX_LOADED_MODELS：每个模型将同时处理的最大并行请求数，也就是能同时响应几个LLM。

至于应用场景的话，就是我们可以同时在聊天页面调用两个LLM同时聊天，看看不同的LLM会有怎样不同的响应。

当然，这样设置后，不同的用户也可以在同一时间请求不同的模型。

OLLAMA_NUM_PARALLEL：每个模型将同时处理的最大并行请求数，也就是能同时回复多少个LLM。

这个参数对于高并发非常重要，如果你部署好了Ollama，假如有10个人同时请求了你的LLM，如果一个一个回答，每个模型回复10秒钟，那轮到第10个人将会在1分多种后，对于第10个人来说是不可接受的。

以上两个参数应根据自己的硬件条件自行设置。

高并发测试：

我们将以上两个参数添加到电脑的环境变量内，均设置为4。

OLLAMA_MAX_LOADED_MODELS  4OLLAMA_NUM_PARALLEL 4

设置好后，确认环境变量并重启Ollama，我们来看一下效果。

可以看到，在设置并发数为4之后，模型就能同时响应4个用户的请求。

一般来说，对于中小型的部署，可以采用Ollam当作底座，只需要部署多个服务器，通过反向代理与负载均衡即可实现。

如果要面对更多的并发请求，不建议使用Ollama当作底座，应采用VLLM进行部署。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-15

买最贵的GPU，挨最毒的打！

2025-04-14

大语言模型的训练后量化算法综述 | 得物技术

2025-04-14

AI Agent工程的6个要素

2025-04-14

DeepSeek|手把手教你完成AI投喂数据训练

2025-04-14

大模型量化方式详解及建议

2025-04-14

驯服AI的艺术：参数调整完全手册

2025-04-13

Ollama部署大模型以及配置外部访问

2025-04-13

企业私有化 LLM 应用开发路径：从技术跟风到业务驱动

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

一文读懂DeepSeek-R1本地部署配置要求（建议收藏）

2025-02-04

DeepSeek R1 671B 完整版本地部署教程来了！！！

2025-02-04

太爽了！o1 现在可以天天享用了

2024-09-18

万字综述 10+ 种 LLM 投机采样推理加速方案

2024-07-11

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

2024-07-09

FP8 低精度训练：Transformer Engine 简析

2024-07-11

彻底理解系列之：FP32、FP16、TF32、BF16、混合精度

2024-07-26

别被Deepseek低成本冲昏头！本地化部署后续的“甜蜜陷阱”，你真能扛住吗？

2025-02-05

ollama 部署 deepseek-r1 70B 模型完整指南

2025-01-27

o3-mini 完全指南：一个被 DeepSeek 破大防的模型

2025-02-01

大家都在问

RAGFlow vs Dify, 商业化落地场景选哪个？

2025-04-01

如何利用Dify轻松构建你的专属语料库？

2025-03-31

从 0 到 1，Agentic Ops 如何打造企业级 AI 生产力？

2025-03-20

DeepSeek-R1的Qwen-32B蒸馏模型与QwQ-32B模型，谁更强？

2025-03-16

部署DeepSeek的4条路，企业级客户到底该咋走？

2025-03-16

谷歌Gemma 3 27b 到底能不能打，写个游戏测试下？

2025-03-13

强化学习(RL)是什么? 它和微调有什么区别?

2025-03-13

从DeepSeek到Manus：如何实现本地LLM微调+联网开发？

2025-03-11

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB