支持私有云部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


Ollama高并发测试

发布日期:2025-03-24 15:57:29 浏览次数: 1557 来源:Python伊甸园
推荐语

探索Ollama高并发性能的极限,了解如何优化并发处理能力。

核心内容:
1. Ollama默认参数下的并发表现测试
2. 调整参数以实现高并发配置
3. 高并发测试结果及部署建议

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家
本文主要来测试一下ollama的高并发能力。
具体配置如下:
一、Ollama默认参数执行
我们打开4个窗口,然后分别让DeepSeek “给我讲一个笑话” ,看下不同窗口的答题顺序。
通过答题顺序可以看到,在不进行参数设置时,模型是一个一个执行。这样就说明,默认参数下,Ollama并不支持高并发,它会逐个回复我们的请求
二、调整Ollama高并发参数
在ollama内,有两个参数与高并发有关分别是:
OLLAMA_MAX_LOADED_MODELS:每个模型将同时处理的最大并行请求数,也就是能同时响应几个LLM。
至于应用场景的话,就是我们可以同时在聊天页面调用两个LLM同时聊天,看看不同的LLM会有怎样不同的响应。
当然,这样设置后,不同的用户也可以在同一时间请求不同的模型。
OLLAMA_NUM_PARALLEL:每个模型将同时处理的最大并行请求数,也就是能同时回复多少个LLM。
这个参数对于高并发非常重要,如果你部署好了Ollama,假如有10个人同时请求了你的LLM,如果一个一个回答,每个模型回复10秒钟,那轮到第10个人将会在1分多种后,对于第10个人来说是不可接受的。
以上两个参数应根据自己的硬件条件自行设置
高并发测试
我们将以上两个参数添加到电脑的环境变量内,均设置为4。
OLLAMA_MAX_LOADED_MODELS  4OLLAMA_NUM_PARALLEL 4
设置好后,确认环境变量并重启Ollama,我们来看一下效果。
可以看到,在设置并发数为4之后,模型就能同时响应4个用户的请求。
一般来说,对于中小型的部署,可以采用Ollam当作底座,只需要部署多个服务器,通过反向代理与负载均衡即可实现。
如果要面对更多的并发请求,不建议使用Ollama当作底座,应采用VLLM进行部署。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询