微信扫码
与创始人交个朋友
我要投稿
就在几天前(2024年5月3日),Ollama推出了他们的模型库软件的最新版本。但作为 Ollama 的忠实用户,我觉得这次更新特别有意思,值得一提。其中有个特别的亮点,待会儿再详细说明。
新版本更新亮点
新版本有三个主要的更新亮点。
首先,他们修复了一些bug。具体来说,他们:
修复了模型不会结束运行导致API挂起的问题。
修复了在苹果硅芯片Mac上出现的一系列内存溢出问题
修复了在运行Mixtral架构模型时出现的内存溢出问题
其次,推出了几个新的模型供下载和使用。包括:
Llama 3:由Meta推出的新模型,是目前最强大的公开可用大型语言模型
Phi 3 Mini:由Microsoft推出的新型3.8B参数轻量级、最先进的开源模型。
Moondream:一款小型视觉语言模型,专为边缘设备高效运行设计。
Llama 3 Gradient 1048K:一款经过Gradient优化的Llama 3版本,支持最高1M词元的上下文窗口。
Dolphin Llama 3:未受审查的Dolphin模型,由Eric Hartford训练,基于Llama 3,具备多种指令、对话和编程技能。
Qwen 110B:首款超过100B参数的Qwen模型,在性能评估中表现突出
Llama 3 Gradient:另一个经过优化的Llama 3版本,同样支持最高1M词元的上下文窗口。
第三个,也许是最让人兴奋的更新是关于并发性能的提升。这还处于实验阶段,但它将允许你:
如果系统内存足够,同时运行两个或更多的大型语言模型
对一个大型语言模型发起两个或更多的请求
你可以通过两个新的环境变量来控制以上两种方式(或同时使用两者)。这些变量应设为整数值,含义很直接:
OLLAMA_NUM_PARALLEL:允许单个模型同时处理多个请求
OLLAMA_MAX_LOADED_MODELS:允许同时加载多个模型
想了解如何在macOS、Linux和Windows上设置这些变量的详细信息,请查看Ollama的常见问题解答。比如,我使用的是Windows系统,我需要创建新的系统环境变量。
资源:
Ollama常见问题解答:https://github.com/ollama/ollama/blob/main/docs/faq.md#how-do-i-configure-ollama-server
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-03-30
2024-04-26
2024-05-10
2024-04-12
2024-05-28
2024-05-14
2024-04-25
2024-07-18
2024-04-26
2024-05-06
2024-12-22
2024-12-21
2024-12-21
2024-12-21
2024-12-21
2024-12-20
2024-12-20
2024-12-19