AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


Ollama官方已支持MiniCPM-V 2.6模型
发布日期:2024-09-21 19:15:26 浏览次数: 1551


Ollama官方支持MiniCPM-V模型

近日,ollama官方发布了v0.3.10版本,该版本已正式官方支持MiniCPM-V模型。

新增模型:

  • • MiniCPM-V:一个强大的多模态模型,在几个基准测试中具有领先的性能。

  • • Yi-Coder:一系列开源代码语言模型,以少于100亿个参数提供最先进的编码性能。

  • • DeepSeek-V2.5: DeepSeek-V2的升级版本,集成了DeepSeek-V2- chat和deepseek - code - v2 - directive的通用和编码能力。

更新内容:

  • • 修复了某些模型在运行 "ollama show" 命令时出现的罕见错误。

  • • 对于与 CUDA 12 不兼容的旧版 NVIDIA 驱动程序,现在将使用 CUDA 11。

  • • 修复了使用 "ollama create" 命令从 safetensors 文件导入 Gemma 2 模型时出现的错误。

MiniCPM-V简介

MiniCPM-V是面向图文理解的端侧多模态大模型系列。自2024年2月以来,共发布了5个版本模型,目前该系列最值得关注的模型为MiniCPM-V 2.6。

MiniCPM-V 2.6 是 MiniCPM-V 系列中最新、性能最佳的模型。该模型基于 SigLip-400M 和 Qwen2-7B 构建,共 8B 参数。与 MiniCPM-Llama3-V 2.5 相比,MiniCPM-V 2.6 性能提升显著,并引入了多图和视频理解的新功能。MiniCPM-V 2.6 的主要特点包括:

  • • ? 领先的性能。 MiniCPM-V 2.6 在最新版本 OpenCompass 榜单上(综合 8 个主流多模态评测基准)平均得分 65.2,以8B量级的大小在单图理解方面超越了 GPT-4o mini、GPT-4V、Gemini 1.5 Pro 和 Claude 3.5 Sonnet 等主流商用闭源多模态大模型

  • • ?️ 多图理解和上下文学习。 MiniCPM-V 2.6 还支持多图对话和推理。它在 Mantis-Eval、BLINK、Mathverse mv 和 Sciverse mv 等主流多图评测基准中取得了最佳水平,并展现出了优秀的上下文学习能力。

  • • ? 视频理解。 MiniCPM-V 2.6 还可以接受视频输入,进行对话和提供涵盖时序和空间信息的详细视频描述。模型在 有/无字幕 评测场景下的 Video-MME 表现均超过了 GPT-4V、Claude 3.5 Sonnet 和 LLaVA-NeXT-Video-34B等商用闭源模型。

  • • ? 强大的 OCR 能力及其他功能。 MiniCPM-V 2.6 可以处理任意长宽比的图像,像素数可达 180 万(如 1344x1344)。在 OCRBench 上取得最佳水平,超过 GPT-4o、GPT-4V 和 Gemini 1.5 Pro 等商用闭源模型。基于最新的 RLAIF-V 和 VisCPM 技术,其具备了可信的多模态行为,在 Object HalBench 上的幻觉率显著低于 GPT-4o 和 GPT-4V,并支持英语、中文、德语、法语、意大利语、韩语等多种语言

  • • ? 卓越的效率。 除了对个人用户友好的模型大小,MiniCPM-V 2.6 还表现出最先进的视觉 token 密度(即每个视觉 token 编码的像素数量)。它仅需 640 个 token 即可处理 180 万像素图像,比大多数模型少 75% 。这一特性优化了模型的推理速度、首 token 延迟、内存占用和功耗。因此,MiniCPM-V 2.6 可以支持 iPad 等终端设备上的高效实时视频理解

  • • ? 易于使用。 MiniCPM-V 2.6 可以通过多种方式轻松使用:(1) llama.cpp 和 ollama 支持在本地设备上进行高效的 CPU 推理,(2) int4 和 GGUF 格式的量化模型,有 16 种尺寸,(3) vLLM 支持高吞吐量和内存高效的推理,(4) 针对新领域和任务进行微调,(5) 使用 Gradio 快速设置本地 WebUI 演示,(6) 在线demo即可体验。

性能评估

注意事项:

MiniCPM-V需要Ollama 0.3.10及以上版本。

参考:

https://ollama.com/library/minicpm-v
https://github.com/OpenBMB/MiniCPM-V
https://github.com/ollama/ollama/releases



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询