我要投稿

小试牛刀 - MiniCPM-V-2.6在安卓手机运行

发布日期：2024-08-13 07:40:48 浏览次数： 3224

作者：DeepLearning笔记

微信搜一搜，关注“DeepLearning笔记”

MiniCPM-V系列发布后，除了优秀的多模能力，最让我偏爱的是端侧部署能力，面壁智能的工程师fork llama.cpp做修改以支持多模MiniCPM-V。本人也一直在官方的llama.cpp项目提意见，但一直未做相应支持，这点上必须给面壁智能点赞。

V2.5的时候折腾过，没成功，V2.6出来后又勾起来我的好奇心，今天终于走通了个大概吧？？特此记录，端侧设备：小米10-pro。

① 首先依旧是下载模型到本地-电脑，各位可以从mdoelscope(需要注册)和HF下载(HF需要翻墙)，不过也可以使用HF的镜像网站：https://hf-mirror.com/，具体下载命令如下：

pip install -U huggingface_hubLinux: export HF_ENDPOINT=https://hf-mirror.comWindows: $env:HF_ENDPOINT = "https://hf-mirror.com"
# huggingface中的模型较多，可以按需下载，但是mmproj-model-f16.gguf必须下载huggingface-cli download --local-dir-use-symlinks False --resume-download OpenBMB/MiniCPM-V-2_6-gguf --local-dir OpenBMB/MiniCPM-V-2_6-gguf
# 也可以使用modelscope下载git lfs installgit clone https://www.modelscope.cn/OpenBMB/MiniCPM-V-2_6-gguf.git

下载完成应该是下面的列表：

② 此时需要在手机上安装Termux（可以在手机上运行命令行，linux指令），我下载的是对勾这个版本：

https://github.com/termux/termux-app/releases

③ 安装好后需要克隆代码，可以先在电脑上下载完成，使用下面命令，然后用数据线连接手机和电脑，打开文件传输，将llama.cpp和前面下载的模型MiniCPM-V-2_6-gguf打包一起拷贝到手机的下载(downloads)目录：

git clone git@github.com:OpenBMB/llama.cpp.gitcd llama.cppgit checkout minicpmv-main

④ 接下来打开手机上的Termux软件，在命令行执行下面的命令（默认的路径就是手机上的home路径）：

apt update && apt upgrade -yapt install git make cmakeapt install ffmpegapt install pkg-config# 这个命令可能需要执行两次，可以将手机存储路径打开权限# 执行后会多出一个storage目录termux-setup-storage

⑤ 开始编译，不出意外会顺利编译完成：

cd storage/downloads/llama.cppmake -j 4make llama-minicpmv-cli

⑥ 一切都准备ok，执行下面命令，可以看到结果没问题，但是推理速度非常慢，应该是推理在cpu上：

./llama-minicpmv-cli -m ../MiniCPM-V-2_6-gguf/ggml-model-Q4_K_M.gguf --mmproj ../MiniCPM-V-2_6-gguf/mmproj-model-f16.gguf -c 4096 --temp 0.7 --top-p 0.8 --top-k 100 --repeat-penalty 1.05 --image xx.jpg  -p "What is in the image?"

执行结果如下：

注意：

1. 如果键盘支持蓝牙可以用手机连接，这样在上面输入也会方便很多。

2. 只在cpu上运行，还未跑通gpu，npu的路径。

3. app运行形式还未知晓流程。

参考：

1. https://github.com/OpenBMB/llama.cpp/blob/minicpmv-main/examples/llava/README-minicpmv2.6.md

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-10-22

DeepSeek-OCR 实测

2025-09-25

Qwen3-Omni：一个模型，全能不偏科

2025-09-19

手把手教学：用n8n+RSS+飞书实现多平台热点自动抓取（含RSS源分享）

2025-09-17

多模态AI质检：身份核验场景实践

2025-09-06

多模态大模型Keye-VL-1.5发布！视频理解能力更强！

2025-09-03

Nano Banana 暴击 GPT-4o 绘图，谷歌赢麻了

2025-09-02

首个Nano-banana企业级多模态RAG教程，适合电商、游戏场景

2025-09-01

MiniMax音频依托MCP协议，打造多模态Tool新标杆!

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Nano Banana 暴击 GPT-4o 绘图，谷歌赢麻了

2025-09-03

MiniMax音频依托MCP协议，打造多模态Tool新标杆!

2025-09-01

手把手教学：用n8n+RSS+飞书实现多平台热点自动抓取（含RSS源分享）

2025-09-19

首个Nano-banana企业级多模态RAG教程，适合电商、游戏场景

2025-09-02

多模态大模型Keye-VL-1.5发布！视频理解能力更强！

2025-09-06

2025-08-04

2025-08-25

2025-08-18

2025-09-17

Qwen3-Omni：一个模型，全能不偏科

2025-09-25

大家都在问

GenAI的多模态数据智能平台如何构建？

2025-08-04

本地AI对话神奇，ChatWise到底有什么用？

2025-05-26

什么是基于知识图谱的多模态推理？

2025-05-13

AI数字人领域重大突破：告别拼凑式合成，阿里OmniTalker能否开启音视频一体化新时代？

2025-04-08

Midjourney V7全面测评：50组多风格提示词实测，是否还有领先优势?

2025-04-05

如何结合多模态RAG和异步调用实现大模型内容理解？

2025-03-30

Chat GPT文生图不用DALL·E模型了？

2025-03-26

如何构建多模态AI知识库？

2025-03-05

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB