微信扫码
添加专属顾问
我要投稿
之前,有个项目需求是通过手机扫一扫,扫描工业领域的设备图片,然后进行设备准确的识别。当初是采用的Keras深度学习框架实现的,因此训练数据较少,导致识别效果并不是很好。随着多模态大模型的快速发展,类似这样的识别任务完全可以交给大模型去处理。
因为之前识别效果不是很好,现在需要基于多模态大模型进行一些改造。由于项目上客户提供的服务器不具备显卡且内存比较小,原本打算使用的MiniCPM-V 2.0模型和Qwen-VL-Chat就不能用了,MiniCPM-V 2.0尚不支持llama.cpp和Ollama(截至发文时,尚不支持,但MiniCPM官方已提交支持llama.cpp的PR),而Qwen-VL-Chat需要的资源要更大。
MoonDream2是一个计算机视觉模型,可以回答关于图像的现实问题。模型参数只有1.8B。这使得它可以在各种设备上运行,包括手机和边缘设备。
Model | VQAv2 | GQA | TextVQA | TallyQA (simple) | TallyQA (full) |
moondream1 | 74.7 | 57.9 | 35.6 | - | - |
moondream2 (latest) | 77.7 | 61.7 | 49.7 | 80.1 | 74.2 |
website:moondream
HuggingFace:vikhyatk/moondream2 · Hugging Face
Demo:moondream2 - a Hugging Face Space by vikhyatk
另外,MoonDream2模型遵循Apache 2.0,我们可以将MoonDream2用于商业目的。
Ollama自0.1.33开始支持Moondream的部署,目前处于预发布阶段。
ollama run moondream:1.8b-v2-q4_0
如果使用低于0.1.33版本的ollama部署就会报错:
C:\Users\zyn>ollama run moondream:1.8b-v2-q4_0
pulling manifest
pulling e554c6b9de01... 100% ▕████████████████████████████████████████████████████████▏ 828 MB
pulling 4cc1cb3660d8... 100% ▕████████████████████████████████████████████████████████▏ 909 MB
pulling c71d239df917... 100% ▕████████████████████████████████████████████████████████▏ 11 KB
pulling 4b021a3b4b4a... 100% ▕████████████████████████████████████████████████████████▏ 77 B
pulling f5451d8fa2ec... 100% ▕████████████████████████████████████████████████████████▏ 49 B
pulling 008ca8822bcd... 100% ▕████████████████████████████████████████████████████████▏ 562 B
verifying sha256 digest
writing manifest
removing any unused layers
success
Error: llama runner process no longer running: 3221225477
将Ollama升级到0.1.33即可正常使用了:
C:\Users\zyn>ollama list
NAME ID SIZE MODIFIED
codeqwen:7b-chat-v1.5-q4_0 a6f7662764bd 4.2 GB 12 days ago
llama3:8b 71a106a91016 4.7 GB 11 days ago
moondream:1.8b-v2-q4_0 ad0714b7b564 1.7 GB 9 minutes ago
qwen:7b-chat-v1.5-q5_K_M 44ca6b3fda9d 5.5 GB 7 weeks ago
C:\Users\zyn>
MoonDream2模型不支持中文回答,但是能理解中文提问。
1、提问:识别图片中的设备是什么?
回答(翻译):图像中有大量的变压器,这些变压器是用于配电的大型电气设备。它们排成一排,有些放在地上。变压器有各种尺寸和形状,它们都坐落在水泥表面上。这一场景表明,这些变压器很可能是工厂或仓库的一部分,它们被储存在那里,并准备用于配电。
2、提问:识别图片内容,并说明图片中的人违反了哪些安全规定?
回答(翻译):图片显示,一名身穿蓝色衬衫、戴着眼镜的男子站在田地里。他正往旁边看,可能在观察远处的什么东西或某人。这名男子穿着一件蓝色夹克,在自然环境的衬托下显得格外显眼。场地被树木包围,背景中可以看到电线,这表明该男子所在的区域有一定程度的人类活动。
3、提问:识别图片中的表达式,并说明是否正确?
回答(翻译):该图像显示了加法问题1+3的黑白表示。数字1和3的字体比等式的其他部分大,使它们脱颖而出。这道题的写作方式似乎是一道数学题,但不清楚这些数字是实际数字还是只是一种表示。图像没有提供足够的信息来确定这些数字是真实的还是数学问题的一部分。
4、提问:识别图片中的文字并进行总结
回答(翻译):该图显示了一个显示汉字列表的计算机屏幕。文本似乎是外语,可能是中文,并以列表格式排列。文字是用外语写的,屏幕是用英语写的。该图像不包含任何其他对象或动作,焦点位于屏幕上显示的外来文本上。
5、提问:识别图片中的文字
回答(翻译):该图片的特点是一个计算机服务器机架,这是一个大型金属结构,旨在容纳和组织多个计算机组件。服务器机架放在铺有地毯的地板上,后面有一堵砖墙。
MoonDream2虽然参数只有1.8B,但其仍然表现出了比较强的图像识别能力和OCR文字识别能力,比较遗憾的是并不支持中文回答和中文的OCR识别。
基于以上的测试,项目上使用也是妥妥够用了。
统一提问:
Identify the power equipment in the picture. If it's a transformer, return 1; if a switch cabinet, return 2; if a utility pole, return 3; if an electricity meter, return 4; if a T-junction box, return 5; and if a manhole cover, return 6. Please provide only the numerical response, without any irrelevant explanations.
(识别图片中是什么电力设备,如果是变压器就返回1,如果是开关柜就返回2,如果是电线杆就返回3,如果是电表就返回4,如果是T接箱就返回5,如果是井盖就返回6。你只需要返回给我具体的数字,不要返回其他无关紧要的解释。)
目前只能识别具有明显特征,及与其他有明显区别的设备,相信如果经过一定的专业设备图片微调后,识别能力可以更上一层楼。
最后再期待一波MiniCPM-V 2.0能尽快支持llama.cpp和ollama。
推荐阅读:
超越Qwen-VL-Chat 10B、CogVLM-Chat 17B,MiniCPM-V 2.0多模态大模型部署与测试
阿里开源首个千亿参数大模型-Qwen1.5-110B,可通过Ollama部署
基于ReAct设计模式,使用Java实现简单的Text2SQL Agent
关注我,定期分享前沿大模型应用。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-02-01
2025-01-01
2024-08-13
2025-02-04
2024-07-25
2024-04-25
2024-06-13
2024-09-23
2024-04-26
2024-08-21
2025-03-17
2025-03-17
2025-03-17
2025-03-17
2025-03-17
2025-03-17
2025-03-16
2025-03-16