我要投稿

Pixtral 12B：本地部署、图像分析和OCR功能全解析

发布日期：2024-09-14 23:18:25 浏览次数： 2305 作者：AI进修生

在本文中向大家展示如何在本地安装 Pixtral 模型，然后使用各种图像进行测试。我还会介绍一些这个模型的惊人功能，对了，这款模型来自法国公司 Mistral。

在此之前，展示一下 Hugging Face 上的这个 Pixtral 模型页面，

为什么它如此特别呢？因为 Mistral 是一家已经因其开源模型和模型质量而非常有名的公司，而 Pixtral 12B（120 亿参数）是他们的第一个多模态模型。

这个模型可以理解图像和文本，支持处理各种分辨率的图像，可以处理包含图像和文本的大型文档。此外，该模型有 128k 的上下文窗口，并且是开源的，权重可以通过 Apache 2 许可证获得。

在文章描述中我会放上模型卡的链接。根据目前的一些基准测试结果，这个模型的表现优于其他开源模型，例如 53 Vision、LLaVA（70 亿参数）、及 Claude 3 Haiku。

不过要注意，目前的比较对象大多是 70 亿参数的模型，而 Pixtral 是 120 亿参数的模型。因此我对这些基准测试结果持保留态度，我们将自己进行测试。

这个模型的优点在于它能够进行图像字幕生成，光学字符识别（OCR），提取数据，分析复杂图像，此外还可以作为视觉助手使用。理论介绍到此为止，现在让我们试试它的实际表现。

在开始本地部署之前，还想提一句，Pixtral 可能也可以使用Ollama进行部署，毕竟Ollama自定义模型包括Mistral（具体还没试过）。

好了，现在开始，我将使用 Conda 创建一个虚拟环境，叫做 Pixtral。

接下来我们安装一些必要的库，包括 torch、Transformers、Pillow、torchvision 以及其他一些库。此外还需要安装一个叫做 `mistral_common` 的库。这个过程会持续 3 到 4 分钟，所以我们耐心等待。

所有必要的库已经安装完成。因为这是一个受限模型，你需要登录 Hugging Face 并接受条款。为了从终端登录 Hugging Face，你还需要获取一个 Hugging Face 的免费 token，登录已经成功。

现在我启动 Jupyter Notebook，以便我们可以在浏览器环境中更方便地安装和管理模型。

Notebook 启动完成后，我会导入已经安装的这些库，并指定 Pixtral 模型，接着下载模型。你会看到我将 `chunk_prefill` 设置为 false，默认情况下它是 true。如果启用这个功能，可以将大块内容拆分成小块并一起处理，但我在这里设置为 false。

模型文件大约 25GB，下载并加载完成后，模型已成功启动，并显示了一些初始化信息，非常有趣。

现在我们来进行推理测试。

我给了它一个提示：“描述这张图片”，并提供了一张图像 URL。这是一张黑色狗的图片，接下来我们看看模型会怎么描述它。

运行后，模型的输出是：这张图片显示了一只黑色的狗，躺在木质表面上，直接看着镜头，表情十分放松。

很难相信吧？这描述得很准确：确实是木头、确实是一只黑狗，表情也很放松。它说狗是躺着的，我认为也是。我们信任这个模型吧，非常不错。

接下来，我展示如何处理本地图片。你不会在模型卡中找到这段代码，因为我花了好几个小时调试才弄好。默认的聊天模板不支持本地图像，所以我写了一个小函数 `file_to_data_url`，用来编码图像，生成一个简单的扩展，这样就可以处理 PNG 或 JPEG 图像。

接下来，我调用这个函数，运行代码，然后从本地系统中选择了一张图片。给大家看一下我使用的图像：这是一个日落或日出的场景，有三只袋鼠，右上角有一群鸟。

模型的输出是：图像描绘了一幅宁静的沙漠场景，太阳正在地平线下落，天空中呈现出一片暖色。这描述得非常好，不过模型将袋鼠误认为是郊狼，不过它自己也有些不确定。

整体来说，模型表现还不错。接下来，我问模型能否数出图片中的鸟的数量：

模型说有 11 只鸟，但实际上有 13 只，因此在这方面模型出错了。不过在询问图片中的动物时，它正确地回答袋鼠。

现在我做 OCR 测试，给它一张包含多种语言字符的图片，包括英文字母、数字、符号等，看看模型能否准确识别。模型很快给出了结果，几乎完美地识别了所有字符，包括特殊字符、符号和重音字母，非常令人满意。

接着，我给了它维也纳圣斯蒂芬大教堂的图片，问它是哪座建筑和位于哪里。模型准确回答是圣斯蒂芬大教堂，位于奥地利维也纳，非常出色。

我还给了它一张交通标志图片，问它应该走哪条车道。模型正确识别了开放的车道和标志，非常准确。

接下来我给它两种动物的图片，模型也能正确区分出左边的是浣熊，右边的是小熊猫，非常智能。

然后我展示了交通堵塞的图片，模型也正确地指出路况非常拥堵。

最后，我给了它一张复杂的图表，

询问它这张图中发生了什么。

虽然模型对图表中的一些元素判断失误，但大部分信息都准确识别。

总体来说，Pixtral 模型的质量非常不错，尽管在某些复杂场景中还有改进空间。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-26

我在通用Agent上的探索设计初稿

2025-04-26

Ollama-Deep-Researcher-本地Mac结合魔搭社区模型搭建网页研究助手

2025-04-25

Manus开源版本！无需邀请码，老金手把手教你咋用！

2025-04-25

78k star，像写 Markdown 一样画流程图，这个开源工具太牛了！

2025-04-25

MarkItDown MCP：一款好用的将文件和办公文档转换为Markdown的AI工具！

2025-04-24

AI+SQL客户端，这款开源神器让数据库管理像聊天一样简单！

2025-04-24

效率革命！GitHub爆火的开源神器MinerU：PDF、网页、电子书一键转Markdown

2025-04-24

Suna：构建你专属“通用智能体”的开源利器

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Ollama 本地运行大模型(LLM)完全指南

2024-07-25

我把最近爆火的 DeepSeek-V3 接到了 Cursor！

2025-01-01

万字详解DeepSeek-R1，引爆AI圈的又一力作，大模型爆发势不可挡！

2025-01-21

太强了！10大开源大模型！

2024-05-06

QWEN2.5开源上新，14B/32B回归实测：这就是最强单卡本地模型！

2024-09-20

全民进入GPT-4时代：OpenAI强势推出GPT-4o mini！彻底取代GPT-3.5！

2024-07-20

如何免费使用 Claude AI？Claude使用指南！

2024-07-11

Qwen2 阿里最强开源大模型（Qwen2-7B）本地部署、API调用和WebUI对话机器人

2024-06-12

开源项目Composio：突破 AI 智能体开发的边界

2024-08-13

DeepSeek-V3 正式发布

2024-12-26

大家都在问

AI大模型火热，将 Hugging Face大模型转换为 GGUF 为何受关注？

2025-04-21

微软最新 Playwright MCP 服务器强势来袭？

2025-04-19

OpenAI开源的Codex CLI是什么？

2025-04-17

MCP，这个AI 开源协议有多大想象空间？

2025-04-15

Google ADK，知多少？

2025-04-13

一文看懂谷歌 A2A：它到底是个啥？为什么能带AI Agent 组队开黑？

2025-04-10

实测Llama 4，究竟是王者归来，还是廉颇老矣？

2025-04-07

4天开发，1700万美元融资：开源的Browser Use为啥这么火？

2025-04-03

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

友情链接：

CopyRight © 2012-2024 深圳市博思协创网络科技有限公司版权所有

粤ICP备17114055号

广州：广州市华景路37号(华景软件园)暨南大学科技大厦6楼（整层）

深圳：深圳市福田区泰然四路29号天安创新科技广场一期A座1204

上海：上海市浦东新区金新路58号1602室

微信扫码
和创始人交个朋友

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部