我要投稿

Phi-3-vision：Phi3家族新视觉成员，小模型大潜力，超越Claude3-Haiku和Gemini1.0-ProV

发布日期：2024-05-23 07:24:27 浏览次数： 2902 作者：破狼

Phi-3-vision：Phi3家族新视觉成员，小模型大潜力

在2024Microsoft Build大会上，微软宣布Phi-3家族新增了一款多模态成员：Phi-3-vision。这是一个多模态LLM模型，融合了语言和视觉能力，目前已经开放试用：https://aka.ms/try-phi3vision。

Phi-3家族模型介绍

Phi-3模型是当前微软使用合成教科级数据训练而成的，具有出色推理性能、同时兼具经济成本效益的小型语言LLM模型，在各种语言、推理、编码和数学基准测试中，都超越了同等大小甚至更大的模型性能。Phi-3系列模型是微软创新的小体积大潜力的优秀LLM模型。

加上之前发布模型，微软已经开放了Phi-3-mini、Phi-3-small和Phi-3-medium、Phi-3-vision模型，Phi-3模型家族一共有4个模型；每一款模型都是经过指令调整，并根据微软的负责任AI、安全和安保标准进行开发，以确保模型的可用性和安全性。

• Phi-3-vision：是一个42亿参数的多模态模型，具备语言和视觉能力。
• Phi-3-mini：是一个38亿参数的语言模型，提供两种上下文长度（128K和4K）。
• Phi-3-small：是一个70亿参数的语言模型，提供两种上下文长度（128K和8K）。
• Phi-3-medium：是一个140亿参数的语言模型，提供两种上下文长度（128K和4K）。

这些系列模型都已经开放权重文件，在Hugging Face上可以找到上述所有Phi-3模型。

Phi-3模型已在各种硬件上优化，适用于多种硬件环境。包含了ONNX Runtime和DirectML的优化变体，可以在包括移动和网络部署在内的各种设备和平台上的推理运行。并且Phi-3模型已针对NVIDIA GPU和Intel加速器做了推理优化。

Phi-3-vision多模态LLM

Phi-3-vision是Phi-3家族中的第一个多模态模型，结合了文本和图像视觉功能，以及对现实世界图像进行推理和从图像中提取文本并进行推理的能力。同时还针对图表和图解的理解进行了优化，可用于生成数据洞见和回答问题。Phi-3-vision是在Phi-3-mini的基础模型上构建的，微软继续坚持小型模型大潜力的路线：提供了强大的语言和图像视觉推理性能。

模型评估：小尺寸大潜力

正如之前文章（微软Phi-3：可在iPhone14手机运行LLM，每秒12Token，性能优于最新Llama3-8B）分享，Phi-3-small和Phi-3-medium在同等大小甚至更大的语言模型中表现优秀的模型推理性能。

• Phi-3-small：仅拥有7B参数，在各种语言、推理、编码和数学基准测试中击败了GPT-3.5T。
• Phi-3-medium：仅拥有14B参数的小模型延续，超越了Gemini 1.0 Pro。

-Phi-3-vision：仅拥有4.2B参数继续延续之前模型优势，在通用视觉推理任务、OCR、表格和图表理解任务中超越了像Claude-3 Haiku和Gemini 1.0 Pro V这样的更大模型。

Phi-3-small评估

Phi-3-medium评估

Phi-3-vision评估

最后，Phi-3系列小型语言模型证明了，在小型语言模型也可以完成出色大模型潜力。这将有效的降低企业训练微调成本，经济成本效益实现企业特定微调训练述求。并且Phi-3系列模型，因为体积小要求推理硬件资源低，因此它们非常适合需要在本地设备部署推理的企业需求；由于Phi-3系列模型的优秀推理性能，企业也不需要针对这些任务进行大型的训练。

其中，Phi-3-mini、Phi-3-small和Phi-3-medium模型可以被用于各种语言理解和生成任务，如内容创作、摘要、问答和情感分析。除了传统的语言任务外，这些模型还具有强大的推理和逻辑能力，使它们成为分析任务的优秀候选模型。Phi-3系列模型还提供了更大的上下文窗口，因此加强了模型能够接收和推理大型文本内容（文档、网页、代码等）。

Phi-3-vision 模型则非常适合需要对图像和文本进行推理的任务。特别是适合OCR任务，包括对提取的文本进行推理和问答，以及图表、图解和表格理解任务。