我要投稿

可以在手机端运行的大模型标杆：微软发布第三代Phi-3模型，评测结果超同等参数规模水平，有三个版本，最低仅1.8GB内存可以运行

发布日期：2024-04-24 11:33:33 浏览次数： 2560

Phi系列大语言模型是微软开源一个小规模参数的语言模型。第一代和第二代的Phi模型参数规模都不超过30亿，但是在多个评测结果上都取得了非常亮眼的成绩。今天，微软发布了第三代Phi系列大模型，最高参数规模也到了140亿，其中最小的模型参数38亿，评测结果接近GPT-3.5的水平。

Phi系列模型简介

大语言模型的一个重要应用方向就是在手机端运行。为此，30亿参数规模几乎是上限（超过这个规模的模型，需要通过量化等手段牺牲模型性能）。在这其中，微软的Phi系列模型是最具有竞争力的。

Phi系列模型的目的是希望在小规模参数的模型上获得传统大模型的能力。在2023年6月份，微软开源了第一代Phi模型，这个模型参数规模仅有13亿，这是一个纯粹的编程大模型，但是效果不错，三个月后，微软发布Phi-1.5模型，在Phi-1代码补全的基础上增加了模型推理能力和语言理解的能力，参数量不变。随后，2023年年底微软开源了Phi-2模型，这个模型的参数增长到27亿，但是MMLU评测结果超过了LLaMA2 13B，让大家十分惊叹。

四个月后的今天，微软发布了第三代Phi模型，这一代的模型最小参数38亿，最大规模拓展到了140亿，包含3个版本，分别是Phi-mini-3.8B、Phi-small-7B和Phi-medium-14B。参数规模增长的同时，能力也大幅提高。

第三代Phi-3模型简介

第三代的Phi模型是微软继续探索小规模参数语言模型的成果。尽管Phi-3包含了70亿和140亿两个较大规模版本的模型。但是最小的38亿参数模型依然可以在手机端运行。

Phi-3-mini-3.8B模型采用了transformer的decoder架构，默认上下文长度是4K，采用了和Llama-2类似的block结构，使用同样的tokenizer，词汇表大小为32064。因此，任何为Llama2开发的工具套件几乎可以直接应用在phi-3-mini上，这个模型训练数据量达到了3.3万亿tokens。

Phi-3-small-7B是新增的一个更大规模参数版本的Phi模型，参数70亿，但是tokenizer换成了tiktoken，使之有更好的多语言能力，词汇表大小也拓展到了100352，默认上下文长度是8K，模型也有分组查询注意力机制（Group Query Attention，GQA），从这个变化看，和Llama3的架构非常接近（Llama3的详细分析参考：https://www.datalearner.com/blog/1051713454866102 ）。模型的数据训练量达到了4.8万亿tokens。

Phi-3还有一个140亿参数规模的Phi-3-medium-14B版本，架构与最小的Phi-3-mini-3.8B相同，但是训练的epoch更多，训练的数据量和Phi-3-small一样，4.9万亿tokens。但是这个模型比Phi-3-small-7B的提升不如Phi-3-small-7B相比Phi-3-mini-3.8B提升多。作者认为可能是数据问题，所以后面他们还会改进，因此，把这个Phi-3-medium-14B称为preview版本。

Phi-3三个版本模型对比总结如下表：

模型版本	Phi3-mini	Phi3-small	Phi3-medium
参数规模	38亿	70亿	140亿
上下文长度	4K	8K	4K
词汇表数量	32K	100K	32K
tokenizer	BPE	tiktoken	BPE
训练数据量	3.3万亿	4.8万亿	4.8万亿

注意，这里的BPE全称就是byte-level Byte-Pair Encoding。

Phi-3模型系列更多的详情参考DataLearnerAI模型信息卡地址：

模型版本	Phi3模型信息卡地址
Phi3-mini	https://www.datalearner.com/ai-models/pretrained-models/phi-3-mini-3_8b
Phi3-small	https://www.datalearner.com/ai-models/pretrained-models/phi-3-small-7b
Phi3-medium-preview	https://www.datalearner.com/ai-models/pretrained-models/phi-3-medium-14b-preview

Phi-3系列模型评测结果接近GPT-3.5

Phi系列模型的评测结果一直非常优秀，尽管在复杂任务上与大规模参数版本的大模型有差距，但是作为一个几十亿参数模型来说，已经表现很不错了。

本次第三代Phi模型的提升也比较大。首先，我们看一下在30亿参数规模左右模型的对比结果：

数据来源：https://www.datalearner.com/ai-models/leaderboard/datalearner-llm-leaderboard?modelSize=3b

上图是DataLearnerAI收集的30亿参数以下大模型评测对比结果。可以看到，Phi-3-mini-3.8B得分远超其它同等参数规模的模型，效果非常好。而且不仅仅是MMLU的综合评测理解上，在数学推理GSM8K以及MT-Bench上表现也非常好。其70亿参数规模版本的模型在MMLU测评上甚至超过了Anthropic旗下的Claude3-Haiku模型！

如果不限制参数规模，与所有其它模型相比，Phi-3-medium超过了此前Mixtral-8×22B-MoE模型，表现非常亮眼：

数据来源L：https://www.datalearner.com/ai-models/leaderboard/datalearner-llm-leaderboard

在编程评测HumanEval上，这三个模型相差不大，甚至最大的140亿参数规模的Phi-3-medium-14B水平表现略有下降，十分奇怪：

数据来源：https://www.datalearner.com/ai-models/leaderboard/datalearner-llm-coding-leaderboard

从这些评测结果看，Phi-3模型的变现十分优秀。不过，有争议的是Phi系列模型一直因为评测结果很高但是参数量很少受到质疑。其实，从现在的情况看，因为大多数评测的数据过于陈旧，导致模型评测结果的区分度已经降低。而且很多模型都会在有监督微调（SFT）阶段针对性的做微调，会导致评测分数虚高。不过，从侧面看，在30亿参数规模的模型中，Phi系列一直是标杆，还是值得关注的。

其中Phi-3-mini的4bit版本可以用1.8GB内存运行。

Phi-3系列的开源情况

目前，Phi-3系列模型只发布了论文信息，还没有预训练结果发布。大家关注DataLearnerAI的模型信息卡可以获取后续的情况。根据Phi-2模型发布的情况看，最早Phi2模型是不可以商用的，但是过了一段时间，开源协议改成MIT开源协议，没有任何商用限制。Phi-3可以期待也是类似的开源协议。

53AI，企业落地应用大模型首选服务商

产品：大模型应用平台+智能体定制开发+落地咨询服务

承诺：先做场景POC验证，看到效果再签署服务协议。零风险落地应用大模型，已交付160+中大型企业

160+中大型企业正在使用53AI

立即咨询预约演示

百度智能云邀53AI：共创AI新纪元，启航智能新时代

2024-05-27

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

2024-05-22

热点资讯

最强 GPT 免费使用！GPT4O 开启多模态新时代！

2024-05-14

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

2024-04-26

【开源看AI】4.9K star！Khoj：完美融合本地文档和在线网页的AI第二大脑

2024-05-22

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示

2024-04-12

万字长文解析：大模型需要怎样的硬件算力

2024-03-30

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

2024-07-18

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

2024-05-10

更改ollama模型存储路径

2024-04-25

全面对比dify、coze、streamlit、chainlit

2024-04-26

开源项目Composio：突破 AI 智能体开发的边界

2024-08-13

大家都在问

Graphiti：如何让构建知识图谱变得更快、更具动态性?

2024-10-03

为什么中国会在AI竞争中最终取得胜利?

2024-10-01

o1的规划能力如何？LRM是未来吗？

2024-09-30

大模型RAG不存在了么？

2024-09-30

DICoT模型让AI学会自我纠错，提示词工程终结？

2024-09-30

大模型时代，GPT分类器会比BERT分类器更好吗？

2024-09-29

大模型 “四小龙” 背后的 “清华系” 究竟有多牛？

2024-09-27

大模型的AI时代，为什么还要关心数据库？

2024-09-27

开箱即用的企业大模型应用平台

工作+AI

业务+AI

AIx业务

大模型咨询