微信扫码
添加专属顾问
我要投稿
架构与技术细节:
类型: 稀疏专家混合(SMoE)模型。
参数: 从总共141亿参数中,有39亿参数是活跃的。
特色功能: 利用稀疏激活技术提高计算效率,减少运营成本。
工作流程:
输入处理: 使用多语言分词器处理输入。
计算过程: 每个特定任务只激活一部分总参数,这优化了速度和效率。
输出生成: 能够以多种语言产生输出,并在数学和编码任务中表现出专业能力。
优点:
成本效率高。
在数学和编码方面表现强劲。
性能:
在多种基准测试中表现出优于类似和更大模型的效率和性能。
局限性:
在需要密集参数交互的场景中表现可能较弱。
与支持更多语言的模型相比,语言支持有限。
架构与技术细节:
类型: Decoder only transformer
参数: 提供8B和70B两种配置。
特色功能: 使用分组查询注意力(GQA)和先进的分词器,词汇量为128K。
训练数据:
广泛的训练数据,包括超过15万亿的令牌,来源于公开可获得的资源,包括大量多语言和编码数据。
工作流程:
输入处理: 使用高容量分词器处理复杂多样的输入。
计算: 利用GQA高效管理较大上下文中的注意力机制。
输出生成: 通过增强的后训练技术改进了响应的对齐、多样性和准确性。
优点:
可在主要云平台上广泛部署。
增强的引导和推理能力。
局限性:
可能需要大量计算资源才能最佳运行。
在非英语语言的性能可能不如英语能力表现良好。
架构与技术细节:
Phi-3-mini: 该模型使用带有38亿参数的变压器解码器架构,最初在3.3万亿令牌上训练。它具有可变的上下文长度,最初设为4K,但可以通过LongRope技术扩展到128K。模型使用与Llama-2模型相同的词汇量为320,641的分词器,便于兼容性和开发工具的可重用性。
Phi-3-small与Phi-3-medium: 这些模型的参数分别扩展到70亿和140亿。它们具有如群组查询注意力的增强功能,以减少KV缓存占用,以及为优化长上下文检索而混合使用密集和块稀疏注意力层。
训练数据:
数据包括严格过滤的网络数据和由LLM生成的合成数据。训练制度涉及到精心选择过程,以确保包括提高模型的语言理解和推理能力的高质量数据。
工作流程:
数据过滤与准备: 利用基于LLM的过滤和合成数据生成来精炼数据质量,专注于提高推理能力并最小化冗余信息。
模型训练: 实施两阶段训练过程,首先是一般知识和语言理解,其次是专注于推理和专业技能的密集关注。
后训练优化: 包括监督微调(SFT)和直接偏好优化(DPO),以增强模型安全性,鲁棒性和与用户期望的一致性。
训练数据利用的创新: Phi-3模型利用了数据选择的新方法,显著偏离传统的规模定律,这些规模定律表明更大的模型无变表现更好。通过精炼数据质量,这些模型能够与像GPT-3.5这样的更大模型相匹敌,但参数数量少得多。
部署灵活性: Phi-3-mini为ONNX运行时优化,支持跨GPU、CPU和移动设备的多平台部署。其小型足迹允许在设备上本地部署,如智能手机,便于实现隐私、速度和资源效率至关重要的实时应用。
安全性和可靠性: 每种模型都经过严格的安全评估和红队评审,确保抵御有害输出,并符合Microsoft的负责任AI原则。包括敏感性审查和根据部署反馈循环的持续改进。
在紧凑设备上的高性能: 尽管它们的尺寸较小,Phi-3模型仍提供高性能,使其成为在设备上应用的理想选择,其中隐私、速度和资源效率至关重要。
跨应用的多功能性: 这些模型适用于从一般语言理解到需要详细推理和分析能力的专门应用的各种任务。
成本效益: 更小、优化的模型减少了计算需求,使AI对开发者和企业更加可获取和负担得起。
事实知识的容量: 由于它们的大小较小,这些模型可能在需要广泛事实回忆的任务上表现不佳,如在TriviaQA基准测试中的表现。
语言支持: 最初专注于英语限制了它们在多语言环境中的即时适用性,尽管正在进行的更新和扩展正在解决这一问题。
Phi-3的架构和工作流程展示了微软在推动小型语言模型能力边界上的承诺,使它们成为广泛AI应用的强大工具。
Reference
Name |
Tags |
URL |
Mixtral 8x22B |
Mixtral 8x22B |
https://mistral.ai/news/mixtral-8x22b/ |
LLama3 Model card |
Llama 3 |
https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md |
Introducing Meta Llama 3 |
Llama 3 |
https://ai.meta.com/blog/meta-llama-3/ |
Technical Report |
Phi-3 |
https://arxiv.org/pdf/2404.14219 |
Tiny but mighty: The Phi-3 small language models with big potential |
Phi-3 |
https://news.microsoft.com/source/features/ai/the-phi-3-small-language-models-with-big-potential/ |
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-02-01
2025-01-01
2024-08-13
2025-02-04
2024-07-25
2024-04-25
2024-06-13
2024-09-23
2024-04-26
2024-08-21
2025-03-16
2025-03-16
2025-03-16
2025-03-15
2025-03-15
2025-03-15
2025-03-15
2025-03-13