AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


大语言模型的深度比较:Mixtral 8x22B、Llama 3与Phi-3 (2024.4)
发布日期:2024-04-30 05:28:18 浏览次数: 2034


AI技术的比赛仍在继续.不同的开发者和组织已经推出了各具特色的大模型,以满足不断增长的需求和挑战

本文将深入比较三种领先的大语言模型——Mixtral 8x22B、Llama 3和Phi-3。这些模型不仅展示了人工智能技术的最新发展,也反映了在设计和部署这些高级系统时需要平衡的众多因素,如成本效率、多语言支持及其对环境的影响。通过对这些模型的详细分析,我们可以更好地理解它们在实际应用中的潜力和限制,挖掘创新应用市场.


Mixtral 8x22B -Mistral AI

架构与技术细节:

  • 类型: 稀疏专家混合(SMoE)模型。

  • 参数: 从总共141亿参数中,有39亿参数是活跃的。

  • 特色功能: 利用稀疏激活技术提高计算效率,减少运营成本。

工作流程:

  1. 输入处理: 使用多语言分词器处理输入。

  2. 计算过程: 每个特定任务只激活一部分总参数,这优化了速度和效率。

  3. 输出生成: 能够以多种语言产生输出,并在数学和编码任务中表现出专业能力。


优点:

  • 成本效率高。

  • 在数学和编码方面表现强劲。

性能:

  • 在多种基准测试中表现出优于类似和更大模型的效率和性能。

局限性:

  • 在需要密集参数交互的场景中表现可能较弱。

  • 与支持更多语言的模型相比,语言支持有限。


Llama 3 -Meta

架构与技术细节:

  • 类型: Decoder only transformer

  • 参数: 提供8B和70B两种配置。

  • 特色功能: 使用分组查询注意力(GQA)和先进的分词器,词汇量为128K。

训练数据:

  • 广泛的训练数据,包括超过15万亿的令牌,来源于公开可获得的资源,包括大量多语言和编码数据。

工作流程:

  1. 输入处理: 使用高容量分词器处理复杂多样的输入。

  2. 计算: 利用GQA高效管理较大上下文中的注意力机制。

  3. 输出生成: 通过增强的后训练技术改进了响应的对齐、多样性和准确性。

优点:

  • 可在主要云平台上广泛部署。

  • 增强的引导和推理能力。

局限性:

  • 可能需要大量计算资源才能最佳运行。

  • 在非英语语言的性能可能不如英语能力表现良好。


Phi-3 - Microsoft

架构与技术细节:

  • Phi-3-mini: 该模型使用带有38亿参数的变压器解码器架构,最初在3.3万亿令牌上训练。它具有可变的上下文长度,最初设为4K,但可以通过LongRope技术扩展到128K。模型使用与Llama-2模型相同的词汇量为320,641的分词器,便于兼容性和开发工具的可重用性。

  • Phi-3-small与Phi-3-medium: 这些模型的参数分别扩展到70亿和140亿。它们具有如群组查询注意力的增强功能,以减少KV缓存占用,以及为优化长上下文检索而混合使用密集和块稀疏注意力层。

训练数据:

  • 数据包括严格过滤的网络数据和由LLM生成的合成数据。训练制度涉及到精心选择过程,以确保包括提高模型的语言理解和推理能力的高质量数据。

工作流程:

  1. 数据过滤与准备: 利用基于LLM的过滤和合成数据生成来精炼数据质量,专注于提高推理能力并最小化冗余信息。

  2. 模型训练: 实施两阶段训练过程,首先是一般知识和语言理解,其次是专注于推理和专业技能的密集关注。

  3. 后训练优化: 包括监督微调(SFT)和直接偏好优化(DPO),以增强模型安全性,鲁棒性和与用户期望的一致性。


创新:

  • 训练数据利用的创新: Phi-3模型利用了数据选择的新方法,显著偏离传统的规模定律,这些规模定律表明更大的模型无变表现更好。通过精炼数据质量,这些模型能够与像GPT-3.5这样的更大模型相匹敌,但参数数量少得多。

  • 部署灵活性: Phi-3-mini为ONNX运行时优化,支持跨GPU、CPU和移动设备的多平台部署。其小型足迹允许在设备上本地部署,如智能手机,便于实现隐私、速度和资源效率至关重要的实时应用。

  • 安全性和可靠性: 每种模型都经过严格的安全评估和红队评审,确保抵御有害输出,并符合Microsoft的负责任AI原则。包括敏感性审查和根据部署反馈循环的持续改进。

优点和应用场景:

  • 在紧凑设备上的高性能: 尽管它们的尺寸较小,Phi-3模型仍提供高性能,使其成为在设备上应用的理想选择,其中隐私、速度和资源效率至关重要。

  • 跨应用的多功能性: 这些模型适用于从一般语言理解到需要详细推理和分析能力的专门应用的各种任务。

  • 成本效益: 更小、优化的模型减少了计算需求,使AI对开发者和企业更加可获取和负担得起。


限制:

  • 事实知识的容量: 由于它们的大小较小,这些模型可能在需要广泛事实回忆的任务上表现不佳,如在TriviaQA基准测试中的表现。

  • 语言支持: 最初专注于英语限制了它们在多语言环境中的即时适用性,尽管正在进行的更新和扩展正在解决这一问题。

Phi-3的架构和工作流程展示了微软在推动小型语言模型能力边界上的承诺,使它们成为广泛AI应用的强大工具。

Reference

Name

Tags

URL

Mixtral 8x22B

Mixtral 8x22B

https://mistral.ai/news/mixtral-8x22b/

LLama3 Model card

Llama 3

https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md

Introducing Meta Llama 3

Llama 3

https://ai.meta.com/blog/meta-llama-3/

Technical Report

Phi-3

https://arxiv.org/pdf/2404.14219

Tiny but mighty: The Phi-3 small language models with big potential

Phi-3

https://news.microsoft.com/source/features/ai/the-phi-3-small-language-models-with-big-potential/



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询