我要投稿

大语言模型的深度比较：Mixtral 8x22B、Llama 3与Phi-3 (2024.4)

发布日期：2024-04-30 05:28:18 浏览次数： 2776 作者：VirtuOasis

AI技术的比赛仍在继续.不同的开发者和组织已经推出了各具特色的大模型，以满足不断增长的需求和挑战。

本文将深入比较三种领先的大语言模型——Mixtral 8x22B、Llama 3和Phi-3。这些模型不仅展示了人工智能技术的最新发展，也反映了在设计和部署这些高级系统时需要平衡的众多因素，如成本效率、多语言支持及其对环境的影响。通过对这些模型的详细分析，我们可以更好地理解它们在实际应用中的潜力和限制，挖掘创新应用市场.

Mixtral 8x22B -Mistral AI

架构与技术细节：

类型： 稀疏专家混合（SMoE）模型。
参数： 从总共141亿参数中，有39亿参数是活跃的。
特色功能： 利用稀疏激活技术提高计算效率，减少运营成本。

工作流程：

输入处理： 使用多语言分词器处理输入。
计算过程： 每个特定任务只激活一部分总参数，这优化了速度和效率。
输出生成： 能够以多种语言产生输出，并在数学和编码任务中表现出专业能力。

优点：

成本效率高。
在数学和编码方面表现强劲。

性能：

在多种基准测试中表现出优于类似和更大模型的效率和性能。

局限性：

在需要密集参数交互的场景中表现可能较弱。
与支持更多语言的模型相比，语言支持有限。

Llama 3 -Meta

架构与技术细节：

类型： Decoder only transformer
参数： 提供8B和70B两种配置。
特色功能： 使用分组查询注意力（GQA）和先进的分词器，词汇量为128K。

训练数据：

广泛的训练数据，包括超过15万亿的令牌，来源于公开可获得的资源，包括大量多语言和编码数据。

工作流程：

输入处理： 使用高容量分词器处理复杂多样的输入。
计算： 利用GQA高效管理较大上下文中的注意力机制。
输出生成： 通过增强的后训练技术改进了响应的对齐、多样性和准确性。

优点：

可在主要云平台上广泛部署。
增强的引导和推理能力。

局限性：

可能需要大量计算资源才能最佳运行。
在非英语语言的性能可能不如英语能力表现良好。

Phi-3 - Microsoft

架构与技术细节：

Phi-3-mini： 该模型使用带有38亿参数的变压器解码器架构，最初在3.3万亿令牌上训练。它具有可变的上下文长度，最初设为4K，但可以通过LongRope技术扩展到128K。模型使用与Llama-2模型相同的词汇量为320,641的分词器，便于兼容性和开发工具的可重用性。
Phi-3-small与Phi-3-medium： 这些模型的参数分别扩展到70亿和140亿。它们具有如群组查询注意力的增强功能，以减少KV缓存占用，以及为优化长上下文检索而混合使用密集和块稀疏注意力层。

训练数据：

数据包括严格过滤的网络数据和由LLM生成的合成数据。训练制度涉及到精心选择过程，以确保包括提高模型的语言理解和推理能力的高质量数据。

工作流程：

数据过滤与准备： 利用基于LLM的过滤和合成数据生成来精炼数据质量，专注于提高推理能力并最小化冗余信息。
模型训练： 实施两阶段训练过程，首先是一般知识和语言理解，其次是专注于推理和专业技能的密集关注。
后训练优化： 包括监督微调（SFT）和直接偏好优化（DPO），以增强模型安全性，鲁棒性和与用户期望的一致性。

创新:

训练数据利用的创新： Phi-3模型利用了数据选择的新方法，显著偏离传统的规模定律，这些规模定律表明更大的模型无变表现更好。通过精炼数据质量，这些模型能够与像GPT-3.5这样的更大模型相匹敌，但参数数量少得多。
部署灵活性： Phi-3-mini为ONNX运行时优化，支持跨GPU、CPU和移动设备的多平台部署。其小型足迹允许在设备上本地部署，如智能手机，便于实现隐私、速度和资源效率至关重要的实时应用。
安全性和可靠性： 每种模型都经过严格的安全评估和红队评审，确保抵御有害输出，并符合Microsoft的负责任AI原则。包括敏感性审查和根据部署反馈循环的持续改进。

优点和应用场景:

在紧凑设备上的高性能： 尽管它们的尺寸较小，Phi-3模型仍提供高性能，使其成为在设备上应用的理想选择，其中隐私、速度和资源效率至关重要。
跨应用的多功能性： 这些模型适用于从一般语言理解到需要详细推理和分析能力的专门应用的各种任务。
成本效益： 更小、优化的模型减少了计算需求，使AI对开发者和企业更加可获取和负担得起。

限制:

事实知识的容量： 由于它们的大小较小，这些模型可能在需要广泛事实回忆的任务上表现不佳，如在TriviaQA基准测试中的表现。
语言支持： 最初专注于英语限制了它们在多语言环境中的即时适用性，尽管正在进行的更新和扩展正在解决这一问题。

Phi-3的架构和工作流程展示了微软在推动小型语言模型能力边界上的承诺，使它们成为广泛AI应用的强大工具。

Reference

Name	Tags	URL
Mixtral 8x22B	Mixtral 8x22B	https://mistral.ai/news/mixtral-8x22b/
LLama3 Model card	Llama 3	https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md
Introducing Meta Llama 3	Llama 3	https://ai.meta.com/blog/meta-llama-3/
Technical Report	Phi-3	https://arxiv.org/pdf/2404.14219
Tiny but mighty: The Phi-3 small language models with big potential	Phi-3	https://news.microsoft.com/source/features/ai/the-phi-3-small-language-models-with-big-potential/

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2024-07-10

科研助力神器：Scholar GPT，百倍提升你的研究效率！

2024-07-09

Doc2X：一款功能超级强大的文档解析与转换工具

2024-07-06

我对多智能体协作过程自动演化架构设计

2024-07-06

可穿戴AI，底层逻辑的变化

2024-07-06

一文彻底搞懂Transformer - Word Embedding（词嵌入）

2024-07-06

AI动态 | 腾讯元宝AI搜索能力升级：深度搜索模式上线

2024-07-06

智能手表 + AI ，都已经这么智能了？？

2024-07-06

死磕10万卡GPU算力集群，腾讯星脉网络2.0有什么秘密武器？

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

爆肝50小时，DeepSeek使用技巧，你收藏这一篇就够了！

2025-02-01

Ollama 本地运行大模型(LLM)完全指南

2024-07-25

我把最近爆火的 DeepSeek-V3 接到了 Cursor！

2025-01-01

一文读懂DeepSeek-R1本地部署配置要求（建议收藏）

2025-02-04

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

更改ollama模型存储路径

2024-04-25

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

OpenAI o1与GPT4o的对比分析

2024-09-23

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

2024-04-26

大家都在问

除了MCP我们还有什么？

2025-04-24

LLM 推理引擎之争：Ollama or vLLM ?

2025-04-24

专题策划（下）| 如何实现大模型与行业的深度耦合？

2025-04-23

OpenAI：就你们也配做智能体？

2025-04-23

为什么全参数微调能让大模型从“通才”变“专才”？

2025-04-23

RAG应用必备！10种向量数据库全解析、Weaviate、Milvus、pgvector、Qdrant等热门工具谁更强？

2025-04-22

18种RAG技术大比拼：谁才是检索增强生成的最佳选择？

2025-04-22

白话解析 DPO：如何让 AI 直接学习人类偏好？

2025-04-22

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

友情链接：

CopyRight © 2012-2024 深圳市博思协创网络科技有限公司版权所有

粤ICP备17114055号

广州：广州市华景路37号(华景软件园)暨南大学科技大厦6楼（整层）

深圳：深圳市福田区泰然四路29号天安创新科技广场一期A座1204

上海：上海市浦东新区金新路58号1602室

微信扫码
和创始人交个朋友

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部