微信扫码
与创始人交个朋友
我要投稿
人工智能的迅猛发展离不开大规模语言模型的驱动,但其庞大的计算资源需求限制了其在终端设备上的应用。微软最新推出的Phi-3系列小型语言模型,突破了这一瓶颈,将大模型级别的自然语言处理能力集成到手机等移动终端中,为AI应用开辟了广阔的新空间。
Phi-3系列模型拥有三大核心优势:
突破传统:小规模模型却拥有接近大型语言模型的语言理解和推理水平。
高效低耗:计算资源占用极少,非常适合嵌入式应用和移动智能终端。
聚焦核心:避免存储大量事实知识,着力培养核心的语言理解与逻辑推理能力。
引言:AI 语言大未来现身终端
人工智能的突飞猛进离不开大规模语言模型的驱动,但在嵌入式、移动等终端场景,庞大的计算资源需求仍然是一大障碍。为解决这一难题,微软最新推出了 Phi-3 系列小型语言模型,将大模型般的自然语言处理能力集成到手机等移动终端中。AI 的大未来,就从这个小小的 3.8B 参数模型开始。
Phi-3:创新之处
Phi-3系列模型的创新之处,首先在于训练数据的设计。研发团队着眼于儿童习得语言知识的过程,利用大型语言模型生成了主题丰富却语句通俗易懂的“睡前故事书”类数据,作为训练集的基础。这种数据策略有效地提升了模型的语言理解和推理能力,证明了数据质量比模型规模更重要。正是这种前所未有的训练数据构建方式,Phi-3 系列在小规模下就能掌握复杂的语言理解和推理能力。
其次,Phi-3 模型通过精心训练,已在多项权威测评中展现出了惊人的语言大模型级别能力。Phi-3 采用了高效的 Transformer 解码器架构,并针对移动设备进行了优化,使其能够在手机等个人设备上流畅运行。其默认上下文长度为 4K,并通过 LongRope 技术扩展到 128K,可处理更长的文本输入。以首款产品 Phi-3 Mini(3.8B 参数)为例,其在 MMLU、HellaSwag、AnLI、GSM-8K、MedQA 等数据集上的表现,几乎到达了 GPT-3.5 的高度,但体型却只有后者的十分之一。
此外,Phi-3 系列最大的优势在于极高的计算效率。与传统大模型相比,Phi-3 在保持优异语言能力的同时,对计算资源的占用却少得多。这使其不仅可部署于云端,更可轻松嵌入移动设备和物联网终端,为广阔的应用场景打开了全新的可能性。Phi-3 可以量化为 4 位,仅占用约 1.8GB 的内存,可以在 iPhone 等手机上本地运行,实现完全离线、实时的 AI 应用。实测在 iPhone 14 上,phi-3 每秒可生成超过 12 个 token,足以满足流畅的交互体验。
Phi-3家族:规模化发展
除了 phi-3-mini,微软还发布了 Phi-3 系列的其他模型,包括 phi-3-small (7B 参数) 和 phi-3-medium (14B 参数),它们在性能和功能上都有进一步提升:
•Phi-3-small: 使用了 tiktoken tokenizer 以支持更好的多语言处理,并采用了分组查询注意力和块稀疏注意力等技术,在保持长上下文检索性能的同时,进一步优化了 KV 缓存占用。
•Phi-3-medium: 拥有 40 个头和 40 层,嵌入维度为 5120,在各项基准测试中都取得了优异的成绩。
Phi-3系列模型的推出,为开发者提供了更多选择,可以根据不同的需求和应用场景选择合适的模型。
优势总结
总的来说,Phi-3 系列模型的优势主要有三点:
•突破传统: 小规模模型却拥有接近大型语言模型的语言理解和推理水平。
•高效低耗: 计算资源占用极少,非常适合嵌入式应用和移动智能终端。
•聚焦核心: 避免存储大量事实知识,着力培养核心的语言理解与逻辑推理能力。
应用前景:AI 无处不在
凭借其小巧高效但又智能强大的特点,Phi-3 系列模型的应用前景是广阔的:
•垂直领域: 为用户提供接近大模型级别的自然语言交互体验,例如智能客服、专业领域问答、特定知识库的检索咨询等。
•终端设备: 直接部署在移动设备、智能硬件和物联网等终端中,实现语音交互、信息检索等功能的隐私与实时响应。
•企业应用: 为企业量身定制高端的自然语言处理方案,有效降低成本,提升效率。
与竞品对比:脱颖而出
近年来,小型语言模型发展迅速,除了 Phi-3 系列,还有其他一些优秀的模型,例如 Google Gemma、Anthropic Claude 3 Haiku 和 Meta Llama 3 等。与这些模型相比,Phi-3 系列在推理能力、代码能力和安全性方面具有显著优势,并且拥有更大的模型规模选择,能够满足更广泛的应用需求。
未来展望:AI 新纪元的引领者
Phi-3系列的诞生标志着小规模高性能语言模型的时代已经到来。凭借突破性的创新,微软必将引领自然语言处理 AI 在更广阔的领域大显身手,推动人工智能技术触及生活的方方面面。未来,微软将持续加大在这一领域的投资力度,不断扩大模型规模、丰富训练数据,以进一步提升模型性能,并致力于进一步优化模型训练方法,在性能和计算资源占用之间寻求更加平衡的最佳组合,为更多应用场景提供完美的语言 AI 解决方案。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-03-30
2024-04-26
2024-05-10
2024-05-28
2024-04-12
2024-04-25
2024-05-14
2024-07-18
2024-08-13
2024-04-26