AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


端侧AI模型Octopus V2:推理比GPT-4快168%,准确率超Llama7B
发布日期:2024-04-09 07:39:30 浏览次数: 1960


斯坦福大学科研团队近期发布的Octopus V2端侧AI模型犹如一颗璀璨的新星冉冉升起,凭借其卓越的性能和高效的推理能力,在业界引起了巨大轰动。这款拥有20亿参数的端侧强大语言模型甫一亮相,便在开发者社群内迅速蹿红,首夜下载量即突破两千次大关,展现出前所未有的魅力。

Octopus V2的独特之处在于其能在智能手机、汽车和个人电脑等多种终端设备上流畅运行,尤其在涉及自动化工作流的任务中,它能够灵活调用函数,堪称构建AI智能体的核心要素。在性能层面上,Octopus V2在准确率和延迟上双双超越了炙手可热的GPT-4模型,而且大幅度缩减了上下文处理的长度,最高可达95%的压缩比例,大大提升了资源利用率。

相较于基于RAG函数调用机制的Llama7B模型,Octopus V2在响应速度上更是取得了惊人的飞跃,较之提升了36倍。这一卓越表现预示着一个崭新的设备端AI智能体时代已经来临。

为了更好地适应移动设备的需求,研究团队专为Android系统打造了Octopus-V2-2B版本,力求在Android设备上实现无缝对接,应用场景涵盖了从系统管理到多设备协同工作的广泛领域。Octopus-V2-2B展现出了在复杂场景下生成独立、嵌套和并行函数调用的能力,充分体现了模型的高度灵活性和实用性。

在模型训练与数据集构建方面,Octopus-V2-2B独树一帜地引入了功能Token策略,并将其贯穿于训练和推理全过程。研究团队通过精心设计的三步走策略构造高质量数据集:首先生成与任务相关的查询及相应函数调用参数;其次,利用适当函数组件生成无关查询以提高模型的区分能力;最后,依托Google Gemini保障数据准确性和完整性。实验期间,团队特意针对Android API进行深入研究,并以20个详尽描述为蓝本训练模型,其中一个实例便是用于根据分类、地理位置和语言筛选实时新闻。

在模型开发和训练上,Octopus-V2-2B选用Google Gemma-2B作为预训练模型基础,并探索了完整模型训练和LoRA模型训练两种方式。两者均采用AdamW优化器,并精细调整学习率、warm-up步骤以及线性学习率调度器。特别是LoRA模型训练,还包括了特定模块和参数的定制化设置,以解决传统RAG方法中可能存在的大量函数参数输入问题。

性能评估数据显示,Octopus-V2-2B在推理速度和准确率两方面均表现优异。在单一A100 GPU硬件环境下,其推理速度较“Llama7B + RAG解决方案”快36倍,与依赖集群A100/H100 GPU的GPT-4-turbo相比,更是高出168%。而在函数调用准确率上,Octopus-V2-2B超越了“Llama7B + RAG方案”31个百分点,达到了与GPT-4和RAG + GPT-3.5同等的性能水准。

这一系列卓越性能的取得,归功于Octopus-V2-2B独创的功能性token设计,该设计显著增强了模型的运算效率和预测准确性,使其在边缘计算设备上表现尤为突出,开启了人工智能在端侧设备应用的新篇章。

Octopus V2端侧AI模型的诞生无疑是人工智能技术发展的一大里程碑,其在保证高精度的同时大幅提升了推理速度,为移动端智能应用带来了无限可能性。通过深入洞察与技术创新,斯坦福大学的研究团队成功推动了端侧AI模型的发展,有力促进了人工智能技术在更多终端设备上的广泛应用,也为企业和个人提供了更为普惠、高效的人工智能解决方案。



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询