微信扫码
与创始人交个朋友
我要投稿
语言模型已在各种软件应用中展现出其有效性,尤其是在与自动化工作流程相关的任务中。这些模型拥有调用函数的关键能力,这对于创建AI代理至关重要。尽管大规模语言模型在云环境中表现出色,但它们往往伴随着隐私和成本方面的担忧。当前用于函数调用的设备端模型面临着延迟和准确性问题。我们的研究提出了一种新方法,使拥有20亿参数的设备端模型能够在准确性和延迟方面超越GPT-4,并将上下文长度减少95%。与基于RAG的函数调用机制的Llama-7B相比,我们的方法将延迟提高了35倍。这种方法将延迟降低到适合在生产环境中部署到各种边缘设备的水平,符合现实世界应用的性能要求。
语言模型大有可为,但云端大模型隐患重重
近年来,大型语言模型在自动工作流、智能助理等软件应用领域展现出了令人惊艳的能力。这些巨无霸级别的模型能够轻松理解人类的自然语言指令,并自动调用相应的计算机函数,完成复杂的任务流程。
然而,这些通常部署在云端的大规模模型也存在着一些令人忧虑的问题。首先是隐私泄露的风险。由于用户的指令和相关数据都需要上传到云端进行处理,一旦发生安全漏洞,敏感信息就可能遭到窃取。其次是高昂的使用成本。根据目前的API价格,持续使用大型模型进行推理计算,费用可能会是家庭和中小企业难以承受的重担。最后是对网络连接的依赖,一旦断开连接,就无法使用云端服务。
因此,需要一种新的解决方案,来克服大模型的这些弊端,同时保留其强大的功能优势。
Octopus v2模型极速问世
性能超神:大幅提升准确率,降低延迟
斯坦福大学最新推出的Octopus v2模型,正是一股清风,吹散了人们对于云端大模型的种种忧虑。这款模型引入了"功能标记"的创新设计,使其在函数调用的准确性和延迟两个关键指标上,都取得了前所未有的突破。
所谓"功能标记",是指将每个可供调用的函数与一个专有的词元标记关联起来。以往的做法是将函数名称和描述一并输入给语言模型,让模型自行生成正确的函数名。但这种方式存在一定的不确定性,模型很可能生成错误的多词元函数名。而Octopus v2则通过构建"标记-函数"的映射关系,只需预测出正确的单个标记,就可以精准命中目标函数。
值得一提的是,Octopus v2是一个2B参数的小规模模型,远小于GPT-4等业界大佬。但在充分利用"功能标记"优势后,竟然能在函数调用任务上超越GPT-4,实现99.524%的高精确度,且延迟只有后者的三分之一左右。这些数据再次印证了优秀的设计理念远比参数量级更为重要。
部署灵活:支持本地化,保护隐私
与需要持续上传数据的云端大模型不同,Octopus v2可直接部署在用户的本地设备上,如手机、平板、个人电脑等。这不仅避免了隐私泄露的风险,还能有效降低使用成本。实验数据显示,在相同的电池容量下,Octopus v2比基于检索增强生成(RAG)技术的7B模型,能执行37倍以上的函数调用任务。
此外,通过量化技术对Octopus v2进行优化后,其在普通安卓手机上的延迟控制在了1.1-1.7秒之内,完全可以满足智能助手等应用场景对实时响应的需求。可以预见,未来Octopus v2及其后续版本,将可广泛应用于手机、智能家居、车载系统等各种智能硬件中,为用户带来全新的体验。
广阔前景:各领域普及应用
Octopus v2模型的适用范围并不局限于某个特定的功能集。事实上,该模型可支持用户定义并训练新的"功能标记"集合,使之适配不同的应用场景。
例如,软件开发者可以基于常用的开发框架和API集合,为Octopus v2构建定制化的"功能标记"集,从而大幅提高开发效率,甚至实现自动化编程。操作系统厂商则可将该模型整合进入系统内核中,为不同系统组件分别训练并集成微调后的Octopus模型,使整个操作系统拥有强大的上下文感知和人工智能辅助能力。
除此之外,Octopus v2也可广泛应用于可穿戴设备、虚拟现实/增强现实设备、智能家居、车载系统等多个垂直领域。只要这些领域涉及特定的功能集,都可以借助Octopus v2模型提供人工智能辅助服务,实现智能化控制与管理。
创新之路冉冉上升
突破:函数转化为"功能标记"
Octopus v2模型的核心创新之处,在于将原本冗长的函数名称和描述,精简为单个的"功能标记"。这一看似简单的改变,实则是对传统函数调用范式的颠覆性突破。
传统做法中,语言模型需要在大量函数名称和描述中检索和匹配,再生成多个词元来构造出正确的函数名。这种过程不仅精度较低,而且需要大量的上下文信息作为支撑。而Octopus v2通过构建"功能标记-函数"的映射关系,使模型只需生成单个词元便能精确命中目标函数,从根本上简化了函数选择和参数生成的流程。
与此同时,由于无需载入所有函数描述,Octopus v2在推理时所需的上下文长度较之前缩减了95%以上。这不仅极大地提升了模型的计算效率和响应速度,也为其在资源受限的边缘设备上的部署扫清了障碍。可以说,Octopus v2开创了语言模型函数调用的全新范式。
惊喜:2B小模型媲美大模型
除了创新性的"功能标记"设计,Octopus v2本身作为一个2B参数的小规模模型,就已是一个技术突破。
一直以来,大家都认为只有大模型才能胜任复杂的推理和决策任务,而小模型的能力则相对有限。但Octopus v2却用实力狠狠打了所有人的脸。通过特殊的微调训练,它不仅在准确率上超过了GPT-4等大模型,在延迟方面的表现也远远领先。
Octopus v2的出现再次证明,合理的优化设计才是提升模型性能的关键,单纯追求参数量级的增加未必是上策。它用创新突破了小模型的瓶颈,向业界展示了小模型在合理优化后也能达到卓越性能的可能。相信以后会有越来越多的工作聚焦于小模型的优化之路。
未来可期
云端加速
目前Octopus v2的快速响应主要体现在移动端和边缘侧的部署,但在云端场景下,它的速度优势仍有待进一步挖掘。未来,研究人员将致力于提升Octopus系列模型在云端的计算加速能力,力争使其运行速度超越以往的任何大型模型。
本地部署
随着5G/6G时代的到来,热门应用的本地部署前景将变得更加光明。Octopus系列模型天生适合在智能硬件上本地化运行,可望在未来成为各类智能家居、车载系统、可穿戴设备的"大脑"系统。
Cloud-Edge双模式并行
除了单一的云端或本地部署模式,Octopus系列还将同步探索基于Cloud-Edge架构的双模式并行部署方案。根据不同用户场景的需求,灵活选择性能优先还是隐私保护优先,提供差异化的部署和计算服务。
总结
Octopus v2的问世标志着语言模型在函数调用能力上取得了历史性的突破。通过"功能标记"的创新设计,它在2B参数的小规模模型上就实现了媲美甚至超越大模型的卓越性能,从而有力地解决了大模型在隐私保护和计算成本方面的痛点。
未来,Octopus系列模型将持续在云端、移动端等多个领域拓展应用,力求为各类智能硬件赋能,为用户带来全新的人工智能体验。我们有理由相信,在不远的将来,Octopus及其后续版本一定能成为引领人工智能革新的重要力量。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-05-14
2024-04-26
2024-03-30
2024-04-12
2024-05-10
2024-07-18
2024-05-28
2024-05-22
2024-04-25
2024-04-26
2024-11-22
2024-11-22
2024-11-21
2024-11-20
2024-11-19
2024-11-18
2024-11-18
2024-11-16