AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


腾讯AI Lab技术报告:一种以10亿人物角色驱动的新颖数据构造方法
发布日期:2024-07-01 19:22:27 浏览次数: 2021


大规模创建合成数据并非易事,尤其是确保数据的多样性。以往的研究尝试通过实例驱动或关键点驱动的方法来增加数据的多样性,但这些方法在可扩展性上存在限制。

推荐为了解决这些问题,提出了一种新颖的人物角色(Personas)驱动的数据合成方法,利用大型语言模型(LLM)中的多种视角来创建多样化的合成数据。

人物角色可以与广泛的数据合成提示(例如,创建一个数学问题或用户提示)一起工作,以指导大型语言模型(LLM)合成具有相应视角的数据。人物角色中心中的10亿个人物角色可以促进在十亿规模上为各种数据合成场景创建合成数据。

“人物角色库”(Persona Hub):一个从网络数据自动策划的包含10亿个不同人格的集合。这些人格作为世界知识的分布式载体,可以深入LLM中的几乎所有视角,从而促进大规模创建多样化的合成数据。角色库采用了两种可扩展的方法:Text-to-Persona和Persona-to-Persona。
  • Text-to-Persona方法通过特定的文本推断出可能阅读、写作或喜欢该文本的特定人格。
文本到人物角色的方法:它可以使用任何文本作为输入,只需通过提示大型语言模型“谁可能[阅读|写作|喜欢|不喜欢|...这个文本?]”,就可以获得相应的角色

  • Persona-to-Persona方法则是从已有的人格中衍生出具有人际关系的其他人格。
角色到角色方法:通过人际关系获取多样化的角色,这可以通过向大型语言模型提问“谁是与给定角色有密切关系的人?”来轻松实现。

通过“人物角色库”合成高质量数学和逻辑推理问题、指令(即用户提示)、知识丰富的文本、游戏NPC和工具(功能)的用例。

人格驱动的合成数据创建:零样本、少样本和增强型少样本提示方法

工具(函数)调用类型数据

使用人物角色库创建工具(函数)的示例

知识丰富的文本类型数据

使用人物角色库进行知识丰富纯文本合成的示例

逻辑推理类型数据

人物角色驱动方法论创建的逻辑推理问题

游戏NPC类型数据

在《魔兽世界》游戏中使用人物角色中的角色来创建非玩家角色(NPC)

在《天涯明月刀》游戏中使用人物角色中的角色来创建非玩家角色(NPC)

https://arxiv.org/pdf/2406.20094Scaling Synthetic Data Creation with 1,000,000,000 Personashttps://github.com/tencent-ailab/persona-hubhttps://huggingface.co/datasets/proj-persona/PersonaHub。



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询