微信扫码
与创始人交个朋友
我要投稿
在人类日常的沟通交流活动里,时间、地点以及人物这三方面的信息无疑是最为关键的要素。试想一下,倘若在聊天过程中,我们连这些基本信息都无法准确记住,那么想要将聊天内容进一步转化为需要推进落实的具体任务,便会成为一件难以企及的事情,如此一来,聊天也就仅仅停留在纯粹闲聊的层面了。
尤其在企业的日常经营中,将聊天、讨论、会议等转化为未来可执行的任务,AI大模型才可能真正地提升工作效率。为了评估大模型在时间、地点以及人物这些关键要素的能力,我们用一个会议助理作为入门的场景来做测试。在AI会议助理的落地过程中,需要从会议发起人提供的预定信息中准确提取出关键参数,以便完成会议室的预定任务。这些关键参数包括会议时间、参会人员和会议室名称。
大模型的强大之处在于它能从非结构化的自然语言中提取出结构化的数据。然而,人们对于相同事件的描述方式各有不同,例如预定同一天的会议室可能会使用“预定周五的会议室”、“预定2024年11月22日的会议室”或“预定明天的会议室”等多种表述。
为了确保会议助理能够准确且高效地工作,我们利用大模型从不同的自然语言表达中提取结构化数据,以应对各种复杂多变的预定请求。准确提取出这些参数,不仅能大大提高会议室预定的效率,也能减少人工处理的误差和成本,从而为整个组织带来更高的生产力和更好的用户体验。
先在文章开头给大家看下评估的结果,方便时间紧凑的朋友做个参考。
在会议助理系统中,参数提取是核心功能之一。这个过程涉及从用户提供的会议预定信息中准确识别和提取出关键参数,以便顺利完成会议室的预定任务。
具体来说,我们需要提取的参数包括以下几个方面:
1. 会议时间:这是会议的起始时间点。识别会议开始时间对于调度非常关键,因为它决定了会议何时开始,系统需要确保此时会议室可用。用户可能会以多种方式表述这一信息,例如具体的日期和时间(如“2024年11月22日早上9点”)、相对日期(如“明天”或“下周一”)以及模糊时间(如“下个月的第一个周五”)。
2. 参会人员:这是计划参与会议的人员名单。提取参会人员名单有助于安排合适的会议室容量和发送会议通知。这可能涉及识别不同表达形式(如邀请“李四”、“张三”参加或参会人员是“李四”、“张三”)。
3. 会议室名称:这是指特定的会议地点或房间。例如,用户可能提到“前海湾会议室”、“会议室前海湾”或者“30楼前海湾会议室”。提取出准确的会议室名称对于确保预定准确性和让参会者找到会议地点至关重要。
在我们的研究中,我们选择了八款领先的大语言模型进行详细测试,以评估它们在提取会议预定参数方面的性能。这些模型涵盖了几个主要的人工智能研究和开发机构,具体包括以下几款:
OpenAI的模型:
● GPT-3.5:作为OpenAI的早期版本,GPT-3.5已经展示了强大的自然语言处理能力,能够处理复杂的文本生成和理解任务。
● GPT-4o:GPT-4o是GPT-3.5的升级版,包含更多的参数和改进的算法,使其在文本理解和生成方面表现更加优异。
● GPT-4o-mini:这是GPT-4o的精简版,虽然参数较少,但在速度和资源需求方面具有优势,同时仍保持了较高的准确率和效率。
阿里云的模型:
● Qwen1.5-72b:这是阿里云推出的大型语言模型,专为处理大规模文本数据优化,旨在提升自然语言处理的精度和效率。
● Qwen2.5-72b:作为Qwen1.5-72b的升级版本,Qwen2.5-72b在算法和数据集上进行了进一步优化,提高了模型在各种自然语言处理任务中的表现。
月之暗面的模型:
● Moonshot-v1-32k:该模型由月之暗面开发,专注于高精准度的文本分析和生成任务,能够在复杂的语义环境中提取出准确的结构化数据。
Anthropic的模型:
● Claude-3-5-sonnet-latest:这款模型是Anthropic推出的最新版本,结合了先进的自然语言处理技术和大规模训练数据集,旨在提供卓越的文本理解和生成能力。
Meta的模型:
● Llama-v3.1:作为Meta发布的一款先进语言模型,Llama-v3.1在处理多语言文本和复杂语义任务方面表现出色,展现了强大的理解和推理能力。
通过选择这八款模型,我们可以全面了解不同模型在提取会议预定参数(包括会议时间、参会人员和会议室名称)方面的性能差异。这种详细的对比分析让我们能够确定哪种模型在特定任务中更具优势,并为将这些模型应用于实际场景提供了宝贵的见解。无论是在模型的准确性、效率还是在处理多样化表述方面的表现,我们的测试结果都为下一步的模型选择和优化提供了坚实的基础。
为了确保测试的客观性和公正性,我们首先利用GPT生成了一系列测试数据。这些数据旨在模拟各种不同的会议室预定情况,共包含100种不同的说法,详细涵盖了会议的各个关键要素:会议的开始时间、结束时间、会议时长、会议地点以及参会人员名单。
具体的步骤如下:
● 使用GPT生成测试语料:我们使用GPT生成了一系列具有代表性的预定会议室的语句。这些语句以多种方式描述了预定请求,例如不同的时间格式(具体日期、相对日期等)、不同的会议时长表达(明确时长、开始和结束时间等),还有各种可能的参会人员和会议室名称。
● 初步筛选测试语料:在生成这些语料后,我们进行了初步筛选,确保语料的多样性和代表性。我们的目标是覆盖尽可能多的不同表述方式,以考验模型在处理多样化语言输入时的能力。
● 人工核验与校准:为了确保生成的语料准确度,我们进行了人工核验。每一条测试语料都由人工审阅和校对,以确认其正确性和一致性。我们特别关注语句的逻辑连贯性和参数的准确表达,并根据当天的日期和上下文对生成的句子进行校准,验证其参数值的正确性。例如,当一句话提到“明天的会议”时,我们会根据实际日期来校准这一时间参数。
● 统计和验证参数值:在人工核验的基础上,我们对语料中的关键参数(如会议时间、参会人数和会议地点)进行了统计和验证。通过全面检查这些参数值,我们确保每条测试语料都是准确且一致的,使其能够合理地用于模型测试。
● 准备测试数据集:最终,我们将核验和校准后的测试语料整理成一个系统化的数据集。这个数据集不仅包含了多种不同表达方式的预定请求,还确保所有参数值的准确性和一致性,为模型测试提供了坚实的基础。
通过这些严格的处理步骤,我们确保了测试数据的高质量和多样性,使得后续的模型测试能更公正、公平地评估各个模型在提取会议预定参数方面的性能。这一系列措施确保我们的测试具有高可靠性和客观性,为选择和优化最合适的模型奠定了坚实的基础。这种细致入微的准备工作,不仅让我们能够准确评估不同模型的能力,还能为后续改进提供具体的参考和数据支撑。
● 数据准备:我们把生成的100种测试用例输入各个模型中,并记录它们提取参数的能力。每个用例经过重复输入多次以确保测试结果的稳定性。
● 模型执行:使用每个大模型的工具(tools)对预约信息进行解析,提取出“开始时间”、“结束时间”、“参会人员”和“会议室名称”等信息。
{
"model":"{model}",
"messages":[
{
"role":"system",
"content":"你是一个优秀的会议管理工具,可以根据用户的输入完成会议参数的提取,匹配预约,取消,修改等场景,示例如下: \n**创建会议**\n**问题1**:帮我预约16号晚八点到十点的会议室C506,讨论本周工作计划,参会人张三,李四\n**参数提取1**: {\"Subject\":\"本周工作计划\",\"StartAt\":\"2024-11-16 20:00:00\",\"EndAt\":\"2024-11-16 22:00:00\",\"RoomName\":\"C506\",\"Invitees\":[\"张三\",\"李四\"]}\n**问题2**:帮我预约明天晚八点到十点30楼上海会议室,讨论本周工作计划,邀请古月参加\n**参数提取2**: {\"Subject\":\"本周工作计划\",\"StartAt\":\"2024-11-16 20:00:00\",\"EndAt\":\"2024-11-16 22:00:00\"\"RoomName\":\"上海\",\"Invitees\":[\"古月\"]}\n当前日期为{now}。今天是星期{weekday}"
},
{
"role":"user",
"content":"{content}"
}
],
"tools":[
{
"type":"function",
"function":{
"name":"reserveMeeting",
"description":"预约会议",
"parameters":{
"type":"object",
"description":"Details for scheduling a meeting (action: 'schedule').",
"properties":{
"StartAt":{
"type":"string",
"description":"会议开始时间,时间格式为%Y-%m-%d %H:%M:%S,若无则返回空"
},
"EndAt":{
"type":"string",
"description":"会议结束时间,时间格式为%Y-%m-%d %H:%M:%S"
},
"RoomName":{
"type":"string",
"description":"会议室名称,若无则返回空字符串"
},
"Invitees":{
"type":"array",
"description":"参会人员,无则返回空",
"items":{
"type":"string"
}
}
},
"required":["StartAt","EndAt","RoomName","Invitees"]
}
}
}
]
}
● 结果对比:将模型提取出的结构化数据与我们人工核验的正确数据进行对比,评估各个模型的提取准确率。
测试结果:
时空人物大模型测试结果 | |||
模型 | 会议室准确率 | 参会人准确率 | 会议时间准确率 |
gpt-4o-mini | 95% | 100% | 80% |
gpt-4o | 95% | 100% | 84% |
gpt-3.5 | 75% | 98% | 72% |
qwen1.5-72b-chat | 69% | 98% | 41% |
qwen2.5-72b | 71% | 95% | 86% |
moonshot-v1-32k | 78% | 100% | 92% |
llama-v3p1-405b-instruct | 62% | 56% | 81% |
claude-3-5-sonnet-latest | 95% | 100% | 100% |
经过详细测试,我们发现各个大模型在对于中文参数提取方面表现各异。以下是一些关键发现:
● gpt-4o-mini:会议室名称的提取准确率达到95%,参会人员的提取准确率为100%,而会议时间的提取准确率则为80%。
● gpt-4o:会议室名称的提取准确率同样为95%,参会人员的提取准确率为100%,会议时间的提取准确率稍高,达到84%。
● gpt-3.5:会议室名称的提取准确率为75%,参会人员的提取准确率为98%,而会议时间的提取准确率为72%。
● qwen1.5-72b-chat:会议室名称的提取准确率为69%,参会人员的提取准确率为98%,但会议时间的提取准确率仅为41%。
● qwen2.5-72b:会议室名称的提取准确率略高,为71%,参会人员的提取准确率为95%,而会议时间的提取准确率则显著提高到86%。
● moonshot-v1-32k:会议室名称的提取准确率为78%,参会人员的提取准确率为100%,会议时间的提取准确率为92%。
● llama-v3p1-405b-instruct:会议室名称的提取准确率较低,为62%,参会人员的提取准确率为56%,会议时间的提取准确率为81%。
● claude-3-5-sonnet-latest:在所有测试模型中表现最为突出,会议室名称的提取准确率为95%,参会人员的提取准确率为100%,而会议时间的提取准确率高达100%。
总体来看,在中文参数提取这一块,Claude-3-5-sonnet-latest在整体性能上拔得头筹,特别是在会议时间参数的提取上表现卓越。GPT-4o和Moonshot-v1-32k也展示了较为稳健的性能,而Llama-v3p1-405b-instruct和Qwen1.5-72b-chat需要进一步优化才能满足高精准度需求。
倘若一个大模型仅凭借少量的参数便能够达成百分之百的精准度,那么大致存在着两种可能性。
其一,该大模型借助大量的数据以及丰富的案例,成功实现了无损压缩,且达到了极为极致的压缩比例。就好比将浩如烟海的数学练习题巧妙地压缩成了一个简洁的数学公式,在这样的情形之下,便触及到了真理的层面。
其二,AI 大模型通过外接一些专门的工具来实现这一目标,例如数学技术计算器、日历工具等等。要知道,这些工具可是人类依据现实世界的逻辑精心编排而成的,其本身同样也属于一种无损压缩的形式,借助它们,大模型便能够实现百分之百的精准度。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-05-28
2024-08-13
2024-04-26
2024-08-21
2024-07-09
2024-06-13
2024-08-04
2024-04-11
2024-07-18
2024-07-01