我要投稿

AllHands | 基于大型语言模型的自然语言反馈分析框架

发布日期：2024-04-25 08:33:27 浏览次数： 2271 作者：奇点智源

微软的研究人员提出了 AllHands，这是一个创新的机器学习框架，利用大型语言模型（LLM）的强大能力，通过自然语言界面实现对大规模反馈的精确分类、抽象主题建模和灵活的问答分析。

技术介绍

数字化时代，软件开发者和产品团队每天都被来自各个渠道的用户反馈淹没，例如应用评论、论坛帖子、社交媒体评论等等。这些大量的原始反馈信息是了解用户体验、识别痛点以及发现改进机会的关键。然而，筛选来自多个平台和语言的成千上万的文本评论可能会让人觉得不知所措且费时，宝贵的见解往往会淹没在海量数据中。传统的反馈分析方法严重依赖机器学习模型和自然语言处理技术。这些方法通常涉及将反馈分类到预定义的类别或进行主题建模以识别潜在主题。虽然适用，但这些方法通常受限于对标记数据的依赖性或无法完全捕获反馈的细微差别和上下文。

让我们来看看 AllHands，这是由来自微软、浙江大学-伊利诺伊大学厄巴纳-香槟分校联合研究所和新加坡国立大学的研究人员开发的突破性分析框架，它承诺将彻底改变我们分析和提取来自大规模原始反馈的见解的方式。AllHands 的核心在于利用大型语言模型 (LLM) 的强大功能，实现自然语言界面，允许用户提出问题并接收综合的多模态响应。

AllHands 的妙处在于其结构化的工作流程，该流程将 LLM 的优势与传统反馈分析技术结合在一起。首先，它利用具有上下文学习能力的 LLM 将反馈准确分类到预定义的维度，而无需大量标记数据或模型微调。这种方法在各种反馈来源和语言方面展示了卓越的泛化能力，确保了多功能性和可扩展性。在 GoogleStoreApp 和 ForumPost 等数据集上的评估表明，GPT-4 少样本学习分别实现了令人印象深刻的 85.7% 和 86% 的准确率，优于 BERT 和 RoBERTa 等最先进的基线。

接下来，AllHands 利用 LLM 进行摘要主题建模，生成可读的主题标签，总结每个反馈实例的关键方面。这些标签比传统的基于关键字的⽅法更相关、更连贯，并能更有效地捕获反馈的上下文和细微差别。实验表明，AllHands 在所有数据集上都取得了优异的性能，GPT-4 和人机交互式改进分别产生了 -6.899 (GoogleStoreApp)、-6.628 (ForumPost) 和 -6.242 (MSearch) 的 BART 得分，明显优于 LDA 和 CTM 等基线。

AllHands 的真正力量在于其基于 LLM 的问答代理。该代理可以解释用户自然语言查询、将其翻译成可执行代码并以文本、代码、表格甚至图像的形式提供综合响应。无论您是在寻求统计见解、可视化效果还是产品改进建议，AllHands 的“问我任何问题”功能都能满足您的需求。在涉及三个数据集的 90 个不同问题的大型评估中，GPT-4 版本的代理在综合性、正确性和可读性方面分别获得了数据科学家评估的 4.21 分（满分 5 分）、4.35 分和 4.48 分。

在三个不同的反馈数据集上进行的评估表明了 AllHands 在各个阶段（从分类和主题建模到问答）的卓越性能。基于 LLM 的组件始终优于传统方法，提供准确的结果，并为用户提供用户友好且灵活的体验。

AllHands 的突出特点之一是它可以轻松处理复杂、开放式的问题。与传统反馈分析工具通常需要编码专业知识或遵循僵化模板不同，AllHands 允许用户使用自然语言提出查询，使其更易于被更广泛的 аудитория（audience）使用，包括非技术利益相关者。

例如，产品经理可能会问：“根据我们用户提供的反馈，他们希望我们改进或添加的三大功能是什么？” 然后，AllHands 将分析相关反馈，识别请求最多的功能，并提供全面的回复，包括可视化和数据支持的建议。

AllHands 的应用范围非常广，不仅限于软件开发和产品管理领域。任何分析大量文本反馈的行业，例如客户服务、市场研究或社交媒体监控，都可以从这个革命性的框架中受益。随着用户生成内容的数量呈指数级增长，像 AllHands這樣的工具将变得越来越宝贵，它们将帮助企业保持领先地位并提供卓越的用户体验。AllHands 通过利用大型语言模型的强大功能并提供自然语言界面，为反馈分析树立了新标准，使团队能够毫不费力地提取见解并自信地做出数据驱动决策。

在瞬息万变的技术世界中，像 AllHands 这样的创新提醒我们，在尖端人工智能与人类独创力相交的领域有着无限的潜力。随着我们继续突破可能的界限，有一件事是肯定的：反馈分析的未来已经到来，是时候拥抱“问我任何问题”的时代了。