支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


大模型能像专业分析师一样提取用户需求吗?

发布日期:2025-04-20 06:22:54 浏览次数: 1528 作者:真知浩见
推荐语

大模型在用户需求提取领域超越专业分析师,为产品开发和营销策略提供新思路。

核心内容:
1. 大模型在定性研究中的优势和定量研究的挑战
2. 研究方法:基于用户生成内容和访谈记录评估需求提取质量
3. 评估维度:是否符合客户需求、具体性、基于原始文本

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

用户洞察从业人员经常把探索/洞察用户需求作为自己的核心价值,而且是比定量研究更难、更能体现用研能力。

定性更能看出水平,对吧。

现在看来,因为大模型擅长语言、文本理解,对于用户洞察常用的定性和定量研究方法来说,大模型能先做好的反而是定性研究。而定量研究,则因为需要看的维度不统一、要生成表格、图的格式也不统一等,反而在工作流上不如定性研究那么顺畅。

今年 2 月份美国西北大学、MIT 预发表在arXiv 上的一篇论文,就对比了基础大模型、经过监督微调的大模型,以及专业分析师在提取用户需求上的质量差异

研究表明,通过监督微调(Supervised Fine-Tuning, SFT)的LLMs在提取客户需求方面表现优异,甚至在某些方面超过了专业分析师。这种方法不仅提高了效率,还能覆盖更广泛的客户需求范围,为产品开发、管理和营销策略提供了新的自动化工具。


来看他们是怎么做的。

研究是基于什么材料来评估提取的客户需求的质量的呢?

主要基于以下两类材料:

  1. 用户生成内容(UGC)

    • 包括在线评论、博客、论坛等来源,这些内容被广泛用于挖掘客户体验和需求。
    • 例如,木材染色剂产品的研究中使用了 14,341条在线评论,其中筛选出1,000条具有信息价值的评论供分析师和LLMs提取客户需求。
  2. 访谈记录

    • 包括客户的体验式访谈数据,例如与行业专家、研究人员和客户的对话记录。
    • 在访谈数据应用中,研究使用了 20份访谈记录,这些记录被分成语义相关的句子群组供LLMs和分析师提取需求。

可以看到,这两种材料的类型差别还是挺大的,UCG 内容很分散,而访谈记录的内容会更多,信息密度更大。

具体的研究设计是怎样的?

  • 盲测方法:  
    • 评估过程中,专业分析师对提取的需求陈述进行了盲测,无法分辨这些需求是由LLMs还是其他分析师提取的。
  • 样本构建(举例):
    • 木材染色剂产品:从1,000条筛选出的评论中随机选择150条进行评估,包括90条明确包含客户需求的评论(verbatims)、30条信息性评论(informative)、30条无信息评论(uninformative)。
    • 口腔护理产品:从专业访谈研究中筛选出86个最终需求,并将UGC评论与这些需求进行匹配。

有哪些评估维度?

会有另外的评估专家,从三个方面对大模型和专业分析师提取的用户需求进行判定:

  • 是否属于客户需求:判断提取的陈述是否符合客户需求的定义,是否概念化地表达了客户想要的利益。
  • 是否足够具体:评估提取的需求是否具有足够的细节,能够为产品开发和创新提供指导,而不是过于模糊或具体。
  • 是否基于原始文本(这个是为了评估大模型的幻觉问题):确认需求陈述是否合理地来自评论或访谈中的原始内容。

结果对比

  • 基础LLMs(Base LLM):表现较差,提取的需求通常过于泛化或直接重述原始评论,缺乏专业标准。
  • 监督微调LLMs(SFT LLM)
    • 提取的需求符合专业标准,且在准确性、细节捕捉和依赖原始文本方面表现优异。
    • 能够从大规模数据中提取更广泛的需求,包括小众需求和情感需求。
  • 专业分析师:表现稳定,但在某些方面(如覆盖率和效率)略逊于SFT LLM。

实际上,作者使用的基础模型是 Vicuna 13B ,只是一个小小的 13B 模型,有理由相信现在的 DeepSeek v3 的效果要比经过监督微调的Vicuna 13B 效果要好。

科研跟实际工作还是不一样,如果想要利用大模型比较好地提取用户需求,还是要根据你自己的工作情境,创建你自己的工作流。

后续的需求分层、优先级排序,这些事情依赖很多的背景信息,也仍然依赖人工完成。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询