微信扫码
与创始人交个朋友
我要投稿
图1:在使用大语言模型进行数据分析的典型工作流程中,用户需要从充满不同背景的冗长分析对话中识别、验证和解释见解。为了减轻这一过程中的手动和认知负担,我们采用了基于LLM的多智能体框架,自动化地提取、关联和组织见解。
大语言模型(LLMs)的普及彻底改变了自然语言界面(NLIs)在数据分析中的能力。LLMs可以执行多步骤和复杂推理,根据用户的分析意图生成数据见解。然而,这些见解通常与分析对话中的丰富背景(如代码、可视化和自然语言解释)纠缠在一起。这妨碍了在当前基于聊天的LLMs界面中高效地识别、验证和解释见解。本文首先与八位经验丰富的数据分析师进行形成性研究,以了解他们在LLM驱动的数据分析过程中的一般工作流程和痛点。然后,我们提出了一个基于LLM的多智能体框架,用于在分析过程中自动提取、关联和组织见解。基于此,我们介绍了InsightLens,一个交互式系统,可从多个方面可视化复杂的对话背景,以促进见解的发现和探索。通过与十二位数据分析师进行的用户研究表明,InsightLens的有效性得到了证实,显示它显著减少了用户的手动和认知工作量,而不会干扰他们的对话数据分析工作流程,从而实现更高效的分析体验。
索引词-大语言模型,交互式数据分析,自然语言界面
近年来,自然语言界面(NLIs)用于数据分析[53, 56]受到了广泛关注。用户用自然语言(NL)表达他们的分析意图和与数据相关的问题,促使NLIs生成相应的结果或数据可视化以供进一步分析。最近,诸如GPT-4 [1]和LLaMA [65]等大语言模型(LLMs)已经出现,并在自然语言理解、推理和生成方面取得了前所未有的性能。它们已成为NLIs(例如ChatGPT的高级数据分析[47])的支柱,以增强对话式数据分析[20,73],称为LLM驱动的数据分析。
在LLM驱动的数据分析中,LLMs可以执行多步骤和复杂推理,根据用户对数据集和先前对话历史的查询推导数据见解。这个过程通常会生成各种中间输出,如代码、可视化和NL解释[11]。在从LLMs的响应中识别关键见解后,用户通常需要将它们与相应的中间输出关联起来进行验证,因为LLMs有时会由于幻觉而提供不可靠或不正确的响应[77]。随着对话的进行,用户可能需要在对话的不同部分之间来回导航,以收集理解LLMs生成的当前分析所需的基本信息。同时,他们需要跟踪并理解以前发现的见解,以做出明智的决策并确定未来的探索。最后,用户将通过探索整个对话历史记录、组织和报告有价值的见解。
然而,当前基于聊天的LLMs界面使得这一工作流程繁琐且低效。由于分析对话通常冗长且充斥着各种类型的背景,用户需要在对话中频繁导航以提取见解并将其与支持证据(即中间输出)关联起来,这需要大量的手动和认知工作。相比之下,大多数现有研究仅跟踪单一形式的分析背景来源,如数据[15]、代码[31]或可视化[80],忽略了它们的组合,这妨碍了对分析过程的全面理解。此外,用户需要手动维护已发现的见解,无论是通过心理回忆还是通过外部记笔记[7]。鉴于LLMs快速生成的大量见解和不断扩展的对话背景,这一过程往往会导致相当大的认知负担。已经开发了许多交互式系统来帮助用户在各种场景中探索LLMs的响应,例如创意写作[62]和信息搜索[29,63]。然而,它们主要关注LLMs输出的语义背景(例如主题变化[34]),未能促进在分析对话期间数据背景的探索[25,59]。此外,大多数这类系统通常缺乏记录和组织见解的集成支持。
为了更好地了解LLM驱动的数据分析中的一般工作流程、挑战和设计要求,我们与八位经验丰富的数据分析师进行了形成性访谈研究。因此,我们提出了InsightLens,一个交互式系统,通过新颖的多智能体框架和交互式可视化,促进了有效的见解发现和探索。InsightLens超越了传统的仅限于与单个智能体互动且需要用户手动管理对话背景的分析聊天机器人[54],采用了LLM驱动的多智能体框架,自动提取、关联和组织对话数据分析中的见解。此外,InsightLens提供多层次和多方面的可视化,以帮助探索组织好的见解。具体来说,它具有见解导航地图和主题画布,以揭示整个分析过程中数据和语义背景的时间变化。它们提供即时反馈,指导见解的发现和探索,而不会干扰对话工作流程。为了评估InsightLens的有效性,我们进行了技术评估和用户研究。技术评估展示了我们的多智能体框架在准确提取、关联和组织见解方面的令人满意的性能。用户研究表明,InsightLens可以显著减少LLM驱动的数据分析中发现和探索见解的手动和认知工作量,从而实现更高效的分析体验。
总之,我们工作的主要贡献包括:
自然语言是与数据交互的直观模态,可以显著降低数据分析的障碍[25]。因此,数据分析的NLIs在多个领域得到了广泛研究,包括数据库[2]、自然语言处理(NLP)[36]和可视化[56]。Chen等人[8]将这些系统分为两类:用于数据查询和用于可视化的NLIs。我们遵循这种分类来回顾先前的工作,然后讨论LLM驱动的数据分析的最新进展。
用于数据查询的NLIs,或者更为人熟知的语义解析[30],将NL表达转换为机器可读的表示,如SQL和Python,以在知识库上执行[9]。早期系统利用模式匹配[78]、解析策略[52]或基于规则的方法[14]来理解输入查询的语义结构[2]。后来,神经方法[22,67]训练端到端的神经网络直接从NL输入生成可执行的SQL查询,克服了以往的限制,如模糊性或模糊的语言覆盖[28]。最近,研究人员开发了无需训练的策略,利用LLMs来解决端到端神经模型的问题,如低可解释性和大训练数据需求,并取得了最先进的性能[72,79]。例如,Binder [9]仅使用少量上下文示例将LLMs强大的推理能力与编程语言结合起来,以处理复杂的数据查询。
用于可视化的NLIs(V-NLIs)更进一步,根据查询结果响应交互式可视化。最初由Cox等人[12]引入,这些系统允许用户更多地关注他们的数据,而不是操作复杂的可视化界面[56]。许多工作旨在解决输入查询中的模糊性或不完整性。例如,NL4DV [45]为可视化生成分析规范,并明确突出了其响应中的模糊性。V-NLIs中的另一个重要研究方向是探索分析背景以保持对话流程[23,64]。Evizeon [25]应用语用学原理与可视化进行交互,并定义了三种上下文转换类型(即继续、保留和转移)。基于此,Snowy [59]推荐了支持对话式可视分析的上下文感知话语。类似地,我们的工作也突出了分析过程中的数据背景转换。总的来说,先前关于数据分析中自然语言交互(NLI)的大量研究为我们的工作奠定了坚实的基础。我们选择专注于LLM驱动的数据分析,因为它近年来普及并且交互方案相对不够成熟。这种新范式带来了独特的挑战,给用户带来了高度的手动和认知负担。因此,我们专注于调查会话式数据分析中的痛点,并帮助用户更好地发现和探索数据洞见。
分析溯源跟踪不同分析上下文的历史和演变,例如数据[49]、可视化[41]和洞见[19],有助于用户更好地理解分析过程。Ragan等人[50]引入了一个组织框架来描述不同类型和目的的溯源。基于这一框架,Madanagopal等人[41]进一步研究了任务和溯源类型之间的映射,例如知识转移、验证和意义构建。在这些过程中,研究人员提出了各种有效的溯源管理[46]和展示技术[5]。例如,Berant等人[4]提出了基于单元格的溯源,结合自然语言表达来解释对数据表的查询。而DIY[44]使用户能够通过可视化代表性数据子集转换来评估数据库上自然语言交互的正确性。类似地,XNLI[16]提供了交互式小部件,用于描述V-NLI中可视化溯源,以进行解释和诊断。我们的工作建立在这些努力的基础上,通过在LLM驱动的数据分析过程中提取和跟踪洞见和其他分析上下文,将这些洞见与相关证据(例如代码、可视化)关联起来,以促进用户理解和验证。
线性会话结构的局限性在支持LLM进行复杂信息任务时带来挑战[37]。因此,引入了许多视觉界面来促进LLM响应的探索[26, 38, 61]。例如,Sensecape[63]为信息搜索活动提供了多层次的探索和意义构建,而Graphologue[29]基于命名实体识别创建了LLM响应的交互式图表。这两者都增强了用户对单个响应的理解。为了支持多个响应的结构化检查,Luminate[62]系统地为人工智能与人类共同创作过程生成了一个多维设计空间。此外,其他工作侧重于更好地管理LLM的会话上下文。例如,C5[34]解决了人类和模型上下文遗忘问题,通过动态可视化对话过程中的主题转换。类似地,Memory Sandbox[27]实现了LLM驱动代理的透明和交互式上下文管理。然而,这些界面并未针对数据分析场景进行定制,因此在支持分析上下文的有效探索方面存在不足。我们的工作通过提供多层次和多方面的可视化来延伸这一研究领域,以促进在会话式数据分析过程中的洞见发现和探索。
我们系统的目标用户是利用LLM进行分析任务的数据分析师。为了了解LLM驱动的数据分析工作流程、痛点和最佳实践,特别是用户如何发现和探索数据洞见,我们进行了一项形成性访谈研究,总结了传统基于聊天界面的界面存在的挑战。根据我们的发现,我们提出了四项设计要求,以促进从LLM的会话上下文中发现和探索洞见。
我们采访了来自不同领域(包括商业智能、金融和电子商务)的八名经验丰富的数据分析师(E1-8,3名女性和5名男性,年龄从25到32岁)。每位参与者在数据分析领域拥有至少4年的经验,所有参与者最近都在工作中使用了LLM。我们开发了一个原型系统,作为由GPT-4驱动的本地分析聊天机器人。然后,要求参与者使用该系统进行开放式数据分析[16],探索Vega的电影数据集,该数据集包含709行和10列。我们鼓励参与者使用思想翻译协议,提出任何问题或疑虑。最后,我们收集了他们对分析体验的反馈,重点关注他们如何从对话历史中获取信息,组织获得的数据洞见以进行总结或进一步数据探索,以及在过程中遇到的挑战和障碍。访谈是在线进行的,持续时间约为60到80分钟。
LLM被提示进行分析查询,生成用于数据处理和可视化的代码,然后解释执行结果以提供数据洞见。我们观察到参与者在LLM驱动的数据分析过程中通常执行的三个操作:识别、验证和解释洞见。首先,他们通过仔细检查整个消息来识别每个响应中的关键洞见。大多数参与者(7/8)通过复制粘贴或截图临时保存洞见。然后,尽管他们通常发现自动生成的洞见相关且准确,大多数参与者(7/8)仍然通过调查相关代码、代码输出、可视化或自然语言解释来手动验证每个洞见。最后,在收集足够的洞见或完成特定的分析主题后,所有参与者都会检查先前的笔记或截图,回顾他们的发现并确定下一步的探索。然而,在整个过程中,参与者遇到了几个常见挑战,降低了他们的分析效率,以下是总结:
为了清晰起见,我们首先定义论文中使用的术语。
C1: 从LLM的响应中重复和繁琐地获取/验证洞见。在识别数据洞见时,参与者需要从LLM的响应中获取相关的分析上下文。所有参与者发现这一过程重复且繁琐,尤其是考虑到冗长而繁琐的对话历史。他们抱怨LLM倾向于“过多阐述每个结论背后的潜在原因”(E3),这迫使他们“手动定位和总结关键信息,而不是获得直观的结论”(E1)。当验证洞见时,参与者必须定位其他上下文(例如代码和可视化)作为洞见证据,并手动将它们与每个洞见关联起来。例如,E5花费了很多时间“滚动回去找到代码输出中的特定数字”,以确保在看到数字值时正确性。此外,当参与者反复修改他们的提示以获得预期的分析结果时,洞见证据将跨越多个响应,导致额外的手动导航工作。
C2: 洞见组织的重大开销。在解释收集到的洞见时,大多数参与者(7/8)设法将它们组织成有意义的子组,无论是基于数据属性还是分析主题。E7解释说,“有效的组织帮助他更好地在演示和文档中重复使用数据发现”。然而,这一过程被描述为“麻烦和费力”(E4),因为在综合之前,必须手动为每个洞见注释其特征。由于线性基于聊天的界面在有效洞见管理方面存在困难,参与者借助外部工具(例如Typora、Word)来记录他们获取的洞见和其他分析上下文的笔记或截图。然而,随着分析的进行,文档很快变得混乱,并且充斥着“过多的无序文本和图像”(E5),这给结构化组织带来了进一步的挑战。同时,频繁在不同应用程序之间切换被强调为“令人沮丧且耗时”(E3)。
研究结果表明,数据分析师在处理大型语言模型(LLMs)时遇到了困难。因此,我们旨在设计一种新颖的交互式系统,以更好地提取、关联、组织和探索见解,从而促进更高效的数据分析体验。设计要求可以总结如下。
R1:支持从LLMs的回复中自动提取见解并进行关联。手动从LLMs冗长的回复中提取见解并将其与相关证据关联是繁琐且容易出错的(C1)。因此,系统应不断监视对话,自动提取见解和见解证据,并建立和维护它们之间的关联。
R2:促进有效且即时的见解组织。根据数据属性或分析主题手动组织见解是低效且麻烦的(C2),尤其是涉及大量见解和混乱的分析背景时。同时,使用外部工具会增加额外的手动工作量和认知负荷。因此,系统应沿着分析过程组织见解。
R3:提供多层次和多方面的见解探索。从多个方面或层次探索先前的见解和其他分析背景是不直观且繁重的(C3)。因此,系统应允许多方面的见解探索(例如,时间、数据属性、分析主题)。此外,应突出见解的趣味性[81]和上下文转换[59],以帮助用户快速识别重要见解并增强分析的全面性。为了便于更轻松地导航和检查见解,应提供见解级别的概览,以及根据需求显示支持证据和其他相关见解的详细信息。
图2:InsightLens包括(A)用户界面和(B)多代理框架。用户(A1)上传数据集并指定他们的分析意图。数据科学(DS)代理(B1)解释意图,启动一个会话循环,然后传递给见解提取(IE)代理(B2)进行见解提取和证据关联。随后,见解管理(IM)代理(B3)通过识别它们的数据属性、分析主题和相关见解来组织见解。用户随后可以(A2)检查提取的见解并(A3)探索结构化主题。
R4:采用熟悉且不显眼的交互和视觉设计。用户通常欣赏会话方式,因为它与LLMs的直观和用户友好的交互方式。因此,与创建复杂的新工具相比,通过适当的可视化无缝增强现有界面更为有利。为避免陡峭的学习曲线和高昂的切换成本,系统应采用熟悉的视觉设计和灵活的交互方式,以满足不同用户需求,同时不干扰原始基于聊天的工作流程。
我们开发了一个多代理框架(图2B),用于自动提取、关联和组织见解。每个代理由一个LLM运行,并配备专门的工具和上下文记忆,以规划和执行可操作步骤来执行不同的任务。最初,数据科学(DS)代理与用户交互以完成他们的分析任务,生成一个会话循环。然后,这个会话循环传递给见解提取(IE)代理,后者从对话中提取见解并将其与相关的见解证据关联(R1)。同时,IE代理根据其语义和统计显著性评估提取的见解的趣味性(R3)。随后,见解管理(IM)代理检查见解的数据和语义特征,并根据以前的见解动态组织它们(R2,R3)。在对话循环中,InsightLens迭代更新可视化(图2A),以促进从多个方面和层次灵活高效地探索见解(R3)。本节描述了我们的提示技术,下一节介绍我们的用户界面。
作为我们框架的入口点,代理编写、执行代码,并生成见解以及各种中间输出,以满足用户的分析意图(图2B1)。我们利用Open Interpreter 为代理提供本地代码执行环境。此外,我们采用ReAct(Reasoning and Acting)[74]范式进行提示,要求代理逐步思考并根据先前观察调整其行动。在每个对话循环中,代理首先制定一个计划,其中包含针对数据集和分析意图量身定制的可操作步骤,然后按顺序执行每个步骤以满足分析需求。在每个步骤中,代理通过观察先前的代码执行结果和当前的分析阶段来确定其下一步行动(例如,优化代码,生成见解)。当代理生成足够的见解以充分解决分析意图时,此过程结束。为确保生成的见解的有效性和可靠性,我们指示代理在其回复中提供实质性的中间输出,如代码输出和可视化结果。
为了支持自动见解提取和关联(R1),IE代理在分析过程中与对话历史保持监视(图2B2)。其提示设计如下。
提供背景知识。在任务界定之前,我们介绍数据分析中一些关键术语的定义,如见解、见解证据和见解趣味性,借鉴先前文献和我们的形成性研究。这使代理熟悉基本领域知识,有助于提高任务性能和输出质量。随后,我们简要介绍当前正在处理的数据集,包括其标题和属性。这确保代理的对话焦点限于与数据和分析背景相关的信息,而不是提取无关的见解。最后,我们通过几个演示示例强调任务及其目标,以更好地利用LLMs的上下文学习[9]能力以获得期望的结果。
识别/优化见解。对于每个对话循环,我们指示代理仔细检查并确定其中是否包含见解和/或其他分析背景。同时,我们将先前识别的见解保留为代理的记忆,这不仅帮助它以一致的方式利用上下文学习提取见解,还使得对先前见解的优化成为可能。在分析对话中,用户并不总是每次都提出新的分析意图;他们经常调整提示以进行澄清或增强[11]。例如,用户可能要求另一种可视化来更好地说明得出的见解。因此,通过指导代理在“识别新见解”或“优化现有见解”之间进行选择,我们确保每个对话循环的全面分析,而不会遗漏关键信息。此外,提取的见解被总结为简洁的句子以便直观理解,而不是复制LLMs冗长的回复。
关联见解证据。为了自动将所有相关的见解证据与每个见解绑定,代理需要仔细审查每个对话循环中的代码、代码输出、可视化和自然语言解释,重点关注它们的数据和语义含义。这使代理能够定位直接支持每个见解的最小但关键部分,从而减轻用户在理解和验证见解时的认知负荷,而无需检查LLMs回复中的整个上下文。同时,还考虑了先前的见解,以进行潜在的修改或补充,以防新的证据可能由于用户的迭代提示而出现。
评估见解趣味性。受QuickInsights [13]的启发,我们通过两个因素来评判见解的趣味性(R3):其语义显著性(即,其主题应重要,如畅销产品)和其统计显著性(即,其相关统计指标应显著,如高标准差)。为实现这一目标,代理首先评估每个见解的语义含义以确定其重要性。然后,它对见解进行分类,并利用函数调用计算它们相应的统计指标。我们借鉴先前文献中有关见解分类[69]和将见解类别映射到适当统计函数[59]的想法。因此,代理为每个见解分配一个从1到5的数字趣味性分数。为确保评分一致性,还提供了以前的趣味性分数供参考。
为了根据数据属性和分析主题将见解分类到子组中,并随着分析过程一起组织见解(R2,R3),IM代理接收提取的见解并检查它们的数据和语义特征,以便根据数据属性和分析主题将其分类到子组中(图2B3)。
提供整体分析领域。为了确保每次生成有效的数据属性和相关分析主题,我们事先提供自动识别的数据集简要摘要和其属性列表。这使代理能够全面了解分析领域,以便促进见解组织。分类为主题/子主题。由于以LLM为动力的数据分析是一个动态过程,完整的见解集合无法预先确定,使得传统的主题建模技术(例如LDA)不适用。因此,我们提出了一种新颖的主题分类方法,以便为每个新提取的见解顺序分配分析主题。
我们采用这种方法在每次对话周期中以可靠且结构化的方式语义地组织提取的见解。
识别相关见解。在获取提取的见解的相应数据属性和分析主题后,我们将它们分类为子组,以便用户从不同角度进行探索。此外,我们通过两个维度确定相关见解。首先,通过比较它们关联数据属性之间的交集,我们识别与数据相关的见解。例如,与“MPG,年份,产地”相关的见解与另一个与“MPG,年份”相关的见解密切相关。其次,通过比较它们嵌入之间的余弦相似度,我们识别语义相关的见解。因此,为每个见解导出了两个相关见解列表。通过将这些见解联系在一起,我们满足了用户更容易参考或比较类似数据发现的共同需求。
我们开发了 InsightLens(图2A),这是一个交互式系统,建立在多代理框架之上,以促进LLM驱动的数据分析过程中高效的见解发现和探索。在本节中,我们首先介绍用户界面的概述,然后详细描述其核心功能、视觉设计和交互,包括用户输入、见解检查和主题探索。
InsightLens 的用户界面由五个协调的视图组成(图3)。它的设计核心原则是增强现有界面,同时保持用户原始的对话工作流程(R4)。鉴于对话的独特性,一开始展示最多信息,我们征求了我们形成性研究中的数据分析师的建议,并通过迭代改进了我们的视觉设计。因此,我们选择采用了“先细节,后概览”的策略[39],从左到右使用户界面更适用于对话工作流程,同时便于在分析过程中轻松检查和探索见解。
为了实现这一目标,我们保持了左侧的聊天窗口(图3A)类似于 ChatGPT,用户可以在其中输入他们的分析意图并查看LLM的回应。在其旁边,见解详情(图3B)显示了一个单独的见解及其相关数据背景和支持证据,以便进行彻底检查,而见解画廊(图3C)则展示了其数据和语义相关的见解,以便方便比较。此外,我们在见解迷你地图(图3D)中采用了基于矩阵的设计,以按时间顺序可视化分析过程。每一行代表一个独特的见解,展示其数据和语义特征。最后,右侧的主题画布(图3E)采用了基于树的设计来可视化分层主题结构,使用户能够跨不同分析主题探索他们的发现。
作为用户界面的入口点,用户上传他们的数据集并与 DS 代理(第4.1节)在聊天窗口中进行交互。我们采用了流式处理的方法来生成LLM的回应,以减少系统延迟[73]。紧挨着的是见解详情和见解画廊,垂直排列,以便对每个见解进行详细检查。随着对话流程的进行,我们在见解迷你地图中提供了提取的见解的概览,由垂直堆叠的见解行构成,按时间顺序排列。这四个视图协调一起无缝滚动。此外,通过点击每个见解行,用户可以方便地查看其详细信息,并在对话部分之间导航。总体而言,这些视觉设计和交互支持以下任务,以促进多层次和多方面的见解探索,并满足各种用户需求(R3,R4)。
检查见解详情。随着对话的进行,见解详情会随着最新提取的见解更新。它包括五个部分(即数据、代码、代码输出、可视化和见解),用于显示见解的摘要以及其相关数据背景和证据。这些部分是可折叠的,以满足不同用户背景和偏好(例如,一些分析师可能不熟悉编程,并更喜欢查看数据属性或可视化以进行验证和理解)。同时,在聊天窗口中LLM的原始回应中突出显示相关的自然语言解释。所有这些内容都是中间输出的最小但关键部分,以减少用户的认知负荷,实现快速检查和验证。为了在不同见解之间导航,用户可以通过以下方式之一:1)在聊天窗口或见解迷你地图中滚动,或者2)点击每个回应下方的圆点。还支持固定(ד),以临时禁用滚动协调,集中检查特定见解。
图3:InsightLens 的用户界面包括五个视图。聊天窗口(A)实现用户与LLM之间的对话交互。见解详情(B)显示当前关注的见解摘要及其相关数据背景和支持证据。见解画廊(C)以数据和语义方面呈现相应的相关见解。见解迷你地图(D)基于每个见解按时间顺序进行了可视化。主题画布(E)提供了所有对话中见解的分层主题结构。
比较相关见解。根据见解详情中当前关注的见解,我们在见解画廊中按相似度(或按时间顺序进行绑定)排列其相关见解。为简单起见,每个见解卡中仅显示相关可视化和见解摘要。为了使用户清楚地了解每个推荐背后的原因,我们显示了数据相关见解的相关数据属性和语义相关见解的相似度分数。用户可以点击画廊中的每个见解卡查看其详细信息以进行比较或参考。
揭示数据覆盖。在迷你地图的顶部,我们提供了一个直方图(图3D1),用于可视化每个数据属性的关联见解数量的分布。通过观察直方图,用户可以直观地了解哪些属性已经被广泛分析,哪些属性仍未被充分探索。还支持悬停和排序,以查看详细信息并快速定位未覆盖的属性。因此,在分析过程中,用户对其数据覆盖的认识可以得到显著提高。
理解上下文转换。在迷你地图的每个见解行(图3D2)中,我们用一组连接点(对应上述直方图)表示其相关数据属性。这不仅能够快速回顾每个见解的数据背景,还展示了分析过程中的上下文转换。例如,某些视觉模式可以代表不同类型的转换,如继续、保持和转变。如果用户希望优先考虑某些感兴趣的属性,例如始终跟踪“全球总收入”进行财务分析,他们可以拖动上述直方图中的条形图以调整列顺序。此外,我们对每个见解行进行着色以表示其分析主题,并揭示主题变化。总体而言,这种直观且有效的设计可以无缝集成到对话工作流程中,并帮助用户更好地审查他们在数据和语义两个维度上的分析。
突出洞察的趣味性。为了让用户能够轻松识别并重新查看高质量或有趣的洞察,我们将每个洞察的趣味性评分可视化为水平条形图 (图 3D3),同时在每个洞察行中添加一个类别标签以供参考。由于洞察的“趣味性”可能是主观的,并且在用户之间有所不同 [57],由大语言模型 (LLM) 自动分配的评分可能无法准确反映用户的偏好(即他们是否认为该洞察重要)。为了平衡这一点,我们在鼠标悬停时提供LLM对每个趣味性评分背后原因的解释,并且允许用户通过调整相应的条形图大小来动态调整评分。因此,该功能为用户提供了一种探索先前洞察的替代方式,无论是基于自动评估还是他们自己的判断,类似于洞察重要性的“书签”。
作为最高级别的概述,主题画布可视化了所有提取的见解的分层主题结构。我们选择基于树的设计,因为它对主题组织和探索具有简单和直观的特点(R3,R4)。该树(没有根节点)分为两个级别,分别代表主题和它们的子主题。每个节点表示一个主题/子主题,通过颜色区分,并标有其标题和关联的见解编号。这些节点与见解缩略图中的相应见解行进行视觉链接。此外,悬停在任何节点上将突出显示其相关见解(以及子主题,如果有的话),并显示简要描述,以便快速检查每个主题的要点。总体而言,主题画布会随着分析过程的自动更新,并与其他视图协调,以促进跨分析主题的见解探索。
InsightLens 的有效性取决于我们的多代理框架是否能够成功提取、关联和组织 LLM 驱动数据分析期间生成的见解。因此,我们进行了技术评估,重点关注以下内容:(1)见解提取的覆盖范围,(2)见解关联的准确性,以及(3)见解组织的质量和准确性。
数据集。我们从知名来源收集了10个数据集(6个来自 Kaggle,4个来自 Vega),涵盖不同分析领域(例如教育、经济学)和行数()以及列数()。我们为每个数据集手动创建了10个分析查询,共计100个样本。这些查询连同它们对应的数据集被输入到我们的系统中,导致提取了104个见解和生成了50个分析主题(70个子主题)。
方法。为了评估见解提取,我们首先从用户角度手动标记了 DS Agent 生成的原始响应中的关键见解,为 IE Agent 提取的见解提供了一个见解的“地面真相”。然后,我们测量了覆盖的标记见解与其总数的比率(即覆盖率)。由于自动提取的见解由 IE Agent 摘要以便更容易理解,我们认为一个标记的见解被覆盖,如果其语义含义包含在相应的提取的见解中。
为了评估见解关联,我们测量了具有正确关联证据的见解与提取的见解总数的比率(即准确性)。如果任何部分的证据(即代码、代码输出、可视化和自然语言解释)不正确或与相应的见解不相关,我们将其视为负样本。
为了评估见解组织,我们关注两个方面:数据和语义特征(见第4.3节)。对于数据上下文,我们测量了正确识别的数据属性(和分析操作)与提取的见解总数的比率(即准确性)。对于分析主题/子主题,我们利用 GPT-4 对它们的质量进行评分,这是自然语言处理社区中广泛采用的方法 [10]。具体来说,我们指示 GPT-4 考虑主题的多个方面(例如相关性、清晰度、适应性)进行全面评估。详细的提示可以在补充材料中找到。由于分析主题的分配是主观的,缺乏明确的“地面真相”,我们将我们系统动态生成的主题的评分与静态基线 [34] 进行了比较(即将所有见解提供给 GPT-4 进行主题生成)。此外,我们手动为我们系统生成的主题列表中的每个见解进行标记,作为评估主题分类准确性的“地面真相”。
指标。对于见解提取,提取的见解的覆盖率为 (即覆盖了193个标记的见解中的176个)。对于见解关联,关联见解证据的准确性为 (即92个正确和12个错误)。对于见解组织,正确识别的数据上下文的准确性为 (即92个正确和12个错误)。此外,我们系统生成的分析主题在10分制评分中获得了平均质量评分为 ,超过了静态基线(5.9)。主题分类的准确性为 (即95个正确和9个错误)。总体而言,这些统计指标表明了我们多代理框架的有效性和稳健性。
失败案例分析。对于见解提取,我们将17个失败案例分为两类:(1)缺失见解(8/17)和(2)缺失细节(9/17)。IE Agent 有时未能提取所有关键见解;相反,它倾向于只关注最重要的见解。例如,对于查询“计算每个智能手机品牌提供的平均折扣百分比”,只突出显示了折扣最高和最低的品牌,而 DS Agent 实际上在其响应中提到了许多中间品牌。在其他情况下,代理过度总结信息,省略了关键细节。一个例子是提取的见解仅承认了“十大最赚钱的电影”,而没有指定它们的标题。
对于见解关联,我们观察到两种失败模式:(1)无代码/代码输出(5/12)和(2)不正确的自然语言解释(7/12)。在前者中,IE Agent 在其响应中没有包含任何相关的代码或代码输出。在后者中,它提供了不正确的自然语言解释,与见解不符,这是由于虚构的句子或对原始输出的过度简化而引起的。
对于见解组织,我们从数据上下文准确性和主题分类准确性两方面评估失败。数据上下文错误主要源于属性虚构(9/12),其余是由于属性缺失(3/12)引起的。前者发生在 DS Agent 为特定查询创建新属性时(例如,从年份定义一个“十年”属性),导致 IM Agent 无法正确识别原始数据集属性。相反,后者是由于代理偶尔未能完全推断出相关属性。关于主题分类,主要问题是主题不一致(9/9),即人类和 LLMs 关注不同方面。由于见解可能涵盖多个主题,这些情况在技术上并非“错误”,而是不同标签标准的结果。
总体而言,上述大多数失败案例都可以归因于 LLMs 的“幻觉”。鉴于我们针对的任务的复杂性以及我们为框架采用的复杂提示技术,LLMs 生成意外输出的问题尤为明显。为了减轻这一问题,我们可以提供更有效的指导,使 LLMs 的行为更可靠和稳健 [77]。
总结。尽管存在少数失败案例,结果表明我们的多代理框架在自动提取、关联和组织分析对话中生成的见解方面具有高覆盖率、准确性和质量。这可以显著减少用户在 LLM 驱动数据分析过程中的手动和认知工作,为 InsightLens 的交互功能奠定坚实基础。
为了评估 InsightLens 在 LLM 驱动数据分析过程中促进见解发现和探索的有效性,我们进行了一项被试内用户研究。具体而言,我们旨在收集用户对 InsightLens 功能的有效性和可用性的反馈,以及其对整体数据分析过程的影响。
参与者和设置。我们从一家当地科技公司的商业智能部门招募了12名数据分析师(P1-12,4名女性和8名男性,年龄从24到29岁)。每位参与者在数据分析方面有4到8年的经验。他们的日常任务包括分析数据集和报告数据发现,熟练掌握各种工具,如 Excel(12/12)、Python(10/12)和 Microsoft Power BI(8/12)。所有参与者都有使用 LLMs(例如 ChatGPT、Claude、Qwen)的经验,使用频率不同(6人经常使用,4人有时使用,2人很少使用)。每位参与者在完成后获得了 25 美元的补偿。
对于我们的比较研究,我们将 InsightLens 的聊天窗口设置为基准线,排除所有用于见解检查和探索的交互式可视化。这种类似 ChatGPT 的基准线反映了参与者在与 LLMs 交互时当前使用的系统。我们还为参与者提供了文档编辑器,以记录他们的发现。
任务和数据集。参与者被要求使用 InsightLens 和基准线分析两个数据集:(1)一个房屋数据集(15列,1460行)和(2)一个大学数据集(14列,1214行)。他们被要求对每个数据集进行开放式数据探索,以为房地产经纪人提供有关房地产市场动态的见解,并为学生申请者提供有关美国大学各种因素的见解,就像他们要在一周内提供全面的数据报告一样。为了减轻学习效应,同时确保在不同实验会话中收集的数据具有可比性,我们将每个数据集分成两部分 [33],每部分分配给一个系统。
程序。最初,参与者被要求签署同意书并填写一份前期调查问卷,收集人口统计信息。之后,我们使用一个示例数据集进行教程,介绍了两个系统的功能。然后,参与者有足够的时间熟悉每个系统,在此期间鼓励他们提出任何问题或疑虑。日志。在分析过程中,参与者也被鼓励大声思考他们的想法和发现。
最后,参与者需要使用5点李克特量表完成一份后期研究问卷,随后进行半结构化访谈,以理解他们的评分并收集关于系统对他们日常工作流程的有效性、可用性和潜在影响的定性反馈。整个研究持续约120分钟。
测量。我们在实验中收集了个录音和系统日志。为了补充参与者的定性反馈,我们采用了以下测量指标:(1) 确认的洞察数量,(2) 探索的独特数据属性数量,以及(3) 探索的独特分析主题数量。这些测量指标受到先前文献的启发,并为我们的分析提供了定量证据。为确保方法论的一致性,我们在数据处理中采用了与 InsightLens 在基线上相同的提示技术。
所有参与者成功完成了四个实验会话。基于他们的定性反馈和收集的定量指标,我们讨论了 InsightLens 在促进洞察发现和探索方面的有效性(图4)。然后我们报告了 InsightLens 的功能有效性、系统可用性以及对数据分析的影响(图5)。
支持洞察发现。所有参与者都赞赏 InsightLens 在促进洞察发现方面的有效性(,而基线则要求他们从 LLMs 冗长的回复中手动审查和总结洞察。P3 表示他喜欢“每条消息下面的点”,这些点“提醒他错过的洞察”。此外,每个回复中突出显示的 NL 解释被报告为“对她快速识别关键点特别有用”(P11)。此外,InsightLens 明显简化了洞察的验证。我们观察到参与者不断参考洞察详情来审查相关的洞察证据,这使他们能够“轻松地查看涉及的属性和可视化,而无需上下滚动”(P10)。
此外,我们的一个测量指标强化了 InsightLens 对洞察发现的支持。具体来说,与基线相比,参与者使用 InsightLens 确认了更多的洞察(任务1: .002;任务)。通过确认一个洞察,他们不仅识别了它,还彻底验证了其正确性。因此,我们将观察到的显著差异归因于 InsightLens 对减少验证所需时间的支持,从而在有限的时间内发现更多的洞察。
支持洞察探索。与基线相比,InsightLens 在探索先前发现的洞察方面获得了显著更高的评分()。参与者高度赞赏 InsightLens 的功能,可以从不同角度探索洞察。例如,P4 评论说,“按时间顺序跟踪他的发现很好”,而“使用基线需要他来回导航以理解之前探索过的内容”。
图4:关于 InsightLens 对洞察发现和探索支持的测量结果和定性评分。
1 非常不同意 2 不同意 3 中立 4 同意 非常同意
图5:关于 InsightLens 的有效性、可用性和对数据分析的影响的问卷结果。
在开放式数据探索过程中,参与者承认让他们意识到整体分析流程的重要性,避免了“对先前探索过的主题进行重复分析”(P8)。
有趣的是,定量测量揭示了由于他们对分析的改进意识,参与者在数据和分析范围上可能扩展的潜力。当使用 InsightLens 时,他们探索了更多的数据属性(任务1:;任务2: 9.1,)和分析主题(任务;任务2:比基线。在实验中,我们不断注意到许多参与者在提出下一个分析意图之前会查看洞察小地图或主题画布。因此,这些观察到的显著差异暗示了参与者在明确呈现跨数据和语义维度组织的发现洞察时,倾向于进行更全面的分析。
功能有效性。总体而言,大多数参与者对 InsightLens 的功能给予了积极的反馈。首先,参与者赞赏 Insight Details (Q1),因为它让他们能够“快速获取洞察摘要,而无需手动阅读每条消息”(P5, P7)。此外,诸如代码片段之类的相关洞察证据消除了他们“滚动回去检查数据转换的特定代码行”的需求(P6),以确保相关性和正确性。其次,Insight Gallery (Q2) 帮助参与者方便地回顾相关的洞察。P8 发现它特别有用,可以“在处理多个类似洞察时理解属性之间的关系”,而 P3 将其比作“一个菜单工具”,使他能够查看类似洞察的不同可视化类型。然而,一些参与者发现它不太有益(),因为分析时间相对较短。第三,Insight Minimap (Q3) 被大多数参与者(8/12)不断赞扬为“最有用的功能”(P1)。 将其描述为“非常创新,让他想起了 VS Code 中的小地图”,而其他人则喜欢它“清晰呈现涵盖的数据属性”()和“颜色编码以揭示主题变化”(P5)。这使分析过程“更有结构和全面”(P11)。此外,有趣度条使参与者能够丢弃琐碎的洞察。例如,P4 发现一个关于微不足道的属性关系“由于意外查询而引起”的极低有趣度分数的洞察。最后,Topic Canvas (Q4) 减少了参与者组织洞察的手动和认知努力。生成的主题被报告为“合理且直观”,“减少了压倒性对话的混乱”(P10)。此外,查看基于树的主题结构让 P3 感觉“从各个角度解决开放式任务” - 有助于全面思考 - 尽管一些人更喜欢依赖个人判断而不是“被组织的主题打扰”(P5)。
系统可用性。所有参与者都认为 InsightLens 容易学习(Q5)和使用(Q6),并愿意将系统整合到他们的日常工作流程中(Q7)。视觉设计和界面被描述为“非常直观和用户友好”(P3, P7),没有“造成陡峭的学习曲线”(P1)。正如所说,这些视图看起来非常自然,“任何专业人士应该很容易理解其主要特点”。同时,参与者还注意到 InsightLens 的一些潜在改进。例如,P4 抱怨 LLMs 在分析复杂问题时的不稳定性,P11 希望“将某些洞察结合起来进行更深入的分析”。
对数据分析的影响。我们调查了 InsightLens 对 LLM 驱动的数据分析整体工作流程的流畅性、工作量和理解的影响。首先,参与者一致认为该系统不会打扰对话互动(Q8)。P9 评论说,“他只是像往常一样与 LLMs 聊天,视图会自动更新,没有任何干扰”,而 P7 认为“系统就像一个带有有用插件的聊天界面”。其次,使用 InsightLens 可以减轻参与者的手动和认知负担(Q9)。提供的功能减轻了“不时的过度滚动”(P2)和“记住所有洞察”(P12)的努力。此外,即时组织洞察帮助参与者“更专注于分析本身,而不是不断切换上下文”(P10)。最后,InsightLens 可以提高参与者对 LLM 生成的分析的理解(Q10)。P6 表示,“她感觉自己更多地参与了分析过程,通过检查不同视图中的变化来捕捉正在发生的事情,而不仅仅是输入一个查询然后等待 LLM 处理一切”。换句话说,InsightLens 帮助在自动化和人类代理之间取得平衡,从而增加用户在 LLM 驱动的数据分析过程中的理解和信任。
我们观察到不同参与者在使用 InsightLens 进行数据分析时采用了两种突出的工作流模式。
用户发起的工作流程。 那些设定了明确分析目标的参与者往往基于自己的判断和偏好,顺序提出分析意图,而系统的干预并不过多。例如,P5 着眼于围绕院校数据集的所有权及其对诸如学生素质和财务状况等因素的影响。在这种情况下,洞察小地图和主题画布主要用作系统化和有组织的方式来审查先前的发现,而不是激发新的发现。值得注意的是,主题树的构建主要是从底部(洞察)到顶部(分析主题)的,子主题远多于主要主题,揭示了一个以深度为导向的探索模式。
系统发起的工作流程。 另一方面,那些没有特定目标的参与者(可能是由于对分析领域的陌生),通常首先会提出多个随机的分析意图来“起草”(P1)。然后,他们将检查洞察小地图和主题画布,以获得他们分析的概览,并观察潜在的偏见(例如,某些属性/主题可能已经彻底探索,而其他则被忽视)以确定他们未来的探索方向。因此,主题树的构建现在是从顶部到底部,各个主题散布在周围,子主题很少,显示了一个以广度为导向的探索模式。
在这一部分,我们对我们的工作进行反思,并讨论其对设计人类-LLM界面在数据分析中的影响,以及其局限性和潜在的未来研究方向。
整合数据和语义上下文以增进理解。鉴于线性基于聊天的界面固有的局限性,管理LLMs在复杂信息任务中的对话上下文已成为VIS和HCI社区中备受关注的研究课题。InsightLens超越了现有工作,主要侧重于提取对话话语的语义结构,进一步整合了数据上下文 - 数据分析的重要因素,包括数据属性和分析操作。我们在一个小地图中同时可视化了不断变化的数据和语义上下文,使用户能够快速了解分析过程的整体情况。我们的用户研究表明,这种整合不仅有助于审查和导航不同的数据洞见,还可能扩大数据分析师的数据和分析范围,从而在探索性数据分析过程中获得更全面的结果。
为数据探索提供后续分析指导。在我们的用户研究中,许多参与者(12名中的6名)建议在分析过程中提供查询建议,特别是当他们面对陌生数据集时(即“冷启动”问题)。在先前的文献中已经广泛探讨了提供分析指导的问题,这可以通过LLMs的非凡能力进一步改进。同时,InsightLens对即时整理洞见的支持可以建立一个坚实的基础,以提供上下文感知的帮助。例如,我们可以将另一个基于LLM的代理集成到我们的框架中,该代理接收分析师的背景和目标以及他们当前关注的分析主题和数据属性,然后生成适当的建议,以深化或拓展他们的分析。
在交互范式的灵活性和复杂性之间取得平衡。我们的视觉和交互设计的基本原则是保持对话工作流程,其中主要的交互模式是通过自然语言。然而,我们承认利用其他模态或范式进行基于NLI的数据分析系统的潜力(例如,直接操作和粘性单元格)。我们的用户研究中,一位参与者希望通过直接添加或编辑节点来修改主题画布,类似于思维导图中的操作。尽管这些功能可以提高与LLMs的交互灵活性(在许多基于节点的LLM界面中已经得到验证),但也可能引入更多的复杂性和陡峭的学习曲线。因此,我们的目标是在NLI的直观性和可视化表达之间取得平衡。未来的研究可以进一步探讨如何平衡这两个方面,以设计LLMs的交互范式。
可扩展性。我们的框架在理论上可以支持更大更复杂的数据集,没有任何限制。为了减少在涉及非常多的数据属性或分析主题时Insight Minimap和Topic Canvas中可能出现的视觉混乱,我们可以采用图形可视化技术,如鱼眼、边捆绑和语义缩放,这些留待未来工作。
潜力。将LLMs纳入数据分析是一种新兴但有前途的范式。随着LLMs不断增长的推理能力和扩展的上下文窗口,数据分析师有可能借助智能数据副驾驶员在复杂数据集上进行更长时间、更深入的分析。这种设想进一步强调了在分析过程中管理复杂对话上下文的必要性。因此,我们相信我们的工作可以激发未来研究,利用可视化和其他增强交互技术,使LLM驱动的数据分析更加流畅、易于访问和高效。
普适性。虽然InsightLens专为对话式数据分析而设计,但设计原则可以推广到LLMs的其他使用场景。例如,我们的用户研究中,参与者高度赞赏Insight Minimap,其基本思想是根据某些领域特定的原子单元(在我们的案例中是数据洞见)的视觉抽象,按时间顺序显示整个对话。未来的工作可以在各种应用中采用基于这种小地图的设计(例如,对话式文本到图像生成)每个对话周期的预定义单元。此外,探索非线性、基于树的方式中的线性对话,类似于Topic Canvas,是值得进一步研究的一种有前途的范式,在其他创造性驱动的过程中(例如,故事写作)也值得进一步探讨。
本文介绍了InsightLens,一个交互式系统,可视化LLM驱动的数据分析过程中复杂的对话上下文,以促进高效的洞见发现和探索。建立在基于LLM的多代理框架之上,该框架简化了在分析对话中提取、关联和组织洞见的过程,InsightLens提供了一套交互式可视化工具,以实现多层次和多方面的探索。技术评估和用户研究证明了我们框架和系统的有效性。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-04-26
2024-05-14
2024-03-30
2024-04-12
2024-05-10
2024-05-28
2024-07-18
2024-05-22
2024-04-25
2024-04-26
2024-11-22
2024-11-22
2024-11-21
2024-11-20
2024-11-19
2024-11-18
2024-11-18
2024-11-16