我要投稿

SheetAgent：基于大模型解决电子表格复杂推理和操作任务的智能体！

发布日期：2024-04-02 07:14:26 浏览次数： 2517

作者：PaperAgent

微信搜一搜，关注“PaperAgent”

SheetAgent是一个通过大型语言模型（LLM）实现，用于电子表格的推理和操作的通用智能体。SheetAgent旨在解决电子表格操作中存在的复杂和现实任务，这些任务需要推理挑战，例如长视野操作和模糊要求。为了应对这些挑战，提出了SheetRM基准测试，它包含了依赖于推理的多步骤任务。SheetAgent由三个协作模块组成：规划器（Planner）、信息提供者（Informer）和检索器（Retriever），它们共同实现电子表格的高级推理和精确操作。

SheetAgent能够自动处理多样化的电子表格推理和操作任务。面对包含多个工作表的大规模电子表格，该图展示了其在可视化（f）方面的专业能力，并在长期和多步骤任务（a, b）上实现了准确的操作，同时保持了一致的推理能力（c, d），即使面临不清晰要求（e）等挑战。

SheetAgent的框架

规划器（Planner）：通过生成Python代码来操作电子表格，采用闭环规划过程，通过反馈和反思实现精确控制。
信息提供者（Informer）：生成特定于子任务的SQL查询，帮助规划器处理推理挑战。
检索器（Retriever）：在遇到错误时，从代码库中检索高质量的代码示例，帮助规划器进行更有效的纠正。

SheetAgent概览。SheetAgent由三个关键组件组成，包括规划器（Planner）、信息提供者（Informer）和检索器（Retriever）。规划器通过虚拟沙箱以ReAct方式与目标电子表格进行交互。信息提供者提供特定于子任务的SQL查询，其执行结果作为规划器处理推理挑战的依据。当遇到错误时，检索器被激活以检索类似的教程代码片段，有效纠正错误。

SheetRM基准测试

用于开发和评估基于LLM的代理，以处理具有高级推理能力的精确电子表格操作

SheetRM的概述和特性

SheetAgent效果评测

SheetAgent在多个基准测试上实现了显著的性能提升，与基线相比，传递率（Pass Rate）提高了20-30%，在电子表格操作的准确性和表格推理能力方面表现出色。

两个操作任务数据集：SheetCopilot Benchmark (SCB) 和 SheetRM，3个推理能力数据集：WikiTableQuestions (WTQ)、FeTaQA 和 TabFact

SheetAgent: A Generalist Agent for Spreadsheet Reasoning and Manipulation via Large Language Modelshttps://arxiv.org/pdf/2403.03636.pdfhttps://github.com/sheetagent/sheetagent.github.io