论文标题:OpenResearcher: Unleashing AI for Accelerated Scientific Research论文链接:https://arxiv.org/pdf/2408.06941演示、视频和代码:https://github.com/GAIR-NLP/OpenResearcher。论文来自:上海交通大学、上海AI Lab、复旦大学、香港理工大学、香港科技大学、西湖大学、清华大学科学文献的快速增长给研究人员带来了巨大挑战,他们需要不断跟进各自领域的最新进展并深入探索新领域。论文推出OpenResearcher,一个创新平台,利用人工智能(AI)技术加速研究过程,回答研究人员提出的多样化问题。OpenResearcher基于检索增强生成(RAG)构建,将大型语言模型(LLMs)与最新、领域特定的知识相结合。此外,论文为OpenResearcher开发了多种工具,以理解研究人员的查询,从科学文献中搜索信息,过滤检索到的内容,提供准确且全面的答案,并自我完善这些答案。OpenResearcher能够灵活使用这些工具,平衡效率与效果:•统一应用 OpenResearcher 能够处理研究人员的多样化问题,如科学文本摘要、科学论文推荐等。•开源性 OpenResearcher 是一个令人印象深刻的开源系统,其性能可与工业应用相媲美。•主动助手 OpenResearcher 能够在思维或想象中提出启发性问题,引导用户明确查询意图,从而捕捉用户需求。•增强检索 OpenResearcher 能从互联网和 arXiv 语料库中检索信息,提供最新、领域特定且经过验证的知识作为支持证据。 •灵活工具使用 OpenResearcher 能够灵活运用定制工具构建工作流程,以获得更佳答案。例如,OpenResearcher 会自适应调用精炼工具来优化其初步结果,从而避免不必要的计算成本。•对话式交互 OpenResearcher 通过对话跟进问题,使用户能够进行深入讨论。全球科学出版物每年以约4%-5%的速度增长,这导致研究人员需要投入大量时间和精力,仔细审阅无数学术论文,以找到推动其研究的知识。这包括每天与广泛的文献接触,以跟上其领域的最新发展,这对于保持其工作的相关性和创新性至关重要。认识到这一过程中固有的挑战和低效性,大量学术努力集中在AI辅助的科学研究上。这些努力旨在为初级和高级研究人员提出的问题提供解答。这些问题大致可分为三类:(1) 科学问题解答,寻求特定领域的详细信息或澄清;
(2) 科学文本摘要,旨在将最新发现和发展浓缩为全面概述;
(3) 科学论文推荐,根据研究者的兴趣或当前查询推荐相关文献和研究。
然而,学术应用通常侧重于单一任务,缺乏对所有问题提供统一解决方案的能力,使得研究者可以自由提出任何询问。相反,最近的行业应用,如Perplexity AI、iAsk、You.com、phind和SearchGPT,允许用户询问超出特定任务范围的任何问题。它们使用检索增强生成(RAG)技术,创新地将生成式大型语言模型(LLM)与网络搜索能力结合起来。它们背后的核心理念是为用户提供不仅仅是任何答案,而是最准确和与上下文最相关的可用信息。然而,行业应用的专有性质阻碍了它们的发展,并可能妨碍这一领域的学术研究。此外,学术和行业应用均作为被动助手,仅专注于回应用户询问,而非主动在学术和工业环境中,为了解决上述问题,论文开发了 OpenResearcher,这是一个利用人工智能加速科学研究的开源项目。其主要工作流程如图 1 所示。 图 1:OpenResearcher 的主要工作流程。OpenResearcher旨在利用AI加速研究过程,通过高效响应研究者的查询。如图1所示,OpenResearcher采用RAG结合LLM的内部知识与最新的外部信息。论文设计了一种数据路由策略,以实现快速且精确的信息检索,满足时间和领域要求。最后,论文开发了多种工具,包括查询工具、检索工具、后处理工具、生成工具和细化工具。OpenResearcher能够灵活运用这些工具,为每个查询定制工作流程。检索的一个关键挑战是其依赖于用户的初始查询,如果查询不精确或模糊,会导致无效结果。初级研究者可能难以明确表达他们的问题,而跨学科使用的科学术语增加了这一复杂性。为解决这一问题,论文开发了工具来帮助定义直接的问题。主动查询 OpenResearcher通过添加额外内容和上下文来增强查询。它要求用户指定其兴趣领域或学科。通过涵盖最初未提及的细微差别,它能确保生成的答案高度相关。查询重写 用户的查询通常对于检索来说并不理想,尤其是在现实场景中。此外,查询通常包含在复杂的对话交互中。因此,OpenResearcher 对查询进行重写,以提高清晰度和有效性。 查询分解 OpenResearcher 将复杂的查询分解为一系列子查询,从而提高精确度和效率,以获得更令人满意的响应。然后,每个子查询分别由信息检索和LLM生成系统处理,以获取子答案。OpenResearcher 使用先进的检索工具从互联网和arXiv语料库中收集全面且准确的信息。互联网检索 OpenResearcher 通过搜索引擎API进行互联网检索,以收集相关的在线信息。混合检索 OpenResearcher 支持混合检索,该检索同时采用稀疏向量和密集向量表示查询和文档。通过利用这些紧凑的向量嵌入,混合检索能更有效地捕捉语义相似性,并提高检索文档的相关性。BM25检索 OpenResearcher 进行BM25检索,这是一种先进的算法,搜索引擎用它根据文档与查询的相关性来对文档进行排序,考虑到词频和文档长度。BM25因其处理各种搜索查询的有效性而脱颖而出,成为信息检索中广泛采用的方法。论文开发了一种高级的数据路由策略,旨在优化论文混合检索工具的性能。目前,该检索工具需要大量的处理时间来计算查询与所有arXiv论文块之间的相似度,这可能是资源密集型的。为了解决这一问题,论文的策略是根据arXiv论文元数据中的时间信息和领域特定信息对数据进行分层。它将数据分布到多个专门的数据库中,每个数据库都与特定的时间框架和领域对齐。因此,检索工具仅扫描与查询相关的数据库,从而加快搜索过程并通过专注于适用的数据集来提高结果的准确性。论文开发了后处理工具,以重新排序、融合和过滤检索到的信息,去除噪声和冗余,为生成大型语言模型(LLMs)提供最相关的结果。重新排序:OpenResearcher可以使用重新排序工具来重新排列文档块,优先考虑最相关的结果以压缩检索池。融合:OpenResearcher可以使用融合工具将来自同一来源的检索内容融合成一个段落,以增强上下文。过滤:OpenResearcher可以使用过滤工具来过滤掉冗余和噪声内容,保留最相关的信息。OpenResearcher使用先进的LLMs,利用检索到的信息生成回应。生成:OpenResearcher提示LLMs利用检索到的信息生成针对用户查询的适当回应。 引用:OpenResearcher可以使用引用工具,该工具采用BM25匹配算法将检索到的信息与回应句子关联起来,为每个回应提供引用。OpenResearcher利用LLMs对初始回应进行反思和打磨,确保其准确性和完整性。反思:OpenResearcher提示LLMs评估生成回应的准确性和完整性,同时突出语法和语义缺陷。打磨:OpenResearcher指导LLMs根据收到的反馈打磨回应。论文的Web应用程序是使用Streamlit构建的。论文的数据库包含2023年1月至2024年6月的arXiv出版物,并丰富了元数据。这是因为大多数LLMs是基于2023年前的数据训练的,使它们能够保留这些信息。这一事实也启发OpenResearcher无需任何检索,仅利用LLMs的内部知识来回答简单问题。论文使用最先进的GTE-large模型作为密集向量,以及efficient-splade-VI-BT-large作为稀疏向量来向量化论文的查询和论文块。这些向量用于混合检索,论文使用Qdrant进行向量存储。这种混合检索工具从每个选定的数据库中提取30个最相似的块。Elasticsearch支持论文实现BM25检索器,该检索器最多提取80个块。Bing API为互联网检索工具找到10个相关结果。此外,论文使用bge-reranker-v2-m3 1 0来实现论文的重新排序工具。这个重新排序工具将检索到的块数量减少到10个。最后,论文使用DeepSeek-V2-Chat(作为论文的骨干LLM来实现所有LLM驱动的工具,同时通过Ollama也支持各种在线LLM API和本地部署的LLMs。 图2:用户与OpenResearcher之间的案例 图2(其完整截图显示在附录A的图3中)展示了OpenResearcher的强大能力:首先,OpenResearcher能够灵活地为不同的查询构建定制化的工作流程,包括简单查询和复杂查询。对于像"什么是PPO?"这样的简单问题,它直接使用大型语言模型(LLMs)生成答案。对于更复杂的查询,如"总结PPO最近的最新发展和变体?",它会利用多种工具,并为用户提供重要细节,包括主动查询、重写的查询、分解的子查询及其子答案、每个子查询经过后处理的检索结果、生成的最终答案以及引用。这个例子展示了它处理不同查询的灵活性。借助这一优势,论文的OpenResearcher可以加快响应速度并降低计算成本。
其次,该图还显示OpenResearcher能够向用户提出问题以澄清查询。与之前只回答问题的被动应用不同,OpenResearcher利用LLMs的内部知识帮助用户明确他们的问题细节。这个工具对于经常难以清晰表达问题和困惑的初级学生来说非常重要。
第三,图2展示了OpenResearcher支持对话式问答,使用户能够进行多轮对话。这个特性允许在OpenResearcher中进行持续和更深入的讨论。
最后,这个图显示论文的OpenResearcher能够通过从互联网和arXiv语料库检索支持证据来提高生成内容的质量和可靠性。此外,论文开发了一个引用工具,将生成的文本与检索到的信息链接起来,使研究人员能够轻松验证来源并通过阅读原始论文进行更深入的研究。
论文从超过20名研究生中收集了109个研究问题,包括38个关于科学论文推荐的问题、38个关于科学文本摘要的问题和33个其他问题。这些问题产生于他们日常的跨领域科学研究中,涉及多模态、代理、LLM对齐、工具学习、LLM安全、RAG等领域。这些问题的答案通常复杂且冗长,需要研究生查阅大量论文。由于标注真实答案的努力和成本巨大,论文选择进行成对比较而非提供标注的真实答案。论文的基线包括近期行业应用,包含Perplexity AI、iAsk、You.com和Phind,并辅以仅利用论文的混合检索和LLM生成工具的Naive RAG。关于论文的OpenResearcher,论文移除了Active Query工具以直接获取答案。OpenResearcher灵活运用这些工具生成答案,无需按主工作流程顺序进行。在所有评估中,论文将Naive RAG、OpenResearcher、iAsk、You.com和Phind的候选结果与Perplexity AI的结果进行比较。若候选结果优于Perplexity AI,则记为“胜”。(1)信息正确性评估候选答案的事实准确性。确定每个输出中的信息是否正确至关重要,因为不准确性会严重削弱问答系统的实用性。
(2)信息丰富性涉及评估信息深度和广度。信息丰富度衡量答案是否提供了详尽的解释或超出直接回答问题的上下文。
(3) 信息相关性判断输出中的信息是否直接与所提问题相关。即使答案信息丰富且正确,如果它没有直接针对查询,也可能没有用处。
表1:与Perplexity AI结果的人类偏好比较。“胜”意味着当前方法超越了Perplexity AI。更多的“胜”次数意味着更优秀的应用。论文邀请了12名具有良好研究经验的学生进行人类评估。鉴于研究问题的复杂性,论文随机选择了30个问题进行人类评估,确保科学问题回答、科学文本摘要和科学论文推荐等领域的均衡覆盖。为了质量控制,每个实例由两名标注者进行标注,其一致性得到测量。第三名标注者可介入以解决两名标注者之间的分歧。结果如表1所示,总体一致性达到90.67%。论文的OpenResearcher在信息正确性、相关性和丰富度方面均优于所有其他应用。OpenResearcher显著优于Perplexity AI,胜多败少。具体而言,与Naive RAG相比,OpenResearcher在所有指标上表现更佳。这表明论文的各种工具显著提高了答案的质量。受GPT-4系列广泛用于成对比较及其与人类不同偏好的启发,论文也利用GPT-4o进行LLM偏好评估。论文基于两个标准进行评估:信息丰富度和相关性,因为GPT-4o在没有外部辅助的情况下难以验证信息准确性。 表2:与Perplexity AI结果相比的GPT-4偏好结果。结果如表2所示。这一补充性LLM评估进一步展示了论文系统的强大性能。这些结果表明,OpenResearcher在所有应用中实现了最佳的信息相关性和丰富性。此外,OpenResearcher在两项指标上均超越了Naive RAG,证明了其由于论文设计而表现出的优越性能。