我要投稿

大模型研究笔记之吴恩达关于大语言模型使用工具的观点及提到的三篇论文

发布日期：2024-04-11 07:31:47 浏览次数： 2331

作者：读不懂的行业研究

微信搜一搜，关注“读不懂的行业研究”

吴恩达提出了一个观点，即联网搜索等工具的应用极大地增强了大语言模型的信息输出能力，但工具的潜力仍未被充分发掘！

他提到了代码执行工具、函数调用工具等，认为这些工具的使用可能会进一步扩展大语言模型的应用范围和功能。通过将这些工具与人工智能模型相结合，可以期待人工智能在未来将更加智能和高效。

他举了一个例子来说明他的观点：“Similarly, if you ask, “If I invest $100 at compound 7% interest for 12 years, what do I have at the end?”, rather than trying to generate the answer directly using a transformer network — which is unlikely to result in the right answer — the LLM might use a code execution tool to run a Python command to compute 100 * (1+0.07)**12 to get the right answer. The LLM might generate a string like this: {tool: python-interpreter, code: "100 * (1+0.07)**12"}.”

吴恩达还建议读者阅读三篇论文，以下是这些论文的主要内容，我觉得可以看看，增进对AI未来发展趋势的了解。如果你是大模型开发者，也许也能有所启发。

1. Gorilla: Large Language Model Connected with Massive APIs

概述

Gorilla是一个基于LLaMA模型的大型语言模型，它通过与大量API的连接，超越了GPT-4在编写API调用方面的表现。Gorilla结合了文档检索器，展现出对测试时文档变化的强适应能力，并显著减少了常见的幻觉问题。研究者们还引入了一个全面的APIBench数据集，用于评估模型的能力。

关键特点

API调用的改进：Gorilla在API调用的准确性上超越了GPT-4，特别是在处理复杂的API调用时。

适应性：模型能够适应API文档的测试的变化，保持其输出的可靠性和适用性。

幻觉问题的缓解：与传统的直接提示大型语言模型相比，Gorilla显著减少了幻觉问题。

应用前景

Gorilla的代码、模型、数据和演示都在伯克利大学的网站上可用。它的开发为大型语言模型使用工具提供了新的可能性，尤其是在需要频繁更新文档的领域。

2. MM-REACT: Prompting ChatGPT for Multimodal Reasoning and Action

概述

MM-REACT是一个系统范式，它将ChatGPT与一系列视觉专家集成，以实现多模态推理和行动。该系统能够处理超出现有视觉和视觉-语言模型能力的高级视觉任务。MM-REACT通过文本提示设计，可以表示文本描述、文本化的空间坐标和对齐的文件名，从而允许语言模型接受、关联和处理多模态信息。

关键特点

多模态推理：MM-REACT能够处理包括图像和视频在内的多模态输入，并通过与视觉专家的协同工作提供深入的视觉理解。

零样本实验：研究表明MM-REACT在解决特定能力兴趣和广泛应用场景中的有效性。

系统范式的比较： MM-REACT与通过联合微调扩展语言模型以适应多模态场景的替代方法进行了比较。

应用前景

MM-REACT的代码、演示、视频和可视化都在其项目网站上可用。它为构建能够理解和响应多模态输入的复杂系统提供了新的途径。

3. Efficient Tool Use with Chain-of-Abstraction Reasoning

概述：

这篇论文提出了一种新的方法，通过Chain-of-Abstraction (CoA)推理，使大型语言模型（LLMs）能够更好地利用工具进行多步推理。CoA训练LLMs首先解码带有抽象占位符的推理链，然后再调用领域工具来实现每个推理链的具体知识。这种规划抽象链的方法使LLMs能够学习更通用的推理策略，这些策略对领域知识的变动具有鲁棒性。

关键特点：

抽象链规划：通过抽象链的规划，LLMs可以学习更有效的工具使用计划，提高推理的准确性。

高效的工具使用：CoA方法在推理速度上比基线工具增强的LLMs平均快约1.4倍。

广泛的应用在数学推理和Wiki QA领域，CoA方法一致地超越了以前的链式推理和工具增强基线。

应用前景

CoA方法的有效性在多个领域得到了验证，特别是在需要复杂推理链的问题上。它为设计能够高效使用工具的LLMs提供了新的策略。

总结

这三篇论文都在探索如何提升大型语言模型（LLMs）在特定任务上的表现。Gorilla通过与API的深度集成，改进了API调用的准确性和适应性。MM-REACT通过结合ChatGPT和视觉专家，实现了对多模态输入的深入理解和响应。而CoA推理方法则通过规划抽象链，提高了LLMs在多步推理中的效率和准确性。这些研究不仅推动了LLMs技术的发展，也为未来的应用提供了新的可能性和方向。