我要投稿

金融分析中，LLM能否超越人类分析师？

发布日期：2024-06-27 07:44:33 浏览次数： 2780 作者：barry的异想世界

芝加哥大学进行了一项关于人工智能与人类专家在收益预测方面的比较研究

大型语言模型（LLMs）展示了惊人的能力，特别是在语言理解方面。尽管对其能力的真正程度存在争议，但它们似乎也表现出推理能力。这些能力通过特定的提示技术得到了增强。

LLMs已经革新了多个领域，如客户服务甚至编程。最近，我们也看到LLMs被应用于医学领域。因此，可能会产生这样的疑问：

大型语言模型（LLMs）能否做出明智的金融决策，还是仅仅是一种辅助工具？

对此的兴趣是真实的，已经有许多团队在金融领域对LLMs进行微调。然而，像Bloomberg这样的公司则从头开始创建了专门针对金融的LLMs。

LLMs的一个问题是它们在定量任务上并不擅长。这是因为初始的标记化（文本预处理），其中单词和数字被转换为整数。

虽然LLMs在文本任务上很有效，但它们对数字的理解通常来自叙述上下文，缺乏深入的数值推理或人类思维的灵活性。

在这项最近发表的研究中，作者决定测试GPT-4分析财务报表并预测未来经济回报的能力。这是因为这是一个需要决策技能的过程。通常，金融分析师会进行这种分析，以了解公司的财务状况并判断其业绩是否可持续。这是一项复杂的任务，因为它需要分析趋势和比率，批判性思维，推理和复杂的判断。

特别是，基于对两个财务报表的分析，模型必须判断公司的经济表现是否可持续，更具体地说，是判断公司在接下来的期间内收益会增长还是下降。

作者决定将他们的方法与人类或专门为此任务设计的模型（如逻辑回归、神经网络）进行比较。他们使用了1968年至2021年的Compustat年度财务数据，并将2022年的数据保留下来用于预测2023财年（测试集）。他们选择了一个不可能用该数据训练过的GPT-4版本（GPT-4-Turbo于2023年发布，但该数据于2024年发布）。

作者测试了模型的两种不同提示：简单提示和链式思维（CoT）提示。在第二个提示中，他们训练模型扮演财务分析师的角色，负责进行财务报表分析。

作者表示，LLM表现良好，但使用CoT可以超越金融分析师：

一个简单的非CoT提示的GPT基础预测实现了52%的性能，这低于分析师基准，这与我们的预期一致。然而，当我们使用链式思维提示来模拟人类推理时，我们发现GPT实现了60%的准确率，这显著高于分析师的准确率。

这一结果令人印象深刻，因为收益预测并不容易，因为受到许多外生因素的影响，如宏观经济冲击、需求变化等。

作者详细研究了LLM的强项和弱项，特别是与人类分析师相比。他们分析了LLM预测错误的情况，发现在公司规模较小、杠杆比率较高、出现亏损和收益波动时，预测错误更可能发生。这些情况对有经验的分析师来说也是复杂的，需要额外的上下文才能准确回答。另一个有趣的结果是，当人类分析师可能有偏见时，GPT的表现优于人类分析师。