AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


金融分析中,LLM能否超越人类分析师?
发布日期:2024-06-27 07:44:33 浏览次数: 2190 来源:barry的异想世界

芝加哥大学进行了一项关于人工智能与人类专家在收益预测方面的比较研究

大型语言模型(LLMs)展示了惊人的能力,特别是在语言理解方面。尽管对其能力的真正程度存在争议,但它们似乎也表现出推理能力。这些能力通过特定的提示技术得到了增强。

LLMs已经革新了多个领域,如客户服务甚至编程。最近,我们也看到LLMs被应用于医学领域。因此,可能会产生这样的疑问:

大型语言模型(LLMs)能否做出明智的金融决策,还是仅仅是一种辅助工具?

对此的兴趣是真实的,已经有许多团队在金融领域对LLMs进行微调。然而,像Bloomberg这样的公司则从头开始创建了专门针对金融的LLMs。

LLMs的一个问题是它们在定量任务上并不擅长。这是因为初始的标记化(文本预处理),其中单词和数字被转换为整数。

虽然LLMs在文本任务上很有效,但它们对数字的理解通常来自叙述上下文,缺乏深入的数值推理或人类思维的灵活性。

在这项最近发表的研究中,作者决定测试GPT-4分析财务报表并预测未来经济回报的能力。这是因为这是一个需要决策技能的过程。通常,金融分析师会进行这种分析,以了解公司的财务状况并判断其业绩是否可持续。这是一项复杂的任务,因为它需要分析趋势和比率,批判性思维,推理和复杂的判断。

特别是,基于对两个财务报表的分析,模型必须判断公司的经济表现是否可持续,更具体地说,是判断公司在接下来的期间内收益会增长还是下降。

作者决定将他们的方法与人类或专门为此任务设计的模型(如逻辑回归、神经网络)进行比较。他们使用了1968年至2021年的Compustat年度财务数据,并将2022年的数据保留下来用于预测2023财年(测试集)。他们选择了一个不可能用该数据训练过的GPT-4版本(GPT-4-Turbo于2023年发布,但该数据于2024年发布)。

作者测试了模型的两种不同提示:简单提示和链式思维(CoT)提示。在第二个提示中,他们训练模型扮演财务分析师的角色,负责进行财务报表分析。

作者表示,LLM表现良好,但使用CoT可以超越金融分析师

一个简单的非CoT提示的GPT基础预测实现了52%的性能,这低于分析师基准,这与我们的预期一致。然而,当我们使用链式思维提示来模拟人类推理时,我们发现GPT实现了60%的准确率,这显著高于分析师的准确率。

这一结果令人印象深刻,因为收益预测并不容易,因为受到许多外生因素的影响,如宏观经济冲击、需求变化等。

作者详细研究了LLM的强项和弱项,特别是与人类分析师相比。他们分析了LLM预测错误的情况,发现在公司规模较小、杠杆比率较高、出现亏损和收益波动时,预测错误更可能发生。这些情况对有经验的分析师来说也是复杂的,需要额外的上下文才能准确回答。另一个有趣的结果是,当人类分析师可能有偏见时,GPT的表现优于人类分析师

总的来说,我们的结果表明,当人类的偏见或低效率可能存在的时候,GPT的预测更有价值。

与专门针对该任务的最先进的机器学习模型相比,GPT4也取得了令人鼓舞的结果。神经网络似乎表现更好,因为这是一个非线性关系很重要的任务。

我们观察到使用ANN模型的预测准确度显著提高。模型实现了60.45%的准确率和61.62%的F1分数。[…]与分析师样本中的结果一致,我们的基于CoT的GPT预测实现了60.31%的准确率,与专门的ANN模型相当。

LLM的预测能力从何而来?

作者确保模型没有用到测试LLM的数据。毕竟,数据泄露是此类情况中的一个重要问题。他们还研究了模型是否能从报表中识别公司(从而具有不公平优势)。然而,这不是情况,因为准确率低于随机猜测。

对于作者来说,解释是模型能够生成叙述。特别是当模型被要求生成关于公司财务状况和未来表现的见解时。CoT实际上促进了这种行为,提示还提供了关注哪些行为的元素。

我们的结果表明,GPT的分析提供了有关公司的有用见解,使模型在预测未来收益方向方面超越了专业的人类分析师。

尽管模型击败了分析师,但作者认为这并不意味着它们将取代人类

我们还发现,GPT和人类分析师是互补的,而不是替代品。具体来说,语言模型在分析师可能表现出偏见和分歧时相对于人类分析师具有更大优势,这表明AI模型在人类表现不佳时能更好地协助人类。另一方面,当可能需要模型无法获取的额外上下文时,人类会增加价值。

作者还创建了一个可以供好奇者测试的网页界面。

作者创建的交互式网页应用程序,展示GPT-4的能力。

并非所有人都同意模型(无论是LLMs还是金融领域的机器学习模型)的能力。Hacker News论坛上的一些用户指出,自从30年前引入人工神经网络以来,分析师并没有消失。

尽管如此,金融领域对LLMs的兴趣仍然存在。这些模型能够比人类更快地分析数据并发现模式。它们肯定缺乏推理能力,但可以作为分析的有力辅助工具,快速搜索大量文本。

“虽然LLMs在文本任务上很有效,但它们对数字的理解通常来自叙述上下文,缺乏深入的数值推理或人类思维的灵活性。”

因此,预计未来LLMs将越来越多地被使用,但短期内不太可能取代分析师。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询