AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


【LLM】大语言模型在财务报表分析中的应用
发布日期:2024-06-08 06:27:38 浏览次数: 1892



一、结论写在前面

本文通过提供关于大型语言模型分析财务报表能力的新证据,探讨了其极限。财务报表分析是一项传统的定量任务,需要批判性思维、推理和判断。论文的方法涉及向模型提供结构化和匿名的财务报表,以及一个复杂的思维链提示,模拟人类分析师处理财务信息的方式。论文特别没有提供任何叙述性信息。

论文的结果表明,GPT的分析产生了关于公司的有用见解,这使得模型能够在预测未来收益方向上超越专业人类分析师。论文还记录了GPT和人类分析师是互补的,而不是替代品。具体来说,当分析师预期表现出偏差和分歧时,语言模型相对于人类分析师具有更大的优势,这表明在人类表现不佳时,AI模型可以更好地协助人类。另一方面,当模型无法获得且可能重要的额外背景信息时,人类增加了价值。    

此外,令人惊讶的是,GPT的表现在某些情况下与最复杂的专门化机器学习模型,即在收益预测任务上训练的ANN相当(甚至更好)。论文调查了LLM优越预测能力的潜在来源。论文首先排除了模型的性能源于其记忆。相反,论文的分析表明,模型通过从其对趋势和财务比率的分析中提取有用的见解,并利用其理论理解和经济学推理来做出推断。值得注意的是,语言模型生成的叙述性财务报表分析本身具有重要的信息价值。基于这些发现,论文还提出了一种基于GPT预测的盈利交易策略。该策略产生的夏普比率和阿尔法值高于基于ML模型的其他交易策略。总体而言,论文的分析表明,GPT在财务报表分析方面展现出非凡的能力,并在没有任何专门训练的情况下实现了最先进的性能。

尽管论文必须谨慎地解读论文的结果,但论文提供了证据,表明大型语言模型在金融领域具有类似人类的潜力。通用语言模型成功执行了一项通常需要人类专业知识和判断的任务,并且完全是基于数值领域的数据。因此,论文的发现表明,LLM有潜力使金融信息处理民主化,这对投资者和监管机构来说应该是有兴趣的。例如,论文的结果表明,生成式AI不仅仅是一个辅助投资者的工具——例如,在总结财务报表方面,而且可以在做出明智决策方面发挥更积极的作用。这一发现意义重大,因为不成熟的投资者可能会忽略相关信号,即使这些信号是由先进的AI工具产生的。然而,AI是否能在实践中显著改善金融市场中的人类决策仍有待观察。论文把这个问题留给未来的研究。最后,尽管论文努力理解模型预测的来源,但要准确指出模型表现良好的原因和方式仍然是经验上的难题。

           

 

二、论文的简单介绍

2.1 论文的背景

大型语言模型(LLMs)能否做出明智的财务决策,或者它们仅仅是支持工具?LLMs因其分析、解释和生成文本的高级能力,在包括复杂披露的总结、情感分析、信息提取、报告生成、合规验证等广泛任务中表现出色。然而,所有这些任务都涉及文本领域,并需要模型进行专门的训练或微调。这种颠覆性技术在文本领域之外以及在需要数值分析和判断的更一般任务中的界限尚未明了。论文在财务分析领域探索这些界限。    

论文研究大型语言模型(LLM)是否能像专业人类分析师那样成功地进行财务报表分析。这一问题的答案对财务分析的未来以及财务分析师是否将继续是金融市场中知情决策的支柱具有深远的影响。鉴于LLM缺乏人类专家对公司财务的深入理解,答案远非显而易见。此外,对于语言模型而言,最具挑战性的领域之一是数值领域,模型需要进行计算、执行人类般的解释并做出复杂判断。尽管LLM在文本任务上表现有效,但其对数字的理解通常来自叙述背景,缺乏深层的数值推理能力或人类思维的灵活性。

财务报表分析(FSA),有时称为基本面分析,是特别有用的场景,用以检验LLM在未来决策中的作用。传统上,财务报表分析由财务分析师和投资专业人士执行,主要目的是理解公司的财务健康状况并判断其业绩是否可持续。与LLM通常执行的任务不同,FSA是一项涉及分析趋势和比率的定量任务。同时,它还要求批判性思维、推理以及最终的复杂判断。重要的是,与其他应用(如回答酒吧或CPA考试问题)不同,LLM不能依赖其记忆来获取正确答案。

论文的研究设计涉及将资产负债表和利润表以标准化形式传递给大型语言模型GPT 4.0 Turbo,并要求模型进行财务报表分析。特别是,基于对这两份财务报表的分析,模型必须决定公司的经济表现是否可持续,更具体地说,公司下一时期的收益是否会增长或下降。论文关注收益,因为它们是财务分析师预测的主要变量,并且对估值至关重要。

             

 

2.2 论文的方法与数据

在本节中,论文概述了如何使用LLM来分析和预测盈利变化这一主要任务。盈利预测是一项复杂的任务,结合了定性和定量分析,并涉及专业判断。论文采用链式思维提示GPT 4模拟分析师如何进行盈利预测。

2.2.1 财务报表分析与盈利预测

财务报表分析和盈利预测对会计信息用户至关重要。例如,这些预测帮助投资者对预期股票回报的横截面或选择表现最佳的股票做出推断。然而,盈利预测难度大,因为它们受到许多外生因素的影响,如宏观经济冲击、产品市场需求冲击、会计准则的变化以及其他多种因素。    

财务分析师通过执行财务报表分析来应对这一复杂任务。他们首先分析财务报表,识别会计信息中的显著变化或趋势。他们选择计算哪些财务比率以获得更深入的见解。他们的分析通过行业信息、竞争格局的理解和宏观经济条件等背景信息得到丰富。基于这些信息,他们应用专业判断来确定公司未来的盈利是增长还是收缩。

为了基于大型语言模型进行基于财务报表分析(FSA)的盈利预测,论文实施了两类提示。首先,论文使用了一个“简单”提示,指示语言模型(LM)分析一家公司的两份财务报表,并确定未来盈利的方向。此提示并未提供如何进行预测任务的进一步指导,然而,论文实施了一个“思维链”(Chain-of-Thought)提示,该提示将财务报表分析问题分解为与人类分析师所遵循的步骤平行的步骤。这种提示有效地将方法论融入模型中,引导其在分析中模仿人类般的推理。在论文的分析中,论文主要关注这第二种提示的结果。

人类处理与思维链 现代大型语言模型能够从结构化表格中检索数字并执行简单计算。然而,它们缺乏像人类一样的推理和判断能力。最近的研究表明,思维链提示可以显著增强大型语言模型的推理和问题解决能力。

论文实施思维链提示如下:论文指示模型扮演财务分析师的角色,其任务是进行财务报表分析。模型随后被指导

(i)识别财务报表项目中的显著变化

(ii)计算关键财务比率,不明确限制需要计算的比率集。在计算比率时,论文提示模型首先陈述公式,然后进行简单计算。模型还被指示

(iii)提供对计算比率的经济解释。接着,利用基本的量化信息及其带来的洞察,模型被指导预测在后续期间盈利是否可能增加或减少。

除了方向外,论文还指示模型生成一段详细阐述其推理的段落。总体而言,这一系列指令旨在复制人类分析师如何分析财务报表以确定公司业绩是否可持续。

2.2.2 数据

论文使用了从1968年到2021财年的Compustat年度财务数据全集。论文还保留了2022年的数据,以预测2023财年的盈利,以此来测试大型语言模型在财务报表分析中的稳健性。特别是,GPT-4-Turbo预览版的训练窗口截止到2023年4月,而模型不可能看到2023年的盈利数据,这些数据在2024年3月底才发布。遵循先前的文献,论文要求每个观测值具有非缺失的总资产、年末资产价值超过一百万美元、年末股票价格超过每股一美元,以及财政期末日期为12月31日。14论文还排除了资产负债表等式不成立的观测值。这些筛选后,论文得到了来自15,401家不同公司的150,678个观测值,合理地近似了Compustat全集。    

对于每个公司年度,论文使用Compustat的数据重新构建资产负债表和利润表。格式遵循Capital IQ的平衡模型,并且在所有公司年度中保持一致。论文省略任何识别信息,如公司名称或财务报表日期。这一步骤确保所有公司年度观测值具有相同的财务报表结构。与美国公认会计原则(US GAAP)报告要求一致,论文提供两年的资产负债表和三年的利润表数据。两个报表的一个示例见附录B.5。

对于涉及分析师预测的分析,论文从IBES获取数据,样本从1983年开始。论文提取个别预测并构建每月共识预测。此分析将样本限制在有分析师跟踪的公司年度。论文要求每个观测值至少有三份分析师预测发布,这使论文得到39,533个公司年度观测值。

论文在表1中报告了用于分析的变量的描述性统计。面板A描述了全样本(1968-2021年),而面板B则限定于分析师样本(1983-2021年)。面板A的数据揭示,约55.5%的观测值报告了实际的收益增长(Tuwrget)。预测值包括前缀“Pred-”并根据模型而变化。例如,GPT预测(Pred-GPT)意味着平均而言,53.0%的观测值将经历收益增长。在面板B中,Pred-Analystlm表示在上一年度收益发布后一个月内发布的预测。分析师预测索引为3m和6m后缀的定义方式类似。与GPT相比,金融分析师在其预测中往往略显悲观(根据预测时间的不同在52%左右波动)。面板B还显示,分析师样本中的公司平均规模更大(Size),具有较低的市净率(BtoM),更高的杠杆率(Leverage),以及较低的收益波动性(Earn-Vol)。然而,在EPS增长实际频率方面,它们是相似的。

               

 

   

2.3 论文的效果

2.3.1 大型语言模型与金融分析师相比表现如何?

论文评估了大型语言模型在分析财务报表以预测未来收益方向方面的表现,使用人类分析师作为基准。所有预测模型都有一个二元目标变量,该变量指示次年EPS的增加或减少。

2.3.1.1 预测方法与评估指标

朴素模型 首先,作为朴素基准,论文假设收益的方向变化将保持不变。具体而言,如果相对于t-1年,t年的EPS已增加(减少),则对于t+1年的朴素预测也是“增加”(“减少”)。

分析师预测 论文采用共识分析师对第t+1年每股收益(EPS)的预测,该预测发布于第t年业绩公告之后。如果单个分析师发布了多个预测,论文采用最接近第t年业绩公布日期的那个预测。这种方法有助于确保人类分析师基于当前年度的财务报表对未来一年的收益进行预测。然后,论文取分析师预测的中位数,并与第t年的实际EPS进行比较。论文要求在特定年份的公司中至少有三位分析师的预测以计算中位数。如果预测的EPS中位数大于第t年的EPS,论文将该预测标记为“增加”,反之亦然。分析师预测的准确性也是以类似方式获得的。

评估指标 论文报告了两种常用的指标来评估预测方法的质量:准确性和F1分数。准确性是正确预测案例的比例,按总预测数量进行缩放。F1分数是精确度和召回率的调和平均值。精确度衡量的是在所有正向预测中真正预测为正的比例,而召回率衡量的是在所有实际正向情况中真正预测为正的比例。

2.3.1.2 主要结果

表2比较了GPT的预测准确性与金融分析师所达到的准确性。基于前一年财务报表发布后的第一个月预测,分析师预测一年后盈余方向的准确率为52.71%,F1分数为54.48%。如预期,这优于基于朴素模型的预测(准确率=53.02%)。然而,这些结果也再次强调了盈余变化预测的难度,即使是对于经验丰富的金融分析师也是如此。如预期,分析师的预测准确性随着t+1年进程的推进而提高,分别在第三个月和第六个月的预测中达到55.95%和56.58%的准确率。    

综上所述,论文的结果表明,GPT即使在没有任何特定叙述背景的情况下,也能通过执行财务报表分析超越人类分析师。论文的结果还强调了类似于人类逐步分析的重要性,这使得模型能够遵循人类分析师通常执行的步骤。相比之下,仅仅指示模型分析复杂的财务报表并不能产生强大的预测结果。

2.3.1.3 人类分析师与GPT之间的互补性

鉴于GPT在预测未来收益方面超越了人类分析师,这一发现引发了一个问题:LLM(大型语言模型)是否能很大程度上取代人类分析师。在论文的情境中,人类分析师预计会依赖更广泛的信息集,因此在这一点上应该比无法访问定性信息的LLM具有优势(Coastello等人,2020;Liu,2022),这使得人类在信息上具有优势。接下来,论文将探讨与LLM和人类预测相关的互补性和权衡。                 
错误答案的来源

论文首先分析预测错误的实例。论文估计一个简单的线性回归模型,以检验公司特征是否与预测准确性有系统的关联。I(incorrect = 1)是一个指示变量,当盈利预测与实际盈利变化不匹配时,其值为1。

论文在表3的A组和图2中展示了结果。在列(1)中,论文记录了当公司规模较小、杠杆率较高、记录亏损以及收益波动性较大时,GPT的预测更可能不准确。这些结果直观且显著,先前的研究表明这些特征在经济上与盈余质量相关联。为了比较,论文在列(2)、(3)和(4)中报告了分析师不准确预测的决定因素。与列(1)相比,出现了几个有趣的差异。

首先,尽管分析师在预测小型公司盈余时面临困难,但这些系数的大小几乎是对照列(1)中系数的一半(所有三个比较的p值均小于1%)。考虑到分析师可以接触到叙述性信息和更广泛的背景,这一结果与Kim和Nikolaev (2023b)的研究一致,后者表明当公司规模较小时,背景对预测任务更为重要。另

一个显著的差异是,相对于GPT,当公司报告亏损并表现出收益波动时,分析师不太可能出错。这些发现对于所有分析师预测指标都是一致的,列(2)、(3)和(4)中亏损和收益波动性的系数大小始终小于列(1)中的系数。综上所述,论文的结果显示,分析师和GPT在预测小型、亏损报告公司的盈余方面都存在困难。然而,分析师在处理这些复杂的财务状况方面往往相对优于GPT,这可能是因为其他软信息和额外的背景(Costello et al., 2020)。    

增量信息性 接下来,论文测试分析师的预测,尽管准确性较低,是否能为GPT的预测提供有用的增量见解。论文回归一个指示变量I(Increase = 1),当后续期间收益增加时等于1,否则为零,基于GPT和/或分析师预测的未来收益方向。

结果展示在表3的B面板中。在列(1)中,论文发现GPT的预测,在单独考虑时,与未来结果正相关,同时控制了行业和年份固定效应。从列(2)、(3)和(4)可以看出,个别分析师的预测也得到相同结果。与表2中的结果一致,分析师在收益发布后六个月发布的预测与实际结果的相关性比收益发布后一个月发布的预测更强(列(4)中的调整R平方为0.044,几乎是列(2)中调整R平方值的两倍)。

在列(5)、(6)和(7)中,论文在单一回归中同时包含GPT和分析师预测。在所有模型中,两个系数均具有统计显著性。论文观察到GPT的系数基本保持不变(其t统计量从2.99略微下降至2.67),并且当同时使用这两个变量时,分析师预测的系数在数值上有所增加(例如,从第2列的0.073增加到第5列的0.110)。调整后的R平方值也从第1列的0.070增加到第5列的0.089。这些结果表明GPT和人类分析师是互补的,支持了《大型语言模型在财务报表分析中的应用》论文的表3结果。

GPT在人类分析师遇到困难时表现如何?为了探索LLM相对于人类分析师的相对优势,论文研究了人类分析师在准确预测收益时可能遇到困难的情况。特别是,论文识别了分析师预测可能存在偏差或无效的事前情况。论文还考虑了分析师对未来收益意见分歧的情况(表现为分散度)。

然后,论文根据分析师偏差的分位数值将样本进行划分,并对每个组估计方程3。结果展示在表3的C面板中。通过比较第(1)列和第(2)列中的系数,论文观察到重要的差异。当分析师的偏差预期相对较低时,GPT的预测得到的权重较小(与第(2)列中偏差预期较高时相比),而分析师预测的系数相对较大。这些差异在1%的水平上统计显著。这表明,在人类分析师可能存在偏差的情况下,GPT的价值更大。当论文根据分析师的分歧对样本进行划分时,第(3)列和第(4)列中出现了类似的结果:当分析师的分歧较大时,GPT的预测得到的权重更大,反之亦然。

综上所述,论文的结果表明,当人类偏差或效率低下可能存在时,GPT的预测增加了更多的价值。    

2.3.2 与专业ML模型的比较

到目前为止,论文已经展示了GPT的预测在很大程度上优于人类分析师。鉴于已知人类分析师在其预测中存在系统性偏差,论文提高了标准,转向更复杂的基准,包括最先进的机器学习模型。使用大型语言模型进行财务报表分析

2.3.2.1 方法论

遵循Ou和Penman (1989) 以及Hunt等人(2022) 的研究,论文关注从Compustat年度数据库中获得的59个财务变量来预测未来收益,但由于一致性原因(股票价格不是财务报表信息)排除了市盈率。论文进行了两种不同的预测练习:逐步逻辑回归和人工神经网络(ANN)。在两种情况下,论文都使用滚动五年训练窗口。也就是说,论文使用从t - 5年到t - 1年的数据来估计(训练)模型,并将训练好的模型应用于t年的数据以生成预测。通过这样做,论文确保模型在训练阶段不会从测试数据中学习。由于论文的样本涵盖了从1962财年到2021财年,论文为每种预测方法训练了56个不同的模型。

与分析师样本中的结果一致,论文基于CoT的GPT预测实现了60.31%的准确率,这与专门的ANN模型相当。实际上,在terms中达到了63.45%的值,这是所有预测方法中最高的。这表明GPT在分析财务报表方面具有卓越的能力。20 它不仅超越了人类分析师,而且生成的性能与最先进的狭义专业化ML应用相当。

时间趋势 论文在图4中报告了GPT和AN预测准确性的总体时间趋势(详细的年度准确性和F1分数在附录A中报告)。左侧面板显示了GPT预测准确性的负时间趋势。从经济量级来看,GPT的准确性平均每年下降0.1个百分点,这相当于在54年的样本期间准确性下降了5.4个百分点。

不准确性来源 接下来,论文探讨哪些公司特征与错误收益预测的可能性相关。表4的列(1)关注GPT预测的准确性,并与论文对分析师样本的发现(表3)一致。然后,论文在列(2)和列(3)中分别报告了ANN和逻辑回归模型错误预测的决定因素。ANN和逻辑回归模型在公司规模较小、杠杆率较高、记录亏损和收益波动性较高时,也更可能产生不准确的预测。然而,有趣的是,当公司规模较小且记录亏损时,ANN相对于GPT更可能做出不准确的预测。公司规模减少一个标准差,GPT的预测准确性降低3.4个百分点。相比之下,对于ANN模型,相同的公司规模变化与预测准确性降低5.5个百分点相关。这两个系数的差异在1%水平上统计显著。同样,Loss和Earnings Volatility的系数在5%水平上统计不同。逻辑回归与GPT预测之间的差异更为明显。这些发现暗示了GHP在预测或更常见数据模式(例如,亏损公司)方面的能力,这可能是由于其能够依赖其概念知识和理论理解业务。    

增量信息性 尽管GPT的性能与ANN相当,论文还需考察GPT在与专业ML模型比较时是否传达了增量信息。此分析结果呈现在面板C中。在列(1)至(3)中,论文展示了所有模型预测的收益变化与实际变化之间均呈正相关。在列(4)中,当同时纳入GPT和ANN的预测时,两者均保持统计显著性,表明它们各自包含增量信息。有趣的是,与列(2)相比,ANN的系数大小降至三分之一,其统计显著性也有所下降(t统计量从3.69降至2.36),而GPT的系数保持稳定。这一结果表明,在预测未来收益时,GPT捕捉到了除财务变量间非线性交互作用之外的某些额外信息维度,即外部理论知识。

2.3.2.3 置信度、幅度与泛化性

2.3.2.3.1 大型语言模型(LLM)的置信度

方法 论文基于两种方法估计LLM答案的置信度。首先,论文明确指示模型在其收益预测上报告一个置信度得分,其中1代表完全置信,0代表纯粹猜测(ybee, 2023)。其次,论文基于模型提供的概率向量,计算基于token级逻辑概率值的替代置信度得分。具体而言,论文通过平均所有输出token的逻辑概率值来衡量模型答案的整体确定性。

结果 对于两种方法,论文报告了高置信度(第四四分位数)和低置信度(第一四分位数)组的预测结果。论文在图5和表5的列(1)至(4)中展示了结果。模型在报告更高置信度时表现更好。在高置信度组中,模型基于报告的置信值(由逻辑概率导出的置信分数)达到了平均准确率62.44%(63.15%),比低置信度组的相应准确率高出约2.6(4.6)个百分点。论文还发现了基于F1分数的类似结果。总体而言,这一结果表明模型能够区分出盈利更可预测的情况。

2.3.2.3.2 幅度

方法 回顾一下,论文还指示模型提供盈利变化的预期幅度:“大”、“中等”或“小”。与Ou和Penman(1989)以及Hunt等人(2022)一样,论文预期模型在预测大幅而非微小变化时,确定方向变化的准确性更高。    

结果 论文在图5和表5的列(5)和(6)中展示了结果。论文发现,当模型预测大幅变化时,平均准确率为62.03%,而对于小幅变化则降至60.22%。F1分数也显示出类似模式:大幅变化为61.16%,小幅变化为57.95%。总体而言,当模型预期变化较大时,其方向预测更为准确。

2.3.2.3.3 LLM类型

方法 论文还测试了特定LLM类型的能力是否决定了其预测能力。在主要分析中,论文使用了最新版本的GPT,即GPT-4-turbo。论文还尝试了同一族中功能较弱的LLM版本,即GPT-3.5-turbo,并使用了相同的实验设置。此外,论文还探索了Google提供的另一族LMs,即Gemini Pro 1.5(也使用相同的实验设置)。由于处理时间较长,论文选择了这组分析的随机20%样本。                   
使用大型语言模型进行财务报表分析

结果 论文在图5和表5的第(7)至(9)列中展示了结果。GPT-4取得了最佳表现,其次是Gemini 1.5,然后是GPT-3.5。Gemini 1.5在同一20%样本中实现了59.15%的整体准确率,接近GPT-4的61.05%。然而,GPT-3.5的准确率仅为52.299%,F1分数为59.17%,均明显低于论文的GPT-4基准。论文还发现,GPT-4和Gemini 1.5的输出大部分重叠,仅有30,135个公司年度中的1,808个(约6%)预测结果相反。总体而言,这一分析表明论文的发现并不局限于特定系列的LLMs。尽管最终预测结果很大程度上依赖于主干语言模型的性能,但近期的LLMs能够分析财务报表并做出明智的决策。

2.3.3 大型语言模型(LLM)的预测能力源自何处?

在本节中,论文旨在理解GPT预测能力的来源。论文探讨了两种广泛的解释。第一种解释是,GPT的性能来自于其记忆能力,例如,模型能够基于数字数据识别公司。论文试图排除这种可能性,因为它削弱了模型预测的完整性。另一种解释是,模型的强项在于其基于对数字数据的分析生成叙述性见解的能力。接下来,论文将探讨每种可能性。

2.3.3.1 模型中是否存在前瞻性偏差?

在预测任务中依赖预训练的大型语言模型的一个重要问题是其可能存在的预知偏差(例如,Sarkar和Vafa, 2024)。例如,模型可能已经基于特定公司的财务数据进行了训练,因此可能已经“知道”未来收益是增加还是减少(或者对公司随时间的业绩有一个大致的了解)。论文的研究设计相对不受这种潜在偏差的影响(例如,Glasserman和Lin, 2023),因为论文使用了跨公司一致的匿名财务报表格式。这使得模型几乎不可能从财务报表的结构或特定账户名称中推断出公司的身份。论文还确保报表不包含任何日期,并使用相对年份,即。这后一点减轻了模型对特定年份宏观经济趋势的了解,并利用这些信息来预测未来收益的担忧。为了理解这个问题,设想模型能够将一组给定的财务数据匹配到2007年。在这种情况下,模型可能会利用其对2008年重大经济衰退的知识,并相应地调整其预测。    

尽管财务报表的匿名性应该防止模型进行财务报表分析,但大型语言模型仍然可能增强错误的外部认知。

GPT能否猜出公司名称和年份?在这组测试中,论文指示模型根据论文提供的财务报表对公司或年份进行猜测。具体来说,论文要求模型提供十个最可能的公司名称和最可能的财政年度。此外,论文迫使模型在它认为无法做出任何有根据的猜测时也要产生输出。

正确猜测财务报表年份的准确率为2.95%。在图7的右侧面板中,论文绘制了实际财务年度与GPT预测在同一平面上的情况。论文观察到,几乎所有预测都是2019年、2020年或2021年,与实际年份无关,这与模型猜测年份的能力不一致。

超出GPT训练窗口的分析 如Sarkar和Vafa(2024)所建议,排除模型前瞻性偏差的最有效方法是在模型训练窗口之外进行测试。OpenAI的GPT4-Turbo预览版训练数据截止到2023年4月,从而大大限制了进行此分析的范围。尽管如此,论文使用2022财年的财务报表数据(于2023年1月至3月发布)来预测2023财年的收益(将于2024年初发布)。

论文在表6的C部分展示了结果。作为对比,论文还报告了逻辑回归、分析师预测和ANN模型的预测结果。GPT实现了58.96%的准确率和63.91%的F1分数。准确率(而非F1分数)略低于表4的A部分报告的平均值。然而,论文发现GPT的预测准确率总体上呈下降趋势。具体来说,如附录A所示,GPT对2021财年的预测准确率仅为54.36%,对2019年为59.01%(GPT在新冠疫情爆发的2020年的预测准确率大幅下降)。实际上,无论是GPT样本外的准确率还是F1分数,都明显高于过去10年的平均水平(58.01%和59.15%)。因此,论文将这些结果解释为GPT的样本外表现与论文的“样本内”结果高度一致。此外,GPT在样本外的准确率与ANN模型非常接近(58.96%对59.10%),并且在同一年份的F1分数上甚至更高(63.91%对61.13%),这与论文的主要发现高度一致。综上所述,这一结果证实了论文之前的测试,并确认模型的预测能力并非源自其训练记忆。    

2.3.3.2 大型语言模型生成的文本是否具有信息性?

论文在图7中展示结果。在左侧面板中,论文报告了比率分析中使用频率最高的十个双词组合。论文通过将双词计数与模型生成的总双词数进行比例缩放来计算频率。论文发现,模型最常提及营业利润率。除了盈利信息外,模型还频繁计算效率(资产和库存周转率)和流动性(流动比率、流动资产和流动负债)。模型在做出最终预测时的基本原理通常与其双词分析一致。在决策中,模型通常参考公司增长、流动性、营业盈利能力和效率。双词分析中识别的主题与模型最终预测之间的一致性强调了LLM生成的文本在捕捉关键财务指标方面的实用性。        

论文假设GPT能够预测未来收益,因为它从数值数据中提炼出了关于公司财务健康的叙述性见解。因此,论文检验GPT生成的文本是否包含对预测未来收益方向有用的信息。为此,论文对每个GPT输出使用BERI-base-uncased模型处理,以获得其768维向量表示(注意,GPT不允许检索原生嵌入,因此论文使用BERT)。[25] 然后,论文设计了一个新的ANN模型,该模型使用这些文本嵌入作为输入,并训练ANN预测未来收益的方向(目标变量)。该模型有两个隐藏层,维度分别为256和64,输出层有两个维度:收益增加与减少的概率(p1, p2)。当pn > p2时,论文分类结果为增加,反之亦然。该模型在其他方面与论文之前估计的ANN模型类似。[26] 论文称这种模型为基于嵌入的模型。

论文在表7的B部分报告了训练模型的准确度、F1分数以及ROC曲线下的面积(AUC)(注意,论文无法测量GPT预测的AUC,因此之前未报告)。论文的嵌入模型达到了58.95%的准确度,65.26%的F1分数和64.22%的AUC。值得注意的是,该模型在论文之前检查的所有分类方法中实现了最高的F1分数。为了比较,表格第二行重复了基于两份财务报表变量的ANN模型的结果,该结果先前已在表4中报告。该模型仅实现了略高的准确度60.12%,但F1分数(61.30%)和AUC(59.13%)显著较低。总体而言,论文的结果表明,GPT生成的叙述文本包含了大量有助于预测未来收益的信息,即它确实代表了基于CoT提示的数值数据衍生出的叙述洞察。这一结果表明,叙述洞察构成了GPT优越预测能力的基础。在未表格化的结果中,论文发现GPT预测与基于嵌入的未来收益方向预测之间的相关性为94%,这表明两者在很大程度上依赖于相同的信息集。    

最后,论文考察了GPT执行的财务报表分析中不同部分的重要性。具体而言,模型首先分析趋势,然后转向比率分析,最后提供其预测背后的理由。论文为每种生成的叙述类型获取嵌入向量,目的是评估它们的相对重要性。具体来说,论文估计了三个ANN模型,每个模型在分析中省略了一种类型的嵌入向量。省略趋势分析的ANN模型准确率为57.11%,比使用完整文本嵌入的ANN模型低约1.8个百分点。排除比率分析的ANN模型准确率为55.65%,比完整的ANN模型低近3.3个百分点。这些结果表明,比率分析和随后的趋势分析在确定公司未来方向时分别提供了最高和次高的信息价值。相比之下,排除理由叙述对模型性能的影响不大(58.88%),意味着理由叙述并未在趋势和比率分析之外增加信息。

2.3.4 资产定价测试

在证明GPT对盈利方向的预测具有高准确性,并且这种准确性源于模型生成见解的能力,而不是来自记忆之后,论文现在将通过评估基于GPT输出的交易策略,来研究基于大型语言模型的财务报表分析的实际价值。

特别是,关于未来预期利润的信息信号应在公司横截面上与预期股票回报呈正相关(Fama和French,2015)。资产定价模型通常使用当前盈利水平作为未来预期盈利的代理(Novy-Marx,2013)。如果GPT预测对未来盈利有增量信息,它们也应该预测未来的股票回报。论文使用GPT预测下一时期收益是否可能增加或减少,来形成投资策略并评估其表现。

2.3.4.1 方法论

由于论文的样本包括了12月31日财政年度结束的公司,他们的财务结果会在3月底公布。遵循先前的文献,论文允许市场大约三个月的时间来充分处理报告的信息,并在每年的6月30日形成投资组合。论文持有该投资组合一年,并衡量其夏普比率和月度阿尔法值。论文比较了三种类型的策略。第一种策略是基于GPT预测对股票进行排序,而其他两种策略则是基于ANN和逻辑回归预测,这些预测依赖于数值信息。

ANN和逻辑回归 ANN和逻辑回归产生的概率预测下一年的盈利将增加。论文使用这些预测概率将股票分为十个投资组合。然后在每年的6月30日,论文对排名前十的股票进行多头操作,对排名后十的股票进行空头操作。

GPT 由于GPT不提供关于收益将增加或减少的概率信息,论文采取了不同的方法来构建投资组合。论文依赖于三个信息来源:二元方向预测、幅度预测和token的平均对数概率。具体而言,对于每个财年,论文选择那些预测将经历“增加”收益的股票,其预测的收益变化幅度为“中等”或“大”。然后,论文根据生成的文本相关的平均对数概率值对这些股票进行排序。这使论文能够选择那些相对更有信心预测的股票(回想一下,模型答案的确定性越高,其准确性通常越高)。然后,论文保留那些对数概率最高的股票,使得每年保留的公司数量构成该年样本的10%(论文的目标是构建一个相当于十分位数的投资组合)。    

论文也对那些预测将经历“减少”收益的股票做同样处理。论文筛选出预测幅度为“中等”或“大”的股票,并根据对数概率值进行排序。然后,论文做空相同数量的股票,即保留总观测数的10%,这些股票在该财务年度具有最高的预期信心。通过这样做,论文匹配了ANN或基于逻辑回归的投资组合中所包含的股票数量。

2.3.4.2 结果

夏普比率 为了计算夏普比率,论文形成了等权重和价值加权的投资组合。对于价值加权的投资组合,论文每月重新平衡投资组合权重。尽管价值加权投资组合对小市值不那么敏感,但在实践中根据股票的时变市值重新平衡投资组合是困难的(Jiang et al, 2022)。回想一下,论文之前的发现表明,GPT在分析较小且相对更波动的公司方面似乎具有优势。因此,论文展示了价值加权和等权重策略的结果。

Alphas 接下来,论文根据从CAPM到Fama和French(2015)的五因子加动量这五种不同的因子模型,计算上述三种投资策略的月度阿尔法值。结果如表8的面板B所示。与面板A的结果一致,等权重投资组合通常产生更高的阿尔法值。正如所预期的那样,当论文在第(4)列包含盈利能力因子时(基于GPT预测的投资组合由1.29降至0.97),论文观察到阿尔法值显著降低,这是另一个未来盈利能力的代理变量。然而,即使在控制五个因子和动量之后,基于GPT预测的投资组合仍能产生每月84个基点(第(5)列)的阿尔法值,年化为10%。基于ANN和logistic回归估计的投资组合也产生正的阿尔法值。但是,它们的数值和经济意义较小(ANN为60个基点,t统计量为1.89;logistic回归为43个基点,t统计量为1.96)。

在图8中,论文绘制了从1968年到2021年基于GPT预测的投资组合的累计对数收益率。左侧面板分别显示等权重多头和空头投资组合的累计对数收益率。如预期,多头投资组合远远优于空头投资组合。在右侧面板中,论文绘制了多空头投资组合的累计对数收益率,并与市场投资组合的对数收益率(虚线)进行了比较。值得注意的是,即使在市场经历负累计收益时,论文的多空头投资组合也一直优于市场投资组合。    

对于加权投资组合,与夏普比率结果一致,基于ANN的投资组合表现更好,即使在控制五个因子和动量后,阿尔法值也达到50个基点。基于GPT预测的投资组合实现37个基点的阿尔法值,t统计量为2.43(第(10)列)。基于logit估计的投资组合也显示出正的阿尔法值(31个基点),尽管略显不显著(t统计量=1.55)。

总体而言,论文的分析证明了基于GPT的基本面分析在股票市场中的价值。论文还注意到,当评估等权重(加权)策略时,GPT相对于ANN的表现更出色(较差)这一有趣现象,指向了GPT揭示小盘股价值的能力。

                 

 

                 

 

附录A. GPT预测准确性的时间序列

这个表格显示了GPT和ANN的时间序列预测准确性和F1分数。最后两列是两个模型之间的差异(GPT - ANN)。时间趋势是通过将准确性指标对财年进行回归得到的,并获得年度层面的稳健标准误差。* , **、和***分别表示10%、5%和1%的统计显著性水平。    

附录B. 资产负债表和损益表示例

面板A和面板B显示了标准化和匿名的资产负债表和损益表示例。论文使用了Compustat的平衡公式,并删除了会计年度。    

附录C. 示例输出

论文展示了一个由GPT生成的示例输出。GPT预测了一个“增加”的趋势,其幅度为中等,预测确定性为0.7。正确的预测是“增加”。面板A展示了趋势分析结果,面板B展示了比率分析结果,面板C展示了推理过程。    

面板A:趋势分析

"趋势分析":"公司收入在过去三年显示出持续上升趋势,从16199.0增长至26142.0。这代表了销售额的显著增加,表明市场对公司产品或服务的需求强劲。然而,销售成本也大幅增加,从4443.0增至12602.0,如果不有效管理,可能会侵蚀利润率。尽管如此,毛利润虽增长较慢,但仍有所增加,这表明公司能够维持一定程度的定价能力或成本效率。"

面板B:比率分析

"比率分析":"当前年度的营业利润率(t)可计算为营业利润后折旧/销售额(净额),即7065.0 / 26142.0,结果约为27.02%。这一比率表示公司每收入一美元中,在计算销售成本和营业费用后保留的营业利润百分比。较高的营业利润率通常是有利的,因为它表明在管理成本和从销售中产生利润方面的效率。公司的效率可以通过资产周转率来评估,计算为销售额(净额)/总资产,即26142.0 346288.0,结果约为0.08。这一比率衡量公司使用其资产产生销售的效率,比率越高表示效率越好。与上一年度相比,营业利润率有所提高,上一年度的营业利润后折旧为5391.0,销售额为21325.0,营业利润率约为25.28%。这一改善表明公司在管理营业费用或获得更好的定价能力方面变得更加高效。然而,资产周转率从上一年度下降,表明在利用资产进行销售方面的效率相对下降。"    

面板C:理由

"理由":"下一财年EPS预测'更好'主要是基于观察到的收入增长趋势和营业利润率的提高,这表明公司相对于销售增长有效地管理了营业费用。然而,资产周转率的下降和销售成本的大幅增加引发了对资产利用效率和成本管理的担忧。这些因素为预测引入了一些不确定性,因此确定性水平适中。预期的EPS变化被认为是'适中'的,因为尽管公司显示出提高盈利能力的潜力,但存在可能限制EPS增长幅度的基本效率问题。"

附录D:GPT对财政年度的猜测

在表6中,论文展示了GPT对财政年度猜测的准确率为2.95%。论文的样本涵盖了1968年至2021年的时间段,可能会有人担心,纯随机猜测的准确率应为1.85%,低于GPT的准确率。然而,考虑到GPT答案的分布和论文的样本分布,情况并非如此。

论文观察到,在10,000个随机样本中,GPT对财政年度的预测仅给出了2001年(0.02%)、2008年(0.47%)、2018年(0.02%)、2019年(3.50%)、2020年(32.60%)、2021年(63.31%)和2023年(0.09%)。GPT无法产生均衡的猜测已经表明它无法对财政年度做出有根据的猜测。然而,为了更正式地测试这一点,假设论文从总体中随机抽取一个样本,其财政年度为i。当i不是2001、2008、2018、2019、2020、2021和2023之一时,GPT猜中正确年份的概率为零。如果i是2001年,GPT猜中正确年份的概率是0.02%,而如果i是2021年,这个概率增加到63.31%。现在定义p_i为给定年份i时,GPT猜中正确财政年度的概率。

           

 

图1. GPT处理细节

该图展示了论文实验的结构。使用Compustat年度原始数据,论文根据Compustat的平衡公式构建了标准化的资产负债表和利润表。然后,论文将财政年度替换为相对财政年度t、t - 1和t -2。接着,论文将这些匿名的、标准化的财务报表提供给GPT 4 Turbo,并附有详细的思维链提示。模型被指示提供显著趋势、财务比率及其解释。最终预测为二进制(增加或减少),并附有一段理由说明。论文还指示模型生成预测的收益变化幅度及其答案的信心度。    

图2. GPT与人类分析师的比较

本图比较了GPT和人类分析师的预测性能。随机漫步基于当前盈利变化与之前盈利的比较。分析师1m(3m,6m)表示在盈利发布后一个月(三个月,六个月)发布的分析师预测中位数。GPT(无CoT)表示GPT在没有链式思维提示的情况下的预测。论文仅向模型提供结构化和匿名的财务报表信息。GPT(带CoT)表示模型在提供财务报表信息的同时,还附带详细的链式思维提示。论文报告了每种方法的平均准确度(正确预测占总预测的百分比)(左)和F1分数(右)。通过随机抽样1,000个观测值1,000次,论文获得了自助标准误差,并包含了95%的置信区间。           
   

图3. GPT与机器学习模型的比较

本图比较了GPT和基于机器学习的定量模型的预测性能。逐步逻辑回归遵循Ou和Penman(1989)的结构,使用他们的59个财务预测因子。ANN是一个三层人工神经网络模型,使用与Ou和Penman(1989)相同的变量集。GPT(带有CoT)为模型提供了财务报表信息和详细的思维链提示。论文报告了每种方法的平均准确度(正确预测占总预测的百分比)(左)和F1分数(右)。通过随机抽样1,000个观测值1,000次,论文获得了自助标准误差,并包括了95%的置信区间。

           

 

图4. 预测准确性的时间趋势

该图展示了GPT预测准确性的时间趋势(左侧)以及GPT与ANN预测准确性之间的差异(右侧)。左侧面板展示了GPT预测的年准确性。虚线代表拟合的时间趋势。在右侧面板中,论文计算每年GPT与ANN预测准确性之间的差异(GPT的准确性 - ANN的准确性)。虚线代表拟合的时间趋势。    

           

 

图5. 不同的GPT规格

该图根据几种实验设置比较了模型的性能。前四个柱状图基于GPT对其信心的回答以及平均的token级对数概率。第五和第六个柱状图是预测的收益变化幅度。最后两列比较了GPT 4和GPT 3.5的预测准确性。论文使用随机抽取的20%样本进行最后两列的比较。通过随机抽取1,000个观测值1,000次,论文获得了自助法标准误差,并包含了95%的置信区间。           
   

           

 

图6. GPT的记忆能力

本图展示了测试GPT记忆能力的实验结果。论文要求GPT从标准化的匿名财务报表中生成十个最可能的公司名称及最可能的财年。左侧面板展示了GPT回答中出现频率最高的十个公司名称,而右侧面板则绘制了实际财年(纵轴)与预测财年(横轴)的对应关系。           

           

 

   

图7.预测来源

本图展示了GPT回答中描述性双词(单词)频率计数。左侧面板显示了在财务比率分析中GPT答案中最常使用的十个双词。右侧面板显示了在GPT关于其二元盈利预测背后理由的答案中最常使用的十个单词。

           

 

图8. 等权重投资组合随时间的累积收益率

本图展示了基于GPT预测的1968年至2021年期间多空策略的累积对数收益率。论文每年6月30日构建等权重投资组合,并持有它们一年。论文做多的对象是根据其对数概率被归类为“盈利预测增加,幅度大”或“中等”的前十分位股票。相似地,论文做空的对象是根据其对数概率被归类为“盈利预测减少,幅度大”或“中等”的前十分位股票。左侧面板显示了多头和空头投资组合的累积对数收益率。右侧面板展示了多空收益率与市场收益率。    

           

 

表1. 描述性统计

本表展示了分析中所用变量的描述性统计。面板A使用Compustat的整个数据集,面板B使用I/B/E/S与Compustat的交集。对于面板B,论文要求每个观测至少有三次分析师预测发布。Pred-X表示一个指示变量,当方法预测收益增加时等于1,否则等于0。Target是一个指示变量,当下一期的收益增加时等于1,否则等于0。Size是总资产的对数,BtoM是市净率,Leverage是总负债占总资产的比例,Earnings Volatility是过去五年收益的标准差除以总资产,PP8E是净财产、工厂和设备占总资产的比例。    

           

 

表2. GPT与人类分析师的比较

本表报告了随机游走模型、分析师在上一次收益发布后一个月(分析师1m)、三个月(分析师3m)和六个月(分析师6m)发布的预测的预测性能。GPT(无CoT)表示GPT的预测没有任何链式思维提示。论文仅向模型提供了结构化和匿名的财务报表信息。GPT(带CoT)表示模型具有财务报表信息和详细的链式思维提示。准确率是正确预测占总预测的百分比。

           

 

   

表3. 人类分析师与GPT之间的互补性

*,**,和***分别表示在10%、5%和1%水平上的统计显著性

在面板A中,论文研究了错误预测的决定因素。I(Incorrect = 1)是一个指示变量,当模型做出错误预测时等于1,否则为0。自变量定义见表1。所有连续变量均在1%和99%水平上进行winsorized处理。标准误差按行业级别聚类。列(1)使用GPT进行I(Incorrect = 1)预测,列(2)、(3)和(4)使用分析师的预测。面板B显示了每种预测的增量信息量。自变量和因变量都是指示变量。I(Increase = 1)是一个指示变量,当实际收益增加时等于1,否则为0。所有自变量也是指示变量,当相应方法预测收益增加时等于1,否则为0。标准误差按行业级别聚类。在面板C中,论文根据分析师的偏差和分散度对样本进行分区。偏差是分析师预测误差的预测部分,分散度是分析师预测的标准偏差除以前一财年末的股票价格。低和高分别表示第一和第四四分位数。F检验比较列(1)和(2)以及列(3)和(4)的系数大小。    

           

 

表4. 与ML基准的比较

*,**,和***分别表示10%、5%和1%的统计显著性水平

在面板A中,论文将GPT的预测性能与基于机器学习的定量模型进行比较。逐步逻辑回归遵循Ou和Penman (1989)的结构,使用他们的59个财务预测因子。ANN是一个使用与Ou和Penman (1989)相同变量集的三层人工神经网络模型。GPT(含CoT)向模型提供财务报表信息和详细的思维链提示。准确率是正确预测占总预测的百分比。F1是精确度和召回率的调和平均值。在面板B中,论文研究了错误预测的决定因素。I(Incorrect = 1)是一个指示变量,当模型做出错误预测时等于1,否则为0。自变量定义见表1。所有连续变量均在1%和99%水平上进行winsorized处理。标准误差按行业级别聚类。列(1)使用GPT进行I(Incorrect = 1)预测,列(2)、(3)和(4)使用分析师的预测。面板C显示了每种预测的增量信息量。自变量和因变量都是指示变量。I(Increase - 1)是一个指示变量,当实际收益增加时等于1,否则为0。所有自变量也是指示变量,当相应方法预测收益增加时等于1,否则为0。标准误差按行业级别聚类。    

           

 

   

表5:实验变体与GPT的预测能力

论文比较了基于几种实验设置的模型的预测性能。Conf Score是模型产生的置信度分数(范围从0到1)。置信度分数衡量模型对其答案的确定程度。Log Prob是平均的token级逻辑概率。High和Low在列(1)、(2)、(3)和(4)中分别表示第一和第四四分位数。Magnitude是模型提供的盈余变化的预测幅度。LLM Version表示论文用于实验的LLM家族。Accuracy是正确预测占总预测的百分比。F1是精确度和召回率的调和平均值。在面板B中,论文报告了基于文本嵌入的ANN模型的性能。论文使用BERT-base-uncased模型来提取模型执行的叙述性财务报表分析的上下文化嵌入表示。输入层有768维,两个隐藏层各有256和64维,财务层有一维。论文在前两个转换中使用ReLU激活函数,在最后一个转换中使用sigmoid。批量大小为128。论文使用Adam优化器和二元交叉熵损失。该模型在滚动五年训练窗口上进行训练,超参数(学习率和dropout)基于训练样本的随机20%进行网格搜索确定。带有财务报表变量的ANN表示表4面板A中的模型。AUC表示曲线下面积。

           

 

表6. GPT的记忆测试

在本表中,论文测试了GPT的记忆能力。对于A组和B组,论文要求GPT根据标准化的匿名财务报表信息提供公司最可能的十个名称和最可能的财政年度。在A组中,论文没有提供思维链提示,而在B组中,论文提供了与主要分析相同的思维链提示。在C组中,论文重复了主要分析,使用2022年的数据预测2023年的收益。GPT的训练窗口截止到2023年4月,论文的样本期间提供了一个完美的样本外测试。准确率是正确预测占总预测的百分比。F1是精确度和召回率的几何平均值。    

           

 

表7. GPT生成文本的预测能力

论文报告了基于文本嵌入的人工神经网络模型的性能。论文使用BERT-base-uncased模型提取模型执行的叙述性财务报表分析的上下文化嵌入表示。输入层有768维,两个隐藏层各有256和64维,最终层有两个维度(概率向量)。论文在前两个转换中使用ReLU激活函数,在最后一个转换中使用sigmoid。批量大小为128。论文使用Adam优化器和交叉熵损失。该模型在滚动五年训练窗口上进行训练,超参数(学习率和dropout)基于训练样本的随机20%进行网格搜索确定。表4中A组的人工神经网络表示使用财务报表变量的模型。带有文本和FS变量的人工神经网络表示允许嵌入神经元和FS变量之间完全非线性交互的模型。调整后的文本嵌入表示调整文本输入的模型。GPT产生三个主要的文本输出——趋势、比率和理由。不包含趋势的人工神经网络表示仅包含比率和理由分析的输入嵌入。不包含比率和不包含理由的人工神经网络定义类似。AUC表示曲线下面积。    

           

 

表 8. 资产定价影响

*,**, and 分别表示在10%、5%和1%水平上的统计显著性。

在本表中,论文展示了GPT预测的资产定价影响。论文于每年6月30日构建投资组合,并持有该投资组合一年。基于CGPT的预测形成投资组合时,对于每个财年,论文选择具有“增加”二元预测和“中等”或“大”幅度预测的股票。然后,论文根据这些股票的平均对数概率值降序排列。从这些选定的股票子集中,论文长期持有相当于该财年可用股票总数10%的股票,这些股票在概率值排名中最高。对于具有“减少”二元预测的股票,论文也采取同样的操作。论文筛选出预测幅度变化为“中等”或“大”的股票,并根据对数概率值对其进行排序。对于ANN和logit模型,论文根据预测的盈利增加概率值对股票进行排序。然后在6月30日,论文长期持有概率值排名前10%的股票,并卖空概率值排名后10%的股票。面板A报告了月度夏普比率。面板B报告了基于CAPM、三因子、四因子、五因子及六因子(五因子加动量)模型的阿尔法值。    

           

 

           

 

论文标题:Financial Statement Analysis with Large Language Models

论文链接:https://deliverypdf.ssrn.com/delivery.php?ID=555064031119110008092086067125005096050036019060022069010065115070120068007090000070103012064081082070113122028040058067000105006003004013012003102070120099029116005026002103023104065019002010013086&EXT=pdf&INDEX=TRUE    



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询