AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


使用大模型实现可解释的股价预测
发布日期:2024-07-23 08:17:12 浏览次数: 2022


LLMFactor: Extracting Profitable Factors through Prompts for Explainable Stock Movement Prediction


大家都想从股市中赚钱,但是如果缺少专业知识,进场只能做韭菜。在大模型发展火热的今天,我们能否使用大模型来为我们预测股票走势,并且给出它的分析原因呢?


来了!近日东京大学发表了LLMFactor,利用序列知识引导提示(SKGP)来识别影响股票走势的因素,从相关新闻中辨别可能影响股价的因素,并进行股价预测。



论文地址:https://arxiv.org/pdf/2406.10811


摘要


LLMFactor利用序列知识引导提示(SKGP)来识别影响股票走势的因素。通过填空策略指导LLMs创建背景知识,并从相关新闻中辨别可能影响股价的因素。在背景知识和识别出的因素的指导下,利用历史股票价格的文本格式来预测股票走势。在四个基准数据集上的广泛评估证明了其优越性和在金融时间序列预测中的有效性。


简介


有效市场假说认为股票价格反映了所有可用信息,但研究表明市场效率存在局限性,因此研究人员正在探索各种数据类型以增强预测能力。本文提出了一种新的任务——因素提取,通过使用因素来增强股票运动预测。作者提出了一种新的框架LLMFactor,通过SKGP从LLMs中提取因素,然后解释股票价格趋势。实验结果表明,LLMFactor具有优越的预测结果和解释能力。本文的主要贡献是提出了因素提取任务、SKGP策略和LLMFactor框架。



相关工作


基于文本数据的股票走势预测


利用自然语言处理技术,研究人员利用文本数据预测股市趋势。一些研究结合推特和历史价格进行股票数据的预测,另一些研究探讨了文本数据与股票相关性之间的多模态关系。还有研究专注于从文本数据中提取更细致的见解,如识别公司事件对股票走势的影响,以及媒体情绪与市场回报之间的显著关联。这些研究为我们更好地理解市场动态提供了更清晰的视角。


基于LLM的时间序列预测


LLMs是基于transformer架构构建的,虽然它们的知识库非常丰富,但不适合分析时间序列数据。因此,学者们提出了一些方法来改进LLMs以适用于时间序列预测。其中一种方法是使用基于提示的方法将数值输入和输出转换为文本提示,以便直接应用于预测任务。另一种方法是使用提示来生成摘要和关键词,以增强时间序列预测。然而,这些提示可能包含过多信息,导致LLMs的响应相对缺乏细节。


提示词工程


提示词工程可以帮助LLMs有效地完成各种任务,但如何为每个具体任务确定最佳提示仍然是一个挑战。为了解决这个问题,研究人员提出了多种提示策略,包括CoT、生成知识提示和RAG等。本文提出了一种新的顺序知识引导提示方法,旨在提高财务预测的准确性。


LLMFactor



任务定义


对于给定的股票,我们结合其在目标预测日期发布的相关新闻,预测其历史股票价格序列P。预测股票走势的任务被表述为一个二元分类问题,其中股票价格序列被转换成一系列股票走势P。我们的目标是在给定日期目标、新闻目标和前一天股价的情况下预测当天的股价。

序列知识引导提示

新闻背景知识的匹配与获取

我们的方法的基础是序列知识引导提示(SKGP)策略,它包括三个主要阶段。初始阶段包括将股票与相关新闻相匹配,并获取背景知识。


设S为股票列表,其中每个元组(Ci,Ti,Ii)由一家公司Ci、其股票代码Ti和其所属行业Ii组成。我们将S与目标新闻匹配。然后,我们提示LLM获得股票目标与股票匹配之间的关系。这种获取新闻目标背景知识的方法大大提高了我们对新闻内容的理解。


产生可能影响股价的因素

SKGP的下一步包括从新闻目标生成因子。这些因素的重要性有三个方面:

  • 它们与股票走势的关系比关键词、情绪、新闻摘要或整篇新闻文章更密切,因此提供了更有可能获利的市场趋势预测。

  • 与从其他来源获得的因素相比,从新闻文本中获得的因素可以更直接、更详细地了解股价波动。

  • 提高了股价趋势的可解释性和法学硕士预测背后的理论基础。


为了产生可靠的因素,我们指导LLM分析新闻内容,识别可能影响股价的因素。这种方法充分利用了法学硕士的固有知识。提示方法描述为LLM(FactorTemplate)=factor,其中FactorTemplate是一个结构化的句子:“请从以下新闻中提取可能影响股票目标股价的前k个因素”,后面是新闻目标,输出是LLM生成的因素。LLM输出的影响因素并不局限于新闻中的词汇,LLM会考虑新闻的内容及其对股票走势的潜在影响,通常会总结内容中的重要元素。


预测股价走势

为了预测股票走势,我们整合新闻背景知识和因素来指导LLM。同时,我们将时间序列数据转换为文本格式,以供LLM理解。给定文本股票移动序列TextMovement及其日期系列date ={日期1,日期2,…,日期t},过去的股票价格变动被转换成一个TimeTemplate,其结构为“日期i,股票目标的股价f(P i)”。


随后,我们构建了一个PriceTemplate,其中包括一个初始指令,“基于以下信息,请判断股票价格的方向是上涨还是下跌,填空并给出理由”,然后是一个结语指令,“在日期i,股票目标的股票价格将___。”通过整合关系、因子、时间模板和PriceTemplate,我们将提示方法表述为LLM(关系、因子、时间模板、PriceTemplate)=预测。预测结果指定了股票价格是“上涨”还是“下跌”,以及这种推断的基本原理。


股票市场的因素分析

SKGP提供了一种预测股票走势的强大技术,从SKGP衍生的因素为股票市场趋势提供了额外的见解。例如,因子分析可以应用于股票市场。以英伟达的股价走势为例,在经历了过去五天的持续上涨后,蓝色方框突出显示的那一天也呈现出上涨趋势。为了解释这一现象,我们的LLMFactor确定了一组简明的因素,例如“英伟达1月份的股票上涨,新产品发布,以及电动汽车制造商选择英伟达Drive Thor。”

实验


数据集


本文在四个基准数据集上进行实验,分别是StockNet、CMINUS、CMIN-CN和EDT。其中,前三个数据集关注时间序列预测,而EDT数据集则关注新闻内容。这些数据集包含了股票相关的推文和历史价格数据,用于股票市场的分析。


评估指标

我们使用准确率(ACC)和马修斯相关系数(MCC)作为评估指标。


基线

为了进行预测,我们使用了几个模型来识别文本中的关键短语:PromptRank、KeyBERT、YAKE、TextRank、TopicRank、SingleRank和TFIDF。


我们使用以下模型来分析文本中的情绪并预测股市走势:EDT、FinGPT、GPT-4-turbo、GPT-4、GPT-3.5-turbo、RoBERTa、FinBERT。


我们采用同时利用文本和时间序列数据的模型来预测股票走势:CMIN、StockNet。


结果


LLMFactor能够从文本数据中识别影响股票价格的重要因素,并结合关系和时间信息进行综合分析。在四个数据集上的实验结果表明,LLMFactor的性能优于其他方法,包括基于时间、情感和关键词的方法。



与其他SOTA相比,LLMFactor在四个数据集上的MCC提高了2.9%,0.4%,11%和4.8%。关键词模型的表现差异不大,情感模型的表现因模型不同而异。时间模型和情感模型的表现相当,但LLMFactor在SKGP技术的帮助下,能够更好地过滤无关内容,提供更全面的分析。


在不同数据集上的平均分数分析表明,LLMFactor在美国市场的StockNet和CMIN-US数据集上的平均准确率超过63%,平均MCC超过0.2。但在针对中国市场的CMIN-CN数据集上,其表现略有下降。EDT数据集中缺乏历史价格信息,这可能会降低LLMFactor的效果,强调了金融市场分析所需的全面数据的重要性。


数据分析

消融分析

本文对LLMFactor进行了消融分析。实验结果表明,价格层对ACC和MCC的总体表现贡献了约86%和32%,因素层在ACC和MCC方面分别提高了9%和46%,而关系层则分别提高了5%和22%。因素层对LLMFactor的整体性能贡献最大。此外,本文还对不同类型的FactorTemplate进行了实验。


案例分析


通过对美国和中国市场中的股票进行因子分析,LLMFactor能够有效地整合公司关联背景知识、历史新闻和价格数据,从而提高股票市场动态的可解释性。通过案例分析,展示了LLMFactor在股票市场分析中的实际效果。



总结


LLMFactor是一个创新的框架,通过序列知识引导提示策略,结合背景知识、股票相关因素和时间数据来预测股市趋势。经过严格测试,LLMFactor证明了其在股票预测方面的优越性。因子分析突出了LLMFactor的新颖性和有效性,使其成为金融分析的强大工具。这项研究代表了利用LLMs进行透明和可解释的金融预测的重大进展。


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询