我要投稿

【LLM-综述】大语言模型在金融、医疗卫生和法律等关键社会领域的应用综述

发布日期：2024-06-21 06:42:16 浏览次数： 5949

作者：AI帝国

微信搜一搜，关注“AI帝国”

一、结论写在前面

在快速发展的领域人工智能领域，大型语言模型（LLMs）如GPT-3和GPT-4正在革新金融、医疗保健和法律的领域：这些领域以其依赖专业知识、数据获取挑战、高风险和严格的法规遵从性为特征。论文聚焦于三个关键的社会领域：金融、医疗健康与医学、法律，强调了LLMs在这些领域中对研究方法论的提升以及加速知识发现和决策过程的变革性影响。通过跨学科的详细审查，论文突出了在这些领域中利用LLMs所取得的显著进展，预见了一个充满突破和机遇的光明未来。

然而，LLMs的整合也带来了挑战和伦理考量。诸如可解释性、偏见与公平性、鲁棒性以及幻觉等问题需要持续的审查和缓解策略的开发。此外，LLM应用的跨学科性质呼吁人工智能研究者、领域专家和政策制定者之间的合作努力，以在伦理领域导航并负责任地发挥LLMs的全部潜力。随着LLMs的不断发展和在更广泛领域的应用，系统性和前瞻性地解决这些挑战变得日益重要。

二、论文的简单介绍

2.1 论文的背景

将LLMs与各个学科（即LLM+X）如数学、科学、金融、医疗保健、法律等相结合的研究正在开启一个由跨学科合作推动的新时代。在本综述论文中，论文探讨了LLMs在包括金融、医疗保健和法律在内的关键社会领域中的方法论、应用、挑战、伦理和未来机遇。这些领域是社会功能和福祉的主要基石，在日常生活的结构和更广泛的经济和社会系统中发挥着关键作用。它们经常被一起讨论，因为它们具有共同的特点，包括依赖广泛的专业知识、高度保密的数据、广泛的多模态文档、高法律风险和严格的规定，以及对可解释性和公平性的需求。

•对专业知识的依赖：这些领域需要广泛的专业知识和经验。金融领域涉及复杂的财务分析、投资策略和经济预测，需要深入了解金融理论、市场行为和财政政策。医疗保健需要专门的医学科学、病人护理、诊断和治疗计划知识，专业人员在其特定领域接受多年培训。法律领域要求对法律原则、法规、判例法和司法程序有透彻的了解，从业者需要花费大量时间进行法律教育和培训。在这些领域中，对深刻专业知识的需求为LLMs配备了必要的知识和能力提出了重大挑战。

•高度保密的数据：与其他可能数据更公开或不太敏感的领域不同，金融、医疗保健和法律处理的信息大多是个人和保密的。这为基于LLM的研究带来了独特的挑战，因为这些研究本质上是数据驱动的。LLMs必须在防止数据泄露或无意披露的方式下进行训练和测试。这需要研究挑战，如训练数据合成、加密技术、安全数据处理实践、转移学习等。

•广泛的多模态文档：这些行业中文档的复杂性和多模态性质标志了另一个独特的挑战。金融文档可能不仅包含文本，还包含各种结构的表格和图表。医疗保健数据可能包含文本和各种医学成像模式，如Gee et al. (2004); Wood et al. (2020); Yan et al. (2023c)所述，例如X射线摄影、超声、计算机断层扫描（CT）和磁共振成像（MRI）。法律文档可能包含文本、证据图像、证词的音频录音或视频证词。开发能够准确解释和关联跨模态信息的大型语言模型（LLMs）至关重要，这要求对模型架构和数据处理采取创新方法。

•高法律风险和严格监管：考虑到在金融、医疗保健和法律领域采取行动可能产生的严重后果，这些领域的监管环境比许多其他领域更加复杂和严格。它们必须从一开始就遵守严格的标准和法律，以保护客户利益并确保合规性。此类要求为开发基于大型语言模型的应用程序带来了独特的挑战，因为研究人员需要谨慎设计模型，以确保符合法规。大型语言模型必须整合机制来确保合规性，不仅要实现准确性，而且还要非常注意法律和监管细节。

•可解释性和公平性要求：可解释性和公平性已成为人工智能的重要组成部分，确保决策过程透明并防止产生偏差结果。特别是在金融、医疗保健和法律等知识密集型和高风险领域，决策往往涉及专业专长和复杂流程。此外，这些决策可能会直接影响人们生活的重要方面(例如经济状况、健康和合法权利)。这些事实要求在这些关键的社会领域中，模型设计的透明度和偏差缓解标准更高，以维护公众信任并遵守道德指导原则 Beauchamp & Childress (2001); Cranston (1995); Yamane (2020); Svetlova (2022)。开发能够提供透明推理并最小化偏差的基于大型语言模型的应用程序，对于在这些领域的任何实际部署都至关重要。

2.2 金融

这里论文介绍了金融领域现有的NLP任务，包括任务制定和数据集。

2.2.1 金融NLP中的任务和数据集

论文介绍了使用与LLM相关的方法广泛研究的现有金融任务和数据集，包括情感分析、信息提取、问答、文本增强的股票走势分析预测等。论文还讨论了大多数未被LLM方法充分探索的其他金融NLP任务，为未来的研究机会提出了建议。图1总结了现有的金融NLP任务。

情感分析（SA）：金融情感分析的任务旨在分析与金融相关的文本数据，如新闻文章、分析师报告和社交媒体帖子，以衡量对特定金融工具、市场或整体经济的情感或情绪。自动分析情感可以帮助投资者、分析师和金融机构通过提供可能不立即从定量数据中明显看出的市场情绪洞察来做出更明智的决策。金融情感分析的任务通常被制定为一个分类问题，输入是需要分析的文本，目标标签是情感倾向，如积极、消极或中性。

•金融短语银行数据集（Malo et al.， 2014）基于公司新闻（英文），目标情感类别是从投资者的角度。

•FiQA2任务1专注于基于方面的金融情感分析，目标以连续数值给出。

•TweetFinSent（Pei et al.， 2022）是另一个基于股票推文的数据集。作者提出了一个表示股票走势的预测意见的新情感标签概念。

•FinSent（Guo et al.， 2023）是另一个基于标普500公司分析师报告句子的情感分类数据集。

•在评估金融语言模型BloombergGPT（Wu et al.， 2023d）时，作者还提出了一组情感分析数据集。

信息抽取 (IE)：信息抽取涉及几个关键任务，这些任务对于分析和理解金融文本至关重要。命名实体识别（NER）旨在识别和分类文本中的关键实体，如公司名称、股票代码、财务指标和货币价值。

•在（Alvarado等人，2015）中，提出了一个NER数据集，旨在提取金融协议中风险评估感兴趣的字段。

•在BloombergGPT（Wu等人，2023d）中，提出的内部金融数据集包括来自各种来源的NER。

•关系抽取（RE）专注于识别和分类实体之间的金融特定语义关系，如cost_of，acquired_by。

•REFinD（Kaur等人，2023）是一个大规模的RE数据集，建立在来自证券交易委员会（SEC）的10-X文件上，专注于常见的金融特定实体和关系。事件检测涉及从新闻或社交媒体等来源识别重大的金融事件，如收购、盈利报告或股票回购。

•EDT（Zhou等人，2021）数据集专注于从新闻文章中检测公司事件，旨在预测股票走势并进行交易。

•在（Oksanen等人，2022）中，作者提出在SEC文件上构建知识图谱。这些信息抽取任务在将原始金融文本转换为结构化、可操作的洞察力方面发挥着基础作用，帮助专业人士进行更有效和高效的分析。

问答 (QA)：金融领域的问答（QA）涉及构建系统以回答金融特定查询，通常来自大量金融数据，如在线论坛、博客、新闻等。这样的QA系统可以帮助专业人士进行有效的金融分析和决策。

•FiQA4任务是一个早期的金融QA数据集，针对微博客、报告和新闻上的基于意见的QA。由于公司财务文件包含大量数值，这对于分析和决策至关重要，随后的工作开始探索涉及数值推理的复杂QA。

•FinQA（Chen等人，2021b）数据集提供了专家注释的QA对，涉及S&P 500公司的盈利报告。这些问题需要对报告中的文本和表格内容进行复杂的数值推理才能回答。

•TAT-QA（Zhu等人，2021）是另一个大规模的QA数据集，涵盖了包含文本和表格内容的金融报告。除了需要用算术表达式回答的数值推理问题外，该数据集还包含提取问题，其真实答案是来自输入报告的跨度或多个跨度。

•DocFinQA（Reddy等人，2024）将FinQA扩展到长上下文设置，旨在探索长文档金融QA。

•ConvFinQA（Chen等人，2022）将FinQA扩展到涉及数值推理的会话QA设置，以捕捉整个对话历史的长期依赖性。

•PACIFIC（Deng等人，2022）是另一个基于TAT-QA（Zhu等人，2021）的会话QA数据集，专注于构建主动助手，提出澄清问题并解决共指问题。

•FinanceBench（Islam等人，2023）是一个大规模的QA数据集，专注于开放式设置，涵盖了多样的来源和场景。

•Tab-CQA（Liu等人，2023a）是一个表格会话QA数据集，从中国上市公司的金融报告中创建，涵盖了广泛的行业。

文本增强的股票运动预测 (SMP)：文本增强的股票运动预测涉及分析金融文本，如新闻、报告和社交媒体，以预测股票价格趋势和市场行为。该任务大多被制定为基于金融文本和历史股票价格在时间窗口内的预测目标日的股票运动。

•在（Ding等人，2014）中，作者提出使用提取的事件进行股票预测，并基于来自路透社和彭博社的金融新闻为标准普尔500股票（S&P 500）构建数据集。

•在（Xu & Cohen，2018；Soun等人，2022；Wu等人，2018）中，提出了基于来自Twitter的股票特定推文的数据集。

•Astock（Zou等人，2022）是一个中文数据集，为每只股票提供股票因素，如市销率、换手率等。

•在EDT（Zhou等人，2021）数据集中，作者提出在新闻文章发布后立即进行股票预测并执行交易。提出的EDT数据集包括分钟级时间戳和详细的股票价格标签。

其他金融NLP任务：

•在（Sinha & Khandait， 2020）中，作者提出了一种用于对关于黄金商品价格的新闻标题进行分类的数据集，将其分为诸如价格上涨、价格下跌等语义类别。

•在（Shah et al.， 2023）中，作者基于联邦公开市场委员会（FOMC）的货币政策声明，提出了一个鹰派-鸽派分类数据集。

•FinSBD-2019共享任务5提出了金融句子边界检测的任务，目的是从金融招股说明书中提取出良好分割的句子。

•在（Guo et al.， 2023）中，作者提出了一种评估框架，包括一系列专有的分类数据集。

•在BloombergGPT（Wu et al.， 2023d）中，提出的内部评估任务之一是NER+NED，即先进行命名实体识别（NER），然后进行命名实体消歧（NED）。目标是首先在金融文档中识别公司提及，然后生成相应的股票代码。

•在最近的BizBench（Koncel-Kedziorski et al.， 2023）基准中，作者旨在评估金融推理能力，并提出了八个定量推理数据集。

•在（Son et al.， 2023）中，作者提出了基于分析师报告的金融投资意见生成任务，以评估LLMs进行金融推理以支持投资决策的能力。

•在（Mukherjee et al.， 2022）中，作者提出了一个从长期收益电话会议记录中进行要点摘要的数据集。

LLMs尚未充分探索的金融NLP任务：上述四个类别总结了LLM相关研究中涉及的任务和数据集。总体而言，金融NLP领域更为广泛，仍有许多现有任务未被LLMs充分探索。金融欺诈检测是一个关键问题，在金融活动中具有严重后果。有许多研究跨越数据挖掘和NLP技术用于金融欺诈检测，例如检测交易、财务报表、年度报告、税务等方面的欺诈。使用基于LLM的方法进行金融欺诈检测的研究在很大程度上尚未充分探索。其他任务，如金融风险评估和管理、机器人顾问、聊天机器人服务等，由于其复杂性，大多缺乏明确定义的表述和建立良好的公共数据集。鉴于它们在金融领域的重要性，它们都是未来将LLM研究纳入其中的有价值方向。

2.2.2 金融LLMs

最近的工作扩大了模型规模，并进行了指令微调，评估涵盖了更广泛的金融任务集合。大多数现有的金融LLMs都是单一文本模态，要么是英语，要么是中文。表1总结了金融领域的PLMs和LLMs。

预训练和下游任务微调的预训练语言模型（PLMs）：

•FinBERT-19（Araci，2019）是早期尝试构建针对金融情感分析任务的金融预训练语言模型。作者首先在BERT（Devlin等人，2019）上使用金融语料库进行进一步的预训练，然后使用任务训练数据进行微调。

•FinBERT-20（Yang等人，2020）是另一个使用类似训练策略（包括在BERT上进一步预训练和从头开始预训练）的情感分析PLM。

•FinBERT-21（Liu等人，2021）是基于BERT架构，从头开始在大量通用领域和金融领域语料库上预训练的模型，具有一组自监督的预训练任务。

•Mengzi-BERTbase-fin（Zhang等人，2021）是基于RoBERTa（Liu等人，2019）架构的中文模型，使用通用网络语料库和金融领域语料库进行预训练。

•FLANG（Shah等人，2022）是基于BERT（Devlin等人，2019）和ELECTRA（Clark等人，2020）的另一个英语模型，使用ELECTRA中的预训练技术。

•BBT-Fin（Lu等人，2023）是基于T5（Raffel等人，2020）架构和预训练模式的中文预训练语言模型。作者提出一个大规模的中文金融预训练语料库以及一组中文金融基准，包括分类和生成任务。

预训练的大型语言模型（LLMs）：

•BloombergGPT（Wu等人，2023d）是由Bloomberg构建的大型英语金融语言模型。由于可以在Bloomberg内部获得丰富的金融资源，因此有大量精心策划的公司财务文件被用于模型预训练，包括网络内容、新闻文章、公司文件、新闻发布、Bloomberg撰写的文章以及其他文件，如意见和分析。与三个公共通用领域数据集——The Pile（Gao等人，2021a）、C4（Raffel等人，2020）和Wikipedia一起，作者创建了一个包含超过7000亿个标记的大型训练语料库。模型架构基于BLOOM（Scao等人，2022）。作者指出，贪婪的子词标记化（Sennrich等人，2016；Wu等人，2016）对于金融任务效率不高，因为它处理数字表达不太好。相反，他们使用受（Kudo，2018）启发的基于unigram的方法。此外，作为预处理步骤，他们将数字和字母unigrams分开。为了评估模型性能，作者基于公共数据集的外部任务和由Bloomberg金融专家注释的数据集的内部任务进行了评估。所有模型都使用纯少样本提示进行评估。

•对于外部任务，包括情感分析、标题分类、NER和对话QA，BloombergGPT在所有任务中除了NER之外，对于类似大小的基线LLMs都取得了显著的改进。

•对于内部任务，包括情感分析、NER和NER+NED，BloombergGPT在大多数数据集中优于基线LLMs，除了NER。

•对于NER，BloombergGPT略微落后于更大的176B BLOOM（Scao等人，2022）模型。值得注意的是，尽管增加了词汇量，BloombergGPT的标记化方法提高了标记表示的效率，并且该模型在涉及数值推理的金融QA任务中优于开放领域的LLMs。由于数据泄露的担忧，BloombergGPT尚未向公众发布。

指令微调的大型语言模型（LLMs）：

•FinMA（Xie等人，2023）是一个开源的金融LLM，在LlaMA（Touvron等人，2023a）上进行指令微调构建。作者指出，金融数据通常在多模态上下文中表达，如表格和时间序列表示。他们开发了FLARE，一个大规模的指令调整数据集，涵盖了来自多样金融任务集合的136，000个示例，并包含对表格和时间序列数据的指令。在评估中，FinMA-30B在分类任务（如情感分析和标题分类）中优于BloombergGPT和GPT-4。尽管在FLARE上进行了调整，FinMA在定量推理基准（如FinQA（Chen等人，2021b）和ConvFinQA（Chen等人，2022））上落后于GPT-4。原因可能是指令调整数据集中缺乏适当的数值推理过程生成数据。

•Instruct-FinGPT（Zhang等人，2023a）是一个在LlaMA-7B（Touvron等人，2023a）上使用指令微调构建的模型，专门针对金融情感分析任务。CFGPT（Li等人，2023c）是基于InternLM，通过连续预训练和指令微调的中文模型。遵循表面对齐假设（Zhou等人，2023），InvestLM（Yang等人，2023a）使用在LlaMA-65B上精心策划的1.3k示例进行指令微调。生成的模型实现了与专有模型（如GPT-3.5）相当的性能，有时甚至超过了它们。

•DISC-FinLLM（Chen等人，2023b）是基于Baichuan-13B6进行指令微调的中文模型，对每种类型的任务使用单独的LoRA（Hu等人，2022）模块进行指令微调。FinGPT（Wang等人，2023c）是一系列6B/7B模型，使用指令微调进行训练。在（Liu等人，2023c）中，作者提出了一种FinGPT框架，包括从多样来源收集和处理数据管道的框架，以及使用股票价格进行强化学习的金融LLM微调。

•最近，研究人员开始探索在更广泛设置中的金融LLMs。在（Zhang等人，2024b）中，作者提出了指令数据集、微调模型FinMA-ES和西班牙语和英语双语设置中的评估基准。FinTral（Bhatia等人，2024）是一系列基于Mistral-7B（Jiang等人，2023）的多模态LLMs。作者整合了工具使用（Schick et al.， 2023）、RAG（Lewis et al.， 2020）以及基于CLIP的视觉理解（Radford et al.， 2021a）。这使得作者能够探索多模态上下文，并包括视觉推理任务，如对图表和图形的问题回答。

•尽管在多模态数据上进行了预训练和指令调优，FinTral-DPO模型在视觉推理任务上的表现不如其他SotA多模态大型语言模型（LLMs），如Qwen-VL-Plus（Bai et al.， 2023）和GPT-4V（Achiam et al.， 2023），但与类似规模的开放源代码LLMs相比，它处于同等或更好的水平。这些挑战指向了多模态大型语言模型（MLLMs）、定量推理者和金融大型语言模型交叉领域的跨学科研究的必要性。

表2：情感分析任务（FPB数据集（Malo et al.， 2014）和FiQA-SA数据集8）、标题分类任务（标题数据集（Sinha & Khandait， 2020））和IE任务（NER FIN3数据集（Alvarado et al.， 2015））的性能比较。对于FPB、FiQA-SA和标题的少量射击设置为五次射击，对于NER FIN3的二十次射击。对于微调模型，论文分别在每个数据集中选择通过微调模型实现的最好性能。论文汇总了（Li et al.， 2023d; Xie et al.， 2023; Yang et al.， 2023a）的结果。注意，上述三篇论文中报告的同一模型的某些结果不同，主要是GPT-3.5和GPT-4，这可能需要进一步验证

图2：在FinQA数据集（Chen et al.， 2021b）上的性能比较。论文按照原始论文中的评估标准比较执行准确性。微调方法FinQANet是（Chen et al.， 2021b）中的基于RoBERTa的模型；指令微调方法包括FinMA（Xie et al.， 2023）和InvestLM（Yang et al.， 2023a）；通用LLMs包括LlaMA-65B、GPT-3.5和GPT-4，具有零射击（0）、少量射击（3次射击）和链式思考（CoT）提示；论文还列出了人类专家和一般人群的性能。结果来自（Li et al.， 2023d; Xie et al.， 2023; Yang et al.， 2023a）

2.2.3 评估和分析

流行金融任务的性能评估和分析：

•在（Li et al.， 2023d; Xie et al.， 2023; Yang et al.， 2023a）中，作者使用一系列方法在几个流行的金融数据集上进行了实验。表2总结了各种方法在两个情感分析数据集、一个标题分类任务和一个NER数据集上的性能。

•对于情感分析，GPT-4和最近的指令微调模型如FinMA（Xie et al.， 2023）与最好的微调方法实现了类似的性能。

•对于标题分类，FinMA也略微超过了最好的微调方法。论文预计这些数据集的性能已经接近饱和。正如（Li et al.， 2023d）所建议的，采用通用LLMs可能是相对简单的金融任务的简单选择。

•对于像NER这样的IE任务，LLMs和微调方法之间仍然存在差距。在REFinD数据集（Kaur et al.， 2023）上，CPT-3.5和GPT-4仍然远远落后于微调模型（Li et al.， 2023d）。

•图2显示了FinQA数据集（Chen et al.， 2021b）上各种方法的性能比较。大型通用LLMs如GPT-4仍然通过简单的提示实现了领先的性能，这是由于在预训练期间实现了强大的知识和推理能力。特定领域的微调模型紧随其后。指令微调模型与前者相比远远落后。注意，在FinMA（Xie et al.， 2023）模型的指令微调数据构建中，作者没有包括在FinQA数据集（Chen et al.， 2021b）中生成推理程序，这可能是FinQA数据集上性能不佳的主要原因。因此，论文预计仍有充足的空间来开发开源指令微调模型，以提高需要复杂推理能力的任务。

•正如（Li et al.， 2023d）所示，在大多数金融任务中，GPT-4可以比ChatGPT提高超过10%的性能。除了FinQA（Chen et al.， 2021b）和ConvFinQA（Chen et al.， 2022）上的QA任务外，ChatGPT和GPT-4的性能要么相当，要么不如特定任务的微调模型有效。对于FinQA（Chen et al.， 2021b）和ConvFinQA（Chen et al.， 2022），作者认为涉及的推理复杂性在金融分析中仍被认为是基本的，但ChatGPT和GPT-4仍然犯简单错误。需要显著改进才能将这些LLMs作为可信的金融分析师agent应用于现实世界的行业用途。

新的评估框架和任务：

•在《Guo et al.， 2023》中，提出了一种金融语言模型评估框架FinLMEval，该框架包含一系列分类任务和NER（命名实体识别）。作者比较了经过微调的编码器模型（如BERT（Devlin et al.， 2019）和RoBERTa（Liu et al.， 2019））与零样本解码器模型（如GPT-4（Achiam et al.， 2023）和FinMA（Xie et al.， 2023））在这些任务上的表现。尽管零样本解码器模型取得了显著的成绩，但它们在大多数任务上仍然落后于经过微调的编码器模型。在作者提出的专有数据集上，经过微调的编码器模型与零样本解码器模型之间的性能差距大于在公开数据集上的差距。作者得出结论，在金融NLP领域，更先进的LLM（大型语言模型）仍有改进的空间。最近，在《Xie et al.， 2024b》中，作者提出了一系列包含35个数据集、横跨23个金融任务的大型评估基准。他们得出结论，GPT-4在量化、抽取、理解和交易任务中表现最佳，而最近的Google Gemini（Team et al.， 2023）在生成和预测任务中领先。

•在《Son et al.， 2023》中，作者提出了基于分析师报告的金融投资意见生成任务，以评估各种LLM（有无指令微调）进行金融推理以支持投资决策的能力。作者在一系列2.8B至13B模型上进行了实验，并得出结论，生成连贯投资意见的能力首先出现在6B模型中，并且通过指令调整或更大的数据集得到改进。在《Lopez-Lira & Tang， 2023》中，作者研究了LLM预测股票市场回报的能力。研究发现，GPT-4在预测回报方面优于其他被研究的LLM，并提供了最高的夏普比率，这表明先进的LLM在投资决策过程中的巨大潜力。

•在《Zhou et al.， 2024b》中，作者提出了金融偏差指标（FBI）框架，以评估LLM的金融理性，包括信念偏差和风险偏好偏差。他们发现，模型的理性随着模型大小的增加而增加，并且经常受到金融训练数据中的时间偏差的影响。提示方法，如指令和思维链（CoT）（Wei et al.， 2022a），也可以减轻偏差。

•在《Islam et al.， 2023》中，作者提出了开放式问答任务，以测试模型处理长上下文的能力。他们得出结论，当前强大的LLM如GPT-4-Turbo仍然远远达不到满意的表现，无论是使用检索系统还是使用长上下文模型。

•在《Callanan et al.， 2023》中，作者评估了GPT-3.5和GPT-4通过特许金融分析师（CFA）考试前两级的能力。不出所料，GPT-4在两个级别上都优于GPT-3.5，但两个模型在处理较长上下文、复杂的数值推理和表格信息时都遇到了困难，特别是在二级考试中。作者还展示了思维链提示在零样本设置中提供了有限的改进，但在上下文中学习2个或更多示例产生了最佳结果。详细的错误分析揭示，缺乏领域知识导致两个模型在二级考试中出现大部分错误。

2.2.4 LLM在金融任务和挑战中的方法论

这里讨论了针对金融NLP中的一些关键挑战提出的基于LLM的方法论，包括公共领域高质量数据的稀缺性、许多金融文档的多模态性质、定量推理的挑战、LLM中领域知识的缺乏以及检测或防止幻觉的重要性。

保密性和高质量数据的稀缺性：由于金融领域数据的保密性，获取干净且高质量的数据集可能很困难（Assepa et al.， 2020; Zhang et al.， 2023b）。在《Aguda et al.， 2024》中，作者评估了LLM在金融关系抽取任务中标注数据的有效性。尽管较大的LLM如GPT-4（Papailiopoulos， 2023）和PaLM-2（Anil et al.， 2023）优于众包标注，但它们远远落后于专家标注者，这表明领域知识起着至关重要的作用。其他研究已经解决了非英语金融训练数据集的稀缺性（Zhang et al.， 2024b; Hu et al.， 2024）。

定量推理：在金融领域的QA和IE任务中，对数值数据的推理是一个主要组成部分。最近的几项研究提出了增强LLM在金融QA任务中定量推理能力的提示策略。

•在《Wang et al.， 2024b》中，作者介绍了ENCORE，这是一种将数值推理步骤分解为单个操作的方法，并将每个操作数基于输入上下文。当用作少样本提示策略时，ENCORE提高了SotA LLM在TAT-QA（Zhu et al.， 2021）和FinQA（Chen et al.， 2021b）上的性能，与标准思维链（CoT）提示（Wei et al.， 2022a）相比，平均提高了10.9%。

•在《Chen et al.， 2023c》中，作者提出了思维程序（PoT）提示方法，该方法提高了LLM在金融数据集（包括FinQA和ConvFinQA（Chen et al.， 2022））上的数值推理能力。PoT明确提示模型将其计算框定为一个程序，使用编程语言作为工具。在TAT-QA上，尽管与其他提示策略如思维链（CoT）相比性能更好，但PoT提示仍未达到SotA性能。错误分析揭示，大多数错误是由于不正确的检索。这可能是由于TAT-QA数据集中表格数据的复杂结构，该数据集不包括标准化的表格结构。

•在《Wang et al.， 2024a》中，作者表明，使用方程（而不是程序）作为中间意义表示可以增强LLM的数值推理能力。通过将提示分解为对应于单一方程的子提示，作者们展示了这些方程能够更好地遵循提示中隐含的计算逻辑顺序，与程序相比，程序存在一定的排序约束（例如，一个变量不能在定义之前被提及）。他们将方程作为中间意义的方法，称为BRIDGE，在数学文字问题上的表现优于其他方法，包括PoT。

•在（Zhu et al.， 2024）中，作者们介绍了TAT-LLM，这是一种基于Llama2-7B基础（Touvron et al.， 2023b）的专门LLM，能够对文本/表格数据进行定量推理。作者们使用逐步策略对基础模型进行指令调整，提示模型从上下文中检索相关证据，生成推理步骤，并相应地产生最终答案。TAT-LLM在FinQA、TAT-QA和TAT-DQA数据集上超越了SotA LLMs以及SotA微调模型。它将最佳表现基线（GPT-4）的精确匹配准确率平均提高了2.8%。

•在（Srivastava et al.， 2024）中，作者们分析了LLMs在文本/表格上下文中对定量推理任务的性能。他们确定了三种常见的失败模式：1）从输入中错误提取相关证据，2）错误生成推理程序，以及3）错误执行程序。对四个金融QA数据集的分析显示，在提供标准化表格数据的数据集中（FinQA（Chen et al.， 2021b）和ConvFinQA（Chen et al.， 2022）），推理和计算错误占主导地位，而在具有复杂表格结构的数据集中（TAT-QA（Zhu et al.， 2021）和MultiHiertt（Zhao et al.， 2022）），提取错误更为常见。

多模态理解：如上所述，表格数据的复杂结构可能会使数值推理复杂化。在金融领域中，包含视觉丰富内容和复杂布局的文档很常见，如（Ye et al.， 2023a）和（Wang et al.， 2023a）等研究已经证明，在文本表示中融入视觉和空间特征可以提高LLMs在表格和视觉推理任务上的性能。

•在（Yue et al.， 2024）中，作者们提出了一种框架，用于从包含混合文本/表格内容的长文档中提取基于LLM的信息。通过将表格数据序列化为文本，将文档分割成段落，检索相关段落，并总结每个检索到的段落，他们在基于基本提示的金融文档信息提取上显示了显著的改进。

•在（Ouyang et al.， 2024）中，作者们展示了融合多模态信息（文本、音频、视频）以及在知识图谱中表示的领域知识可以导致对金融资产的移动和波动性的更好预测。值得注意的是，他们使用图卷积网络（Kipf & Welling， 2017）作为跨模态的通用融合机制，并展示了GCN学习的表示可以用来指令调整LLM，以获得优于SotA方法的性能。

LLMs与时间序列数据：在金融应用中突出的另一种数据模式是时间序列数据。时间序列建模的研究表明，预训练的LLMs可以被“修补”以模型时间序列数据（Jin et al.， 2024; Chang et al.， 2024）。

•与（Wu et al.， 2023d）一致，Gruver et al.（2023）证明了数值感知的标记化可以提高LLMs在时间序列预测任务上的性能，即使在零次设置中也是如此。

•Yu et al.（2023e）展示了LLMs通过结合时间序列数据、新闻和公司元数据进行可解释的股票回报预测的能力。GPT-4模型，结合思维链（CoT）提示，优于其他方法，包括基于Open LLaMA-13B的指令调整模型。

LLMs与幻觉：在（Kang & Liu， 2024）中，作者们分析并描述了SotA LLMs包括GPT-4和Llama-2在应用于金融任务时的幻觉行为。他们展示了在需要金融领域知识或从预训练数据中检索的任务中，幻觉的发生率可能很高。他们展示了检索增强生成（RAG）可以减轻知识敏感任务中的幻觉。对于较小的LLMs，他们建议采用调整和基于提示的工具学习作为缓解策略，例如通过API进行数据检索。

建模领域知识：金融应用中的一个主要挑战是填补在开放领域数据集上训练的模型与需要金融领域知识的任务之间的知识差距（Chen et al.， 2021b; Aguda et al.， 2024; Kang & Liu， 2024）。

•Zhang et al.（2023b）证明了在特定领域数据上对LLMs进行指令调整并使用检索增强生成可以提高它们在金融情感分析上的性能。

•在（Deng et al.， 2023b）中，作者们使用思维链（CoT）（Wei et al.， 2022a）提示来增强LLM的金融领域知识。LLM被用来在社交媒体帖子中生成弱标签，这些标签反过来被用来训练一个小LM来检测社交媒体上的市场情绪。这种方法可以用来解决传统市场情绪检测方法中的几个挑战，包括标记数据的稀缺性和社交媒体术语的特殊性。

•在（Zhao et al.， 2023b）中，作者介绍了KnowledgeMath，这是一个针对金融领域的数学文字问题基准，要求具备大学水平的领域专业知识。他们展示了知识增强技术，如思维链（Wei et al.， 2022a）和思维程序（Chen et al.， 2023c），可以将大型语言模型（LLM）的性能提高多达34%，但最佳表现的LLM总体得分为45.4，远远低于人类基准的94分。

LLM agent：金融领域某些任务的复杂性促使了基于agent系统的研究。

•在（Li et al.， 2024b）中，作者介绍了FinMem，一个用于金融交易的多个agent系统。作者提出了一种多层记忆机制，帮助LLMagent检索与特定交易决策最相关、最新和最重要的事件。此外，一个配置文件机制使agent能够模拟各种交易角色和领域。在从不同交易部门抽样的五家公司上测试时，FinMem相对于基线产生了显著更高的累计回报。

•在（Park， 2024）中，作者介绍了一个使用LLMagent进行金融数据异常检测的框架。通过将agent视为任务专家，作者提出了一种管道，通过该管道agent承担不同的子任务，如数据操作、检测和验证。这些agent产生的输出随后被呈现给“管理者”agent，后者将使用交互式辩论机制（Li et al.， 2023a）来推导最终输出。

•Xing（2024）批评了同质agent之间辩论系统开发的标准方法。相反，作者提出了能够模拟角色或角色的异质agent，认为异质agent之间的辩论可以在语义上具有挑战性的任务（如情感分析）中产生更好的结果。

2.2.5 未来展望

任务和数据集：作为几乎每个跨学科领域的长期挑战，自然语言处理（NLP）社区和金融社区之间的知识差距阻碍了金融NLP的进展。这种分歧导致了主要关注于浅层语义和基本数值推理的任务，如FinQA数据集（Chen et al.， 2021b）所示，其中问题通常只需要基本的计算，如百分比变化。尽管这些任务很有价值，但在金融分析领域被认为是初级的（Li et al.， 2023d）。在这里，论文强调未来研究的一些潜在方向：

•探索现实任务。超越表面任务，拥抱更复杂和现实挑战是必要的。这涉及制定需要复杂推理的任务，如§3.1所述，如多步骤财务分析、欺诈检测、风险评估等，这些任务需要构建能够进行现实世界财务分析中微妙规划和决策过程的语言agent（Wang et al.， 2024c; Shinn et al.， 2024; Sumers et al.， 2023）。

•结合多模态文档。当前的金融NLP任务仍然主要针对文本或简单表格。现实世界的金融文档可能涉及更丰富的模态和结构，如具有嵌套结构的复杂表格和各种结构的图表。理解和在多模态上进行金融推理尚未得到充分探索。

•促进跨学科合作和学习。开发高保真金融NLP解决方案需要NLP和金融部门之间的更紧密合作。为了弥合这些领域的概念和方法论差距，研究人员还应该主动获取跨学科知识，目的是更好地理解金融中的关键挑战，以及实现与金融领域专家更顺畅和更有效的沟通。

方法论：基于LLM的金融任务方法的发展紧跟一般NLP社区的步伐，从早期预训练与下游微调范式到最近的指令微调范式。特定任务的微调可以实现良好的性能（Li et al.， 2023d），但通常成本高昂。论文相信，在开发金融领域的LLM方法时，应强调两个主要因素：如何为LLM配备领域知识和推理技能，特别是在成本效益高的环境中。如§3.3所示，当前的指令微调方法，尤其是相对较小的模型，在复杂任务上仍然落后于微调模型或通用LLM。尽管普遍认为大型通用LLM最终将导致更广泛领域的最佳性能，但开发强大的轻量级特定领域模型仍然是一个有前景的方向。以下是一些潜在的未来方向：

•知识密集型指令微调：论文预见到开发新型范式，这些范式特别增强了LLM对复杂金融概念、术语、逻辑和规则的理解。这涉及创建高质量、特定于金融的数据集，用于指令微调，这些数据集封装了该领域知识的广度和深度。

•检索增强生成（RAG）。RAG框架（Lewis等人，2020年）提供了一种引人注目的方法，使大型语言模型（LLMs）能够动态地将外部领域知识整合到其生成过程中。通过将RAG适应于金融领域，LLMs可以访问并应用最新的市场数据、法规和金融理论，从而增强其分析和预测能力。

部署和应用：尽管现有大量关于金融领域的LLM研究，但它们在现实世界中的部署仍然稀少。正如（Li等人，2023d）所建议的，当前的LLMs在处理简单的金融自然语言处理（NLP）任务方面表现出色；然而，当面对更复杂的挑战时，它们会失败，无法满足行业的严格标准。鉴于金融决策的高风险，其中不准确性可能导致重大损失和法律纠纷，论文认为以下维度对于从理论学术模型过渡到有影响力的现实世界部署至关重要：

•提高准确性和鲁棒性。在论文达到工业标准的满意水平之前，这些系统不能部署用于现实世界的使用，而仅限于学术实验。目前，学术基准往往缺乏深度和现实性，无法充分准备这些模型应对实际任务。同时，研究如何开发对敌对攻击具有鲁棒性的模型也是一个重要的方向。

•演进人机协作范式。如何为现实世界用户设计使用范式也是一个重要的未来方向。当前系统主要在用户辅助的范式下运行，增强而非取代金融专业人员的专业知识（Chen等人，2021b；2022）。论文期望未来可以探索更多的工作，例如先进的协作框架，这些框架增强了决策效率、系统透明度和用户参与度，同时嵌入了人机交互（HCI）原则，以促进直观和高效的用户体验。

•导航责任、伦理、法规和法律问题。在高风险领域如金融中部署LLMs需要一种以伦理和法律远见为支撑的审慎设计方法。当前的学术工作很少以全面和系统的方式解决这些考虑。诸如公平性、对误导性金融建议的责任以及人工智能驱动决策的伦理影响等问题需要严格关注。未来的发展必须优先考虑负责任的人工智能框架，这些框架直接解决这些关切，确保LLMs对金融生态系统做出积极和伦理的贡献。

2.3 医学和医疗保健

自然语言处理（NLP）在生物医学领域取得了显著进展，为各种医疗保健和医疗应用提供了重要见解和能力。最近出现的LLMs为医学领域带来了重大进步，主要通过在训练期间纳入广泛的医学知识。

2.3.1 医学NLP的任务和基准

句子分类：是临床自然语言处理中的一项基础任务，旨在处理句子和文档，有助于从临床文档中提取有意义的信息，并协助医生做出决策。

•Dernoncourt & Lee (2017)提出了一个用于序列句子分类的数据集，其中医学摘要中的句子被标记为以下类别之一:背景、目标、方法、结果或结论，这可以帮助研究人员更有效地浏览文献。

•异常检测(Harzig et al.， 2019; He et al.， 2023c)旨在检测临床报告中的异常发现，目标类似于减轻放射科医生的工作负担。

•歧义分类(He et al.， 2023d)有着不同的目的，即关注患者护理，旨在发现医生写作的可能导致患者产生误解的含糊句子。

临床信息提取：在生物医学自然语言处理社区中，主要目标之一是从生物医学文本中提取关键变量，以实现有效的生物医学文本分析。临床消歧是在临床语境中将医学缩写解释为特定术语，或相反，将医学术语翻译为缩写。这对于理解临床笔记特别重要，临床笔记经常充斥着复杂的行话和缩写(He et al.， 2023d)。例如，缩写"pt"可能意指病人、物理疗法或凝血酶原时间等。这项任务通常被格式化为多项选择问题，并通过准确率和F1分数进行评估。生物医学证据提取侧重于自动解析临床摘要，从临床试验中提取关键信息，如干预措施和对照组，有助于通过综合各研究结果来推广循证医学的采用(Nye et al.， 2018)。消歧是准确识别和链接指代同一实体(如人或医学术语)的名词短语的关键，这在临床语境中非常重要，有助于区分病人自身的病史和家人的病史(Zheng et al.， 2011; Chen et al.， 2021a)。这项任务主要在2011年i2b2/VA挑战赛上进行评估，该赛事包含数千条共指关系链(Uzuner et al.， 2010)。

医学问题回答：医学领域的问题回答（QA）是自然语言处理（NLP）中的一个基础任务，要求语言模型基于其内部医学知识来回答特定问题。这个任务不仅需要对临床术语和概念有深入的理解，还要求能够理解和解释给定问题中的复杂医学推理。医学QA任务主要以多项选择题的形式出现，为每个问题提供一组可能的答案，从中必须选择正确的答案。这种形式特别适合测试语言模型区分相关概念和理解医学知识细微差别的能力。

•MedQA(USMLE)（Jin et al.， 2020）通过美国医学执照考试的四向多项选择题评估专业生物医学和临床知识。

•MedMCQA（Pal et al.， 2022）是一个来自印度医学院入学考试的大规模四向多项选择数据集。

•HeadQA（Vilares & Gómez-Rodríguez， 2019）提供2013年至2017年间西班牙专业医疗考试的多项选择题，其中2013年和2014年的测试有五个选项，而2015年至2017年的测试有四个选项。

•MMLU（Hendrycks et al.， 2021a）包括一个专业医学问题的部分，有四向多项选择。

•PubMedQA（Jin et al.， 2019）和BioASQ（Tsatsaronis et al.， 2015）是基于给定段落的阅读理解数据集，用于回答是/否/可能。

在以下部分，论文将讨论临床环境中的一些代表性任务，从异常检测和医学报告生成，到最近提出的一些任务，如医学指令评估和通过自然语言进行医学影像分类。

2.3.2 医学和医疗保健的大型语言模型（LLMs）

封闭源医学LLMs：用于一般目的的封闭源LLM预训练，如ChatGPT（OpenAI， 2022）和GPT-4（OpenAI， 2023），在医学基准测试和现实世界应用中展示了强大的医学能力。

•Liévin et al.（2023）利用GPT-3.5与不同的提示策略，包括思维链、少样本和检索增强，用于三个医学推理基准，以展示模型在没有特定微调的情况下强大的医学推理能力。LLMs（如ChatGPT）在医学考试（包括美国医学考试（Kung et al.， 2023）和耳鼻喉科-头颈外科认证考试（Long et al.， 2023））的评估表明，它们达到的分数接近或达到及格门槛。这表明LLMs有潜力支持现实世界的医学用途，如医学教育和临床决策。

•Agrawal et al.（2022）将LLMs（如GPT-3）视为临床信息提取器，并展示了它们在不同信息提取任务中的潜力。

•MedPaLM模型（Singhal et al.， 2022; 2023）是一系列医学领域特定的大型语言模型，从PaLM模型（Anil et al.， 2023; Chowdhery et al.， 2022）改编而来，在回答医学问题方面显示出与医学专业人员相当的性能（Singhal et al.， 2022; 2023）。

•GPT-4（OpenAI， 2023）在没有专门的医学领域训练策略或解决临床任务的工程的情况下，展示了强大的医学能力（Nori et al.， 2023a;b）。当范围缩小到子领域时，LLMs的性能是可变的。GPT-4在放射学任务上超越或与当前最先进的放射学模型（Liu et al.， 2023b）表现相当，并且在胃肠病学董事会考试自我评估中与人类表现相匹配（Ali et al.， 2023）。

•Peng et al.（2023）检查了ChatGPT和GPT-4在物理医学和康复方面的性能，并展示了它们在子医学领域的潜在能力。然而，在痴呆症方面，LLMs未能超越传统AI工具的性能（Wang et al.， 2023f）。

•除了直接将LLMs用于不同的医学任务外，它们还可以用作“检索”辅助下游任务的信息性上下文的知识库（Yu et al.， 2023d）。例如，Zhang et al.（2023g）将ChatGPT用作医学知识库，为支持下游医学决策生成医学知识。

•Kwon et al.（2024）为患者描述生成临床理由，并将理由用作在单模态和多模态设置中微调学生模型的额外训练信号，以提高诊断预测性能。

开源医疗大型语言模型（LLMs）:由于隐私问题（Zhang et al.， 2023g）和高成本，一些开源医疗LLMs（Xu et al.， 2023; Han et al.， 2023; Li et al.， 2023i; Wu et al.， 2023b; Zhang et al.， 2023i）已经通过在医学语料库上调优开源基础模型，如LLaMA（Touvron et al.， 2023a;b）来构建。这些工作主要采用两种不同的策略：

1）先进行持续预训练，然后进行指令微调（Wu et al.， 2023b; Xie et al.， 2024a）和2）直接进行指令微调（Xu et al.， 2023; Han et al.， 2023; Li et al.， 2023i; Zhang et al.， 2023i; Tran et al.， 2023），如图3所示。具体来说，第一种方法涉及在包括医学学术论文和教科书在内的生物医学语料库上持续预训练语言模型，然后进一步使用各种医学指令数据集对模型进行微调，以与人类意图对齐，用于医学应用。

第二种方法直接在基础模型上进行指令微调，以直接激发基础模型的医学能力。在预训练和微调方案中，PMC-LLAMA（Wu et al.， 2023b）采用两步训练过程，首先通过数百万医学教科书和论文扩展LLaMA的训练，然后在对包含2.02亿标记的指令数据集进行指令微调。

•Me LLaMA（Xie et al.， 2024a）通过在1290亿标记的医学数据集上继续预训练具有13B和70B参数的LLaMA-2模型，提出了一种特定领域的基线模型，然后通过对21.9万个实例进行指令微调来创建相应的聊天模型。

•另一方面，ChatDoctor（Li et al.， 2023i）收集了10万个真实的在线患者-医生对话，并直接在对话数据集上对LLaMA进行微调。

•MedAlpaca（Han et al.， 2023）将指令数据集增加到23万个，包括问答对和对话，并进行微调过程。

•Baize-Healthcare（Xu et al.， 2023）通过LoRA（Hu et al.， 2022）使用来自Quora和MedQuAD的大约10万个对话进行指令调优。

•AlpaCare（Zhang et al.， 2023i）提出了一种由5.2万个多样化的机器生成的医学指令数据集，通过从强大的闭源LLMs（Li et al.， 2022b）中提炼医学知识。然后他们在数据集上对开源LLMs进行微调，以展示训练数据多样性对模型遵循医学指令的能力以及保持泛化能力的重要性。

•BioInstruct（Tran et al.， 2023）利用GPT-4生成一个包含2.5万个指令的数据集，涵盖问答、信息提取和文本生成等主题，以指令微调LLaMA模型（Touvron et al.， 2023a;b）与LoRA（Hu et al.， 2022）。他们的实验结果显示，与没有指令微调的LLMs相比，在不同的医学NLP任务中都有一致的改进。

多模态医疗LLMs：虽然LLMs有潜力处理和辅助临床NLP任务，但多模态数据（例如，X射线放射学、CT、MRI、超声波）在医学和医疗保健应用中扮演着至关重要的角色。在做出诊断和医疗建议时，模型需要能够访问并理解超出文本的临床模态。因此，迫切需要构建能够连接语言与其他模态的多模态LLMs（Zhu et al.， 2022; Liu et al.， 2024b; Yan et al.， 2023a; 2024a）。

•一个代表性的开放领域模型是GPT-4V（Achiam et al.， 2023），其中研究人员已经探索了其理解X射线的潜力（Yang et al.， 2023b; Wu et al.， 2023a）。LLaVA-Med（Li et al.， 2024a）利用从PubMed Central提取的图文数据集，并使用GPT-4从标题中自我指导开放式指令遵循数据，以训练一个视觉AI助手。

•Gao et al.（2023a）使用类似的配方训练了一个用于眼科的多模态LLM。

•除了医学聊天机器人之外，多模态医疗LLMs的另一个重要方面是将其他模态转换为语言空间。为此，提出了各种CLIP风格的模型（Radford et al.， 2021b; Zhang et al.， 2022; Wang et al.， 2022; Bannur et al.， 2023），这些模型具有两个流的视觉和文本编码器。下游应用是可解释的医学图像分类（Yan et al.， 2023c），它试图使用LLMs和概念瓶颈模型（Yan et al.， 2023b; Echterhoff et al.， 2024）生成医学概念。这项工作利用语言来解释模型决策，同时也能保持与黑盒视觉模型相似甚至更好的分类性能。

2.3.3 异常与歧义检测

异常检测（Harzig et al.， 2019）旨在通过分类句子是否报告正常或异常情况，识别放射学报告中的异常发现。在此任务中，语言模型被用于自动阅读医学报告，以减轻医生的工作负担。

歧义检测首先在（He et al.， 2023d）中提出，它试图检测出现在放射学报告中的歧义句子，这些句子可能导致报告的误解。准确识别这类句子至关重要，因为它们阻碍了患者对诊断决策的理解，并可能导致潜在的治疗延迟和不可逆转的后果。作为一个新近提出的任务，现有的语言模型（LMs）可能不会立即将此任务纳入其预训练阶段。因此，对此任务的评估使论文能够调查语言模型在面对未见任务时的表现。

这两个任务（He et al.， 2023c）都是句子级别的分类任务。为了比较，论文测量了经过微调的语言模型（BERT（Devlin et al.， 2019），RadBERT（Yan et al.， 2022），BioBERT（Lee et al.， 2020），ClinicalBERT（Huang et al.， 2019），BlueBERT（Peng et al.， 2019），BioMed-ReBERTa（Gururangan et al.， 2020））和提示的大型语言模型（LLMs）（GPT-3，ChatGPT，Vicuna，BioMed LM（Bolton et al.， 2024））的分类性能，报告了它们的F1分数，如表4所示。可以看出，尽管通用LLMs可以做出合理的预测，并通过少样本学习提高其性能，但在经过微调的LMs和提示的LLMs之间仍然存在差距。此外，歧义检测这一新颖任务确实提出了挑战，需要提高LLMs处理未见任务的泛化能力。

表4：在异常识别和歧义识别任务（句子级别自然语言理解）上对两类预训练语言模型（PLMs）的评估（准确度）。粗体：最高性能。下划线：最低。结果来源自（He et al.， 2023c）。

2.3.4 医学报告生成

医学报告生成（Yan et al.， 2021）旨在构建模型，这些模型以医学影像研究（例如X光片）作为输入，并自动生成信息丰富的医学报告。与传统的图像字幕基准（例如MS-COCO（Lin et al.， 2014））不同，其中参考字幕通常较短，放射学报告更长，包含多个句子，这对信息选择、关系提取和内容排序提出了更高的要求。为了从放射学图像研究中生成信息丰富的文本，字幕模型需要理解内容，识别图像中的异常位置，并组织措辞来描述图像中的发现。

此任务的评估涉及两个方面：

（1）自然语言生成的自动指标：BLEU（Papineni et al.， 2002），ROUGE-L（Lin， 2004），和METEOR（Denkowski & Lavie， 2011）。

（2）临床效率：使用CheXpert标签器（Irvin et al.， 2019）来评估每个模型报告的异常发现的临床准确性，这是一个基于规则的胸部X射线报告标注系统的最先进技术（Irvin et al.， 2019）。给定异常发现的句子，CheXpert将给出14种疾病的正面和负面标签。然后，论文可以根据每个模型输出和地面实况报告获得的标签，为每种疾病计算精确度、召回率和准确性。

论文在表5中报告了代表性临床模型和最近LLMs的性能。论文考虑以下基线：ST（Xu et al.， 2015），M2 Trans（Miura et al.， 2020），R2Gen（Chen et al.， 2020），WCL（Yan et al.， 2021），以及使用LLMs的最新工作：XrayGPT（Thawkar et al.， 2023），RaDialog（Pellegrini et al.， 2023），Rad-MiniGPT-4（Liu et al.， 2024a）。论文观察到与句子分类任务类似的趋势，尽管LLMs擅长生成流畅的文本并实现高NLG分数，但领域特定模型在临床效能方面仍然可以超越LLMs。

表5：在MIMIC-CXR的测试集上，根据自然语言生成（NLG）和临床效能（CE）指标进行性能比较。结果以百分比（%）报告

表6：医学LLMs在医学自由格式指令评估上的性能比较GPT-3.5-turbo作为成对自动评估的裁判。每个指令调优模型与四个不同的参考模型进行比较：Text-davinci-003、GPT-3.5-turbo、GPT-4和Claude-2。‘AVG’表示在每个测试集中所有参考模型的平均性能分数。该表来源于(Zhang et al.， 2023i)

2.3.5 医学自由格式指令评估

自由格式指令评估从以用户为中心的角度评估语言模型的实际医学价值。该任务涉及将自由文本格式的医学查询输入模型，然后生成相应的响应。例如，如果用户输入：“讨论人类免疫系统中四种主要类型的白细胞及其作用，以项目符号格式”，模型将根据其内部医学知识生成一个有根据的答案。该任务用于衡量模型的医学知识容量和遵循指令的能力。iCliniq（Li et al.， 2023i; Chen et al.， 2024）包含10k真实在线患者和医生之间的对话，以评估模型在对话场景中的医学指令遵循能力。MedInstruct-test（Zhang et al.， 2023i）包含217个临床手工制作的自由格式指令，以评估模型在不同医学设置（如治疗建议、医学教育、疾病分类等）中的医学能力和指令遵循能力。

由于对单个指令的合法响应范围广泛，且难以复制人类评估，因此评估LLMs的指令遵循能力很复杂。最近，自动评估与人类研究相比提供了更大的可扩展性和可解释性。使用一个强大的LLM作为裁判，比较被评估模型与参考答案的输出，然后计算被评估模型相对于参考答案的胜率作为评估指标。表6显示了当前开源医学LLM在医学自由格式指令评估上的性能，其中GPT-3.5-turbo作为裁判，Text-davinci-003、GPT-3.5-turbo、GPT-4和Claude-2作为参考模型。

2.3.6 通过自然语言进行医学影像分类

深度学习在计算机视觉和临床社区中长期研究医学影像分类（Li et al.， 2014）。该任务要求模型接受医学影像（如CT扫描）作为输入，并为它们分配诊断标签。然而，使用“黑盒”深度神经模型预测医学症状可能会引发安全和信任问题，因为人类难以理解模型行为并轻松信任模型决策。临床医生通常需要理解模型的底层推理，以便仔细做出他们的决策。可解释模型允许进行更好的错误分析、偏差检测、确保患者安全和建立信任。最近，概念瓶颈模型（CBMs）（Koh et al.， 2020）的概念已被引入医学影像分类，其中可以通过将潜在图像特征投影到概念空间来构建中间层，以自然语言的形式带来可解释性。

后续工作（Yan et al.， 2023c）进一步表明，使用概念进行分类不仅带来了可解释性，而且还提供了鲁棒性，这得益于预训练的多模态LMs（如图4所示）。这对医学应用尤其重要，因为混杂因素广泛存在，且标记数据通常有限（De Bruijne， 2016）。以Covid-19和正常患者X射线之间的分类为例，某些因素（如进行X射线的医院和患者的年龄）与目标疾病分类强烈相关。Yan et al.（2023c）创建了四个具有不同混杂因素的诊断基准：年龄、性别、医院系统。

2.3.7 未来展望

提升开源医疗大型语言模型（LLMs）的能力

开源、特定领域的医疗LLMs旨在缩小强大的闭源LLMs与增强小型模型之间的性能差距，通过持续的预训练和指令微调，使这些模型能够遵循各种医疗指令，并与用户意图保持一致。为进一步提高这些模型的能力，可以考虑以下几个未来方向：

•数据多样性和质量：尽管机器生成的数据集加速了LLM训练的数据生成，但它们的多样性仍落后于真实世界收集的数据集，这对模型性能有重大影响（Chiang et al.， 2023）。扩展训练数据集，包括更广泛的现实世界医疗文本，如临床试验报告、医学期刊、患者记录和健康论坛，可以提高模型对多样医疗情境和术语的理解。此外，确保训练数据的质量和可靠性对于维持模型输出的准确性和可信度至关重要。

•检索增强生成：整合检索增强生成（RAG）技术可以增强模型访问和整合来自广泛来源（如大型医学知识库、私人医院记录和数据库）的医疗知识的能力。这种方法可以在推理时提供更准确和上下文相关的信息，特别是在复杂的医疗场景中。

•解决隐私问题：与一般领域和其他小领域相比，医疗数据的使用有更严格的限制。开发解决使用LLM API和构建本地LLMs隐私问题的方法都很重要。这包括实施安全的数据传输协议、确保数据匿名化，以及采用隐私保护技术，如差分隐私。

在数据稀疏环境下的学习：医疗领域训练大规模模型的关键挑战之一是数据使用的限制。由于隐私和保密性问题、数据获取和标注的成本，以及伦理考虑，数据稀疏性是一个持续存在的问题。对于许多实际任务，如医疗报告生成、临床聊天机器人、医疗图像分类，数据稀疏性问题仍将是挑战。此外，如前所述，在不同应用的性能比较部分，使用分布内数据和特定架构设计的任务特定模型仍然可以超越基础模型。基于训练通用领域大型语言模型的实证发现（Brown et al.， 2020; Kaplan et al.， 2020; OpenAI， 2023），扩大数据规模对模型性能至关重要。论文讨论了一些解决这一问题的潜在未来方向：

•迁移学习和领域适应：对于医疗LLMs，探索如何扩大通用领域、公开可用数据可以帮助解决领域内医疗任务是值得的。论文可以探索预训练阶段的数据选择策略，以提高从通用领域模型到医疗特定任务的迁移学习性能。

•合成数据生成：为了缓解数据稀缺带来的挑战，另一种方法是生成合成医疗数据。利用先进的LLMs可以实现创建多样化的合成数据集，以增强学习过程。

•小样本和零样本学习：应该更深入地探索小样本学习和上下文学习Wei et al. (2022b)方法，这有可能使医疗LLMs适应新的任务或领域，只需最少的训练数据。

•隐私保护技术：如差分隐私和联邦学习（Rieke et al.， 2020）等技术可以在确保个人隐私的同时，允许使用患者数据进行训练。

•主动学习：实施主动学习策略，其中模型识别出最有信息量的数据点进行标注，可以优化训练过程。这种方法确保高效利用稀缺的数据资源，并在高度专业的医疗情境中提高学习成果。

评估现实世界医疗应用能力：尽管在医疗领域提出了各种基准，但大多数基准侧重于从医疗知识的角度评估模型（Pal et al.， 2022; Jin et al.， 2020; 2019），而不是从用户导向的角度。为了弥合这一差距，自由形式的指令评估数据集利用医疗对话和机器生成的文本来回答医疗问题。然而，这些测试集在数量和任务多样性上仍然有限。例如，Med-Instruct提出了一个评估数据集，涵盖了多样的话题，但仅限于200个测试。另一方面，iCliniq包含10，000个实例，但其范围仅限于医患对话。

因此，需要一个大规模、多样化且经过专家验证的数据集来评估大型语言模型（LLMs）在现实世界医疗用户应用中的医疗能力。为了评估LLM在医疗自由形式指令评估中的响应质量，Zhang等人（2023i）利用LLM API作为评判者（Zheng等人，2023；Dubois等人，2023；Zhang等人，2023h）。然而，调用LLM API进行评估成本高昂。因此，训练一个具有强大医疗能力的较小LLM用于响应评估和比较可能是一个更高效的选择。未来的工作可以专注于知识蒸馏或模型剪枝等技术，以创建这样一个医疗专业评估器，可能会导致医疗LLM应用的评估过程更快、更具成本效益。

2.4 法律

这里将探讨LLMs在各种法律任务中的深远影响。这些技术进步对法律判断预测、法律事件检测、法律文本分类和法律文件摘要等领域的重要增强做出了贡献。

2.4.1 法律NLP中的任务和数据集

这里论文通过LLM方法探讨了一系列法律任务和相应的数据集。涵盖的领域包括法律问答（LQA）、法律判断预测（LJP）、法律事件检测（LED）、法律文本分类（LTC）、法律文件摘要（LDS）和其他NLP任务。图5概述了这些已建立的法律NLP任务和相关数据集。

法律问答（LQA）：

•LQA（Fawei等人，2019）是提供法律问题答案的过程，促进了能够处理与法律、法规、案例先例和理论综合相关的复杂查询的系统的开发。LQA数据集包含广泛的问答对，用于评估系统在法律推理方面的能力。

•CRJC（Duan等人，2019），类似于SQUAD 2.0（Rajpurkar等人，2018）格式，包括跨度提取、是/否问题和不可回答问题等挑战。此外，像律师考试这样的专业资格考试需要专门的法律知识和技能，使得MBE（Wyner等人，2016）等数据集特别具有挑战性。

•特定的法律领域也有专门的数据集。例如，SARA（Holzenberger等人，2020）专注于美国税法，并包括测试案例，而VLQA（Bach等人，2017）则涉及越南交通法。

•在隐私法领域，PrivacyQA（Ahmad等人，2020）和PIL（Sovrano等人，2021）测试系统导航复杂语言和关于数据隐私的法规的能力。对于社区导向的法律教育，FALQU（Mansouri & Campos，2023）和LCQA（Askari等人，2022）是从Law Stack Exchange（law）获得的。

•几个数据库采用特定技术来提高数据集的质量，例如，EQUALS（Chen等人，2023a）从原始数据中过滤掉不合格的法律问题。AILA（Huang等人，2020）整合了来自法律知识图谱（KG）的领域知识，以有效理解和排名问答对。LLeQA（Louis等人，2024）提供长格式答案，使用检索后阅读的流水线回答法定法律问题。

法律判决预测（LJP）：LJP 专注于分析法律文本，如案例法、法规和审判记录，以预测法律案件的结果。这可以帮助法官、律师和法律学者基于历史数据理解潜在的案件结果。该任务通常被视为一个分类问题，其中输入是一个法律文件，目标是法律决定（例如，有罪、无罪、责任）。研究人员已经开发了针对全球不同法律系统的多个数据集。例如，

•CAIL2018（Xiao et al.， 2018）是一个综合的中国刑事判决预测数据集，包含超过268万个由中国政府发布的法律文件。

•同样，在欧洲，数据集如FSCS（Niklaus et al.， 2021）提供了对瑞士法院判决的洞察，涵盖了两个结果的85，000个案件，反映了瑞士法律环境的多语言性质。

•ECtHR（Chalkidis et al.， 2021b）和ECHR（Chalkidis et al.， 2019）数据集专注于欧盟法院判决，每个数据集包含大约11，000个案件，但提供了11个潜在结果的更广泛范围。

法律事件检测（LED）：法律文件中的LED涉及识别重要的法律程序或决定，如裁决、动议或修正案。这项任务对于使法律专业人员能够有效地监控案件中的关键发展至关重要。

•虽然Shen et al. (2020)提出了层次事件特征来区分法律文本中的类似事件，Li et al. (2020b)实施了专门针对中国法律文本描述部分的事件提取技术，但这些研究受到其数据集的限制，仅包含数千个事件提及。这样的有限标注未能提供强大的训练信号或可靠的评估基准。

•为了解决这一差距，LEVEN（Yao et al.， 2022a），一个全面且高质量的数据集，旨在增强法律信息提取和LED的能力。

法律文本分类（LTC）：LTC涉及对法律文件中的结构化部分进行分类，以提高其可访问性和可理解性。例如，大多数法律文件包含“案件事实”、“各方提出的论点”和“当前法院的决定”等部分，其识别对于理解案件法律结果至关重要。因此，这些文件可以被分类为事实、论点和法规等类别，使得LTC成为一个多类别分类任务。推动LTC进展的关键数据集包括以下内容：希腊法律代码(GLC)（Papaloukas et al.， 2021）专注于对广泛的希腊法律文件进行分类；MultiEURLEX（Chalkidis et al.， 2021a）提供了一个广泛的欧盟立法集合，用于跨多种语言和司法管辖区的分类；LEDGAR（Tuggener et al.， 2020）数据集包括大型合同集合，根据合同要素和条款提供详细的分类。

法律文件摘要（LDS）：

•LDS旨在将法律文件浓缩为简洁的摘要，同时保留关键的法律论点和结果。CaseSummarizer（Polsley et al.， 2016）数据集专注于总结案件判决，提供案件事实、法律论点和判决的简明概述。

•另一个数据集，LexSum（Shen et al.， 2022），针对立法文本的摘要，旨在提取易于理解的要素和含义。

•LEEC（Zongyue et al.， 2023）是一个全面的、大规模的刑事要素提取数据集，包含15，831个司法文件和159个标签，以解决现有数据集在法律知识提取方面的局限性。

•LegalStories（Jiang et al.， 2024）有295个复杂的法律学说，每个学说都配有一个故事和由LLMs生成的多项选择题。

其他法律NLP任务：在最近的发展中，出现了一些其他任务。其中，法律论证挖掘（Poudyal et al.， 2020）旨在检测和分类法律文本中的论证。法律领域的信息提取涉及识别和分类关键法律实体，如当事人姓名、地点、法律引文和案件事实。

•LegalNER（Păis et al.）是一个用于从法律决定中提取命名实体的数据集。

•LeCaRD（Ma et al.， 2021）和CAIL2022数据集（Competition， 2022）通过将事实段落链接到完整案件，增强了中国法律中的刑事案件检索。

•另一个新兴任务是类似案件检索，旨在识别法律先例和类似案件，以辅助法律决策。CAIL2019-SCM数据集（Xiao et al.， 2019），包含中国最高人民法院发布的8，964个案件的三元组，通过专注于类似案件的检测，突出了这一任务。这些任务共同丰富了技术景观，并有望显著提高法律服务的效率、可访问性和公平性。

2.4.2 法律LLMs

随着通用PLMs和LLMs的演变范式，早期法律PLMs采用了预训练后跟下游任务微调的范式，并最初训练了相对较小的语言模型。最近的工作已经扩大了模型大小并引入了指令微调，评估涵盖了更广泛的法律任务。大多数现有的法律LLMs是基于文本的，重点是中文、英文或多语言支持。表8总结了法律领域的PLMs和LLMs。

预训练和微调的预训练语言模型（PLMs）：

•LegalBERT（Chalkidis et al.， 2020）是构建针对任务如法律文本分类（LTC）的法律PLM的早期尝试。该模型在法律文档语料库上进一步预训练，然后使用特定任务的数据进行微调。

•Lawformer（Xiao et al.， 2021）是一种基于Transformer的模型，专门为处理长篇法律文本而预训练，有助于法律判决预测（LJP）、法律检索（LRC）和法律问答（LQA）等任务。

预训练和微调的大型语言模型（LLMs）：预训练和微调的LLMs涉及专门为法律任务或数据集训练和微调的LLMs。这些针对法律的特定LLMs通常整合外部知识库，并处理广泛的基础训练，以处理广泛的法律数据。

•最近的进展导致了像LexiLaw（Haitao， 2024）这样的模型，这是一个基于ChatGLM-6B（Group， 2023）的微调中文法律模型，同时Fuzi.mingcha（SDU， 2023）也是基于ChatGLM-6B（Group， 2023），它是在CAIL2018（Xiao et al.， 2018）和LaWGPT（Xiao-Song， 2024）上进行微调的。

•此外，WisdomInterrogatory（LLM， 2023）是一个建立在Baichuan-7B（Inc.， 2023）之上的预训练和微调模型。更多7B LLMs如LawGPT-7B-beta1.0（Nguyen， 2023）是在Chinese-LLaMA-7B（Cui & et al.， 2023）基础上预训练了50万份中文判决文件，而HanFei（He et al.， 2023b）是一个具有7B参数的完全预训练和微调的LLM。

•对于大规模LLMs的探索更多，例如LaywerLLaM（Zhe， 2023）是基于Chinese-LLaMA-13B（Cui & et al.， 2023），通过通用和法律指令进行微调，此外，ChatLaw-13B（Cui et al.， 2023a）是基于Ziya-LLaMA-13B-v1（IDEA-CCNL， 2023）进行微调的，而ChatLaw-33B（Cui et al.， 2023a）是基于Anima-33B（Ogavinee & et al.， 2022）进行微调的。

•值得注意的是，基于其他语言的LLMs也最近出现，例如基于Mistral-7B（Jiang et al.， 2023）的SaulLM-7B（Colombo et al.， 2024）和JURU（Junior et al.， 2024），这是第一个为巴西法律领域预训练的LLM。这些针对法律的特定LLMs，通常遵循初始的预训练阶段，被定制到特定的法律数据集和任务，增强了法律NLP技术在实践中的精确度和适用性。

2.4.3 LLMs的评估和分析

评估和分析大型语言模型在法律特定背景下的性能，对于理解它们的有效性和能力至关重要

在大型语言模型出现之前，曾有一些基准测试用于评估自然语言处理模型在法律领域的性能。为了在不同的法律自然语言理解(NLU)任务上统一评估模型性能，引入了LexGLUE基准测试(Chalkidis et al.， 2021c)。这些基准包括ECtHR(Chalkidis et al.， 2021b)、SCOTUS(Spaeth et al.， 2017)、EUR-LEX(Chalkidis et al.， 2021a)、LEDGAR(Tuggener et al.， 2020)、UNFAIR-ToS(Lippi et al.， 2019)和CaseHOLD(Zheng et al.， 2021)等数据集。它们为评估语言模型的性能提供了标准化框架，允许系统地比较和分析不同模型在各种法律自然语言处理任务上的能力。

最近，专门为评估大型语言模型性能而设计的专门法律基准测试包括了特意针对法律语言理解和推理的数据集和任务，从而对大型语言模型在法律语境中的能力提供了更细致和全面的评估。

•LawBench(Fei et al.， 2023)是评估大型语言模型在法律领域的综合基准测试，评估它们在20个不同任务中记忆、理解和应用法律知识的能力。对包括多语种、面向中文和专门面向法律的51种大型语言模型的广泛评估显示，GPT-4表现最佳，表明需要进一步发展才能实现更可靠的专门面向法律的大型语言模型用于相关任务。表9总结了各种方法在JEC-QA数据集(Zhong et al.， 2020)、LEVEN数据集(Yao et al.， 2022a)、LawGPT数据集(Xiao-Song， 2024)和CAIL2018数据集(Xiao et al.， 2018)上的性能。

•LEGALBENCH(Guha et al.， 2023)是另一个由法律专业人士合作创建的法律推理基准测试，包含6种法律推理类型的162个任务。LEGALBENCH(Guha et al.， 2023)旨在评估大型语言模型的法律推理能力，并通过将LEGALBENCH任务与流行的法律框架相一致来促进跨学科对话。文中介绍了对20种大型语言模型的实证评估，展示了LEGALBENCH在指导法律领域大型语言模型研究方面的实用性。

•与此互为补充的是，LAiW(Dai et al.， 2023)着眼于法律实践的逻辑，围绕法律逻辑中的三段论推理过程来构建评估。LAiW将大型语言模型的能力分为基本信息检索、法律基础推理和复杂法律应用三个层面，涵盖14个任务。LAiW的研究结果表明，大型语言模型在为复杂法律场景生成文本方面表现出色，但在基本任务上的性能仍然不尽如人意。此外，尽管大型语言模型可能表现出强劲的性能，但仍需加强它们的法律推理和逻辑能力。

2.4.4 面向法律任务的基于大型语言模型的方法及挑战

这里讨论了基于大型语言模型的方法，旨在应对法律自然语言处理领域的重大挑战。这些挑战涵盖了多个方面，包括社会法律问题、法律预测、文档分析、法律虚构、法律考试，以及对健壮的大型语言模型智能体的需求。

社会法律挑战：大型语言模型已成为强大的工具，有望应对日常生活中的各种社会挑战。在法律应用领域，人们正在探索大型语言模型在税务准备、在线纠纷、加密货币案例和版权侵权等方面的能力。例如，

•利用少量示例的上下文学习可能会提高大型语言模型在与税务相关的任务中的表现(Srinivas et al.， 2023; Nay et al.， 2024)。

•此外，Llmediator(Westermann et al.， 2023)强调了大型语言模型在促进在线纠纷解决中的作用，尤其是对于在法庭上自我代理的个人，它通过检测具有冒犯性的消息并重新表述为礼貌的消息来生成纠纷建议。

•另外，在加密货币安全案例(Trozze et al.， 2024)(Zhang et al.， 2023j)中探索大型语言模型的应用展示了它们在复杂法律环境中的实用性。

•解决版权侵权也是大型语言模型正在产生影响的另一个领域(Karamolegkou et al.， 2023)。

大型语模型型法律预测：法律预测判断是利用大型语言模型在法律领域的一项关键任务。在各种技术中，法律提示工程(LPE)脱颖而出，成为增强法律预测的常用方法。

•LPE(Trautmann et al.， 2022)是一种通过零次示例学习、少量示例学习、参考链(CoR)和检索增强生成等关键策略来增强法律响应的技术。

•Trautmann等人(2022)表明，与基线相比，零次示例LPE表现更好，但与最先进的监督方法相比仍有不足。

•Kuppa等人(2023)提出了CoR，在这种方法中，法律问题会被预先提示与法律框架相关联，将任务简化为可管理的步骤，从而大大提高了诸如GPT-3等大型语言模型在零次示例情况下的性能，最高可达12%的改善。

•Jiang和Yang(2023)介绍了法律三段论提示(LoT)，这是一种简单的方法，专门教导大型语言模型进行法律判断预测，重点关注法律三段论的基本组成部分:法律作为大前提，事实作为小前提，判断作为结论。

基于大型语言模型的法律文档分析：大型语言模型也可以用于协助法律文档分析，并应用于案卷和法律备忘录的内容提取。通过自动起草、审查和风险评估，可以增强合同管理。大型语言模型有助于挖掘和分析法律案例研究中的案例和先例。

•Steenhuis等人(2023)概述了三种自动完成法庭表格的方法:使用GPT-3的生成式人工智能方法来迭代地提示用户响应;采用以GPT-4-turbo为基础的模板驱动方法来起草供人工审查的问题;以及混合方法。Cho

•i(2023)讨论了使用大型语言模型进行法律文档分析、评估最佳实践，并探讨了大型语言模型在实证法律研究中的优势和局限性。在一项比较最高法院意见分类的研究中，GPT-4的表现与人工编码者相当，并且优于较早的自然语言处理分类器，而无需培训或专门的提示。

法律虚构挑战：随着GPT-4的出现，研究hot潮已涌现，利用这一进步来协助法律决策，旨在为律师提供战略性的法律建议和支持。然而，这种方法并非没有怀疑者。

•一个值得关注的问题是法律虚构现象(Dahl et al.， 2024)，即大型语言模型在自身不太自信的情况下仍可能提出决策建议。这凸显了一个亟需进一步审视的关键领域，即平衡GPT-4的创新潜力与在敏感的法律语境中对可靠性和准确性的需求。

•Dahl等人(2024)调查了大型语言模型中的法律虚构现象，并探索了为此类虚构构建分类法的发展，着重研究了流行的大型语言模型如GPT-3.5和Llama 2在响应中存在高度的不准确性、模型在面对错误的法律假设时无法纠正的无能，以及它们在生成错误的法律信息时缺乏意识。Dahl等人(2024)强调将大型语言模型纳入法律实践的风险，尤其是对于无人代表的诉讼人以及缺乏传统法律资源的人群。

法律语言模型代理的挑战：开发法律语言模型（LLM）代理极具挑战性，因为它们需要专门设计来处理各种法律任务，如提供建议和起草文件。它们在改进法律工作流程和效率方面起着至关重要的作用，突显了其开发的难度。例如，

•Cheong等人（2024年）研究了将LLM用作面向公众的聊天机器人提供专业建议的影响，强调了在法律领域中的伦理、法律和实际挑战，并建议采用基于案例的专家分析方法来指导在专业环境中负责任的人工智能设计和使用。

•Iu和Wong（2023年）认为ChatGPT具有替代诉讼律师的潜力，关注其起草法律文件（如需求信和诉状）的能力，并指出其出色的法律起草能力。

法律考试挑战：已经有许多尝试使用LLM通过各种司法考试（Choi等，2021年；Bommarito II和Katz，2022年；Martínez，2024年），

•GPT-4通过了律师资格考试（Katz等，2024年），但在LexGLUE基准测试（Chalkidis等，2021c）上还有很长的路要走（Chalkidis，2023年）。

•Yu等人（2023a）通过进行基于日本律师资格考试的COLIEE2019蕴涵任务（Kano等，2019年）的实验，进一步探讨了它们在法律推理中的应用。

2.4.5 未来前景

构建高质量的法律数据集。鉴于法律领域复杂的语义及其对精确法规的要求，获得高质量的法律数据集通常是一项特别具有挑战性的任务。具体而言，从自然界收集的大多数现有法律数据集是不完整、稀疏且复杂的。其复杂性和学术性使得常规机器学习方法难以进行标注，而法律领域的人工标注则需要比一般领域更高的需求和成本（如法律培训和专业知识）。例如，CUAD（Hendrycks等，2021b）由Atticus项目的数十位法律专家创建，包含超过13，000条注释。未来，构建高质量法律数据集可能涵盖以下几个有趣的方向：

•多源法律数据集成用于LLM。现实世界中的法律事件通常涉及来自法院记录、证据文件和多媒体材料等多种不同信息源的数据（Matoesian & Gilbert， 2018）。这些信息通常表现出显著的多样性，从精确和准确的法律文本到琐碎和无关的细节，甚至是故意混淆或含糊不清的证词。整合来自不同来源的信息需要先进的数据集成技术。这不仅需要一般的数据处理技能，如多模态数据融合，还需要理解法律术语和组织结构等领域特定的细微差别。此外，现实世界中的法律案件处理通常需要全局信息，尤其是对于长文本法律数据。LLeQA（Louis等，2024）在提供法定问题的长格式答案方面取得了有希望的开端，为进一步研究处理长文本数据铺平了道路。这种增强的长文本处理能力对于解决复杂案件和提供全面的法律支持至关重要。未来的研究如果能够聚焦于识别长文本中的关键模式或法律符号，将可能提高模型对冗长文件的理解。

•使用LLM进行法律数据集收集和增强。首先，利用LLM的能力为简化法律领域的数据收集过程提供了有希望的解决方案。具体来说，通过利用LLM的语言处理能力，研究人员可以自动化传统上需要广泛知识和人工努力的任务，如法律文档注释和分类。此外，LLM可以弥合NLP社区和法律专家之间的知识鸿沟，使研究人员能够从庞大的纯文本库中高效提取相关的法律信息。这不仅可以简化数据收集，还可以使研究人员轻松驾驭复杂的法律文件，促进高质量数据集的生成，同时减少人工工作量。此外，另一个有趣的方向是法律数据在各种格式上的增强，数据集不仅应包括结构化的法院文件，还应利用社交媒体、新闻和其他来源的非结构化文本进行丰富。对于法律判断预测任务中的少样本低频数据集，结合数据增强和特征增强的方法至关重要（Wang等，2021）。这些增强方法有效地提升了数据集的多样性，从而提高了模型的性能和鲁棒性。

开发综合的基于LLM的法律援助系统：如前所述，尽管法律语言模型（LLM）在解决若干重要的法律任务上已有进展，但其在法律领域的覆盖范围仍远未达到全面的程度。展望未来，论文的长期目标是开发实用且系统的法律援助系统，从而造福人类生活并带来积极的社会影响。以下是几个具体场景，在这些场景中，这类系统可以产生显著影响：

•基于LLM的法律建议。提供法律建议是一个持续且重要的焦点领域，由于其依赖于法律领域知识、文化背景和复杂的逻辑推理，这一任务具有极大的挑战性。然而，利用LLM在这一领域具有很大的前景。LLM在大量数据上进行训练，使其能够将文化背景和常识嵌入其理解中。此外，它们在跨司法管辖区比较案例和将人类知识纳入推理过程中的能力有助于提升法律推理能力。尽管存在复杂性，将LLM整合到法律推理中有望提高法律决策过程的效率和准确性。在这一方向上，有几个有前景的研究课题：(1) 整合知识图谱（Hogan等，2021；Huang等，2020）等高级工具，以增强LLM的法律领域知识和逻辑推理能力；(2) 考虑到现有法律数据的稀缺性，将用户反馈结合到基于LLM的法律建议中对于少样本学习至关重要。这些反馈可来自具有不同法律专业水平的用户，并可用于防止传播不道德或不准确的建议；(3) 由于法律场景中的法律问答需要复杂的逻辑推理，自然会引导未来研究方向为增强法律特定LLM的参数规模。另一方面，为提高实时法律问答的效率，研究法律LLM的压缩在实际应用中也很重要。

•基于LLM的法律解释和分析。现有的基于LLM的方法往往像黑箱一样运作，因此法律案件解释和分析是法律领域的另一项关键任务。这包括对现实世界法院案件的审查和LLM所做决定的审查。就LLM生成的决策而言，一条有趣的研究路径是开发类似于链式思维（Wei等，2022）的方法，用于自我解释。对于现实世界的法律案件，LLM可以在分析时提供与现实情境相关的解释。此外，LLM有潜力提供各种人类可理解的解释，包括一般法律法规、具体案例讨论和类比案例之间的比较——这些解释可能跨越州、时间和国家边界。这种多层面的解释可以增强法律领域的可信度和透明度，减少不公平现象和性别偏见等伦理问题（Sevim等，2023），显著减少法律幻觉（Dahl等，2024）。

•基于LLM的法律系统的社会影响。研究LLM对法律领域的社会影响也包含许多有趣的方向：(1) 应用LLM使法律教育和建议民主化，惠及那些由于缺乏专业知识或经济资源而难以拜访律师的个人。这种民主化可以通过提供关键的法律信息和指导来赋能边缘化社区；(2) LLM的发展还将加速私有化和个性化法律LLM的演进，导致法律领域的竞争加剧，创造出更令人满意的客户产品（Cui等，2023）；(3) 利用LLM推动未来法律发展的进一步研究，通过加强对法律文本和判例的深入分析，LLM可以有助于更有依据的法律更新和学术研究；(4) 解决法律系统中LLM的伦理问题。通过严格的分析和审查，LLM可以帮助识别和纠正法律决策过程中对特定人群的不公正和歧视现象。

2.5 伦理

尽管LLM最近取得了突破，但其在实际应用中的伦理和信任问题引起了关注（Kaddour等，2023；Ray，2023）。尤其是在金融、医疗和法律等高风险领域，这些伦理问题变得尤为重要。从广义上讲，过去几十年中，人们广泛讨论了不同领域中AI技术的伦理问题（Jobin等，2019；Leslie，2019）。尽管已有大量讨论，众多伦理概念来自不同学科和视角，目标复杂，导致构建一致且结构良好的伦理框架面临挑战。幸运的是，这些各种伦理考虑通常源于类似的高层原则。

2.5.1 伦理原则与考量

在人工智能伦理的讨论中，有几个普遍被接受的一般原则。在这些原则的指导下，各个领域都详细阐述了多种微妙的定义。例如，一项对84份人工智能伦理文件的调查（Jobin et al.， 2019）总结了11个频繁出现的伦理原则和指南，包括透明度、正义、责任、不作恶、隐私、有益性、自主性、信任、可持续性、尊严和团结。在此，结合大型语言模型（LLMs）最紧迫的伦理关切以及金融、医疗保健和法律领域不同的关注点，论文主要强调三个伦理原则（透明度、正义、不作恶）和几个最普遍的伦理考量（可解释性、偏见与公平性、鲁棒性、幻觉），这些都与这些原则相关。图6展示了这些伦理原则和考量之间的联系，以及在不同领域中优先考虑这些伦理原则的一些示例任务。

2.5.1.1 伦理原则

透明度。透明度指的是“解释和理解”系统，包括数据使用和模型行为等不同阶段。透明度是Jobin et al. (2019)调查中最常被提及的人工智能伦理原则。许多概念与透明度相关，如可解释性、可解释性、沟通和问责制。当LLM协助复杂、专业密集和高风险的应用时，透明度尤其关键。在金融领域，机构已开始使用LLM进行风险评估、欺诈检测和自动化交易策略等任务；在医疗保健领域，LLM越来越多地用于临床决策支持，如疾病诊断和治疗建议；在法律领域，LLM已被用于合同审查和分析。在这些应用示例中，透明度对于促进理解LLM如何做出最终决策，并评估其潜在风险或问题至关重要。

正义。正义涵盖了一系列含义，通常与“公平、平等、包容、多样性、无偏见和无歧视”相关。因此，在涉及来自不同人口或社会背景的个体的情境中使用LLM时，正义尤其重要。在法律研究中，正义通常被广泛引用为核心法律原则。例如，在使用LLM协助量刑决策或犯罪预测时，正义（例如，反对基于种族、经济/政治地位和犯罪历史的歧视）至关重要。在金融领域，贷款批准、洗钱检测和消费者权益保护等应用对公平性和平等性有很高的要求。在医疗保健领域，公平的资源分配和无不平等和歧视的治疗建议在使用LLM时非常重要。

不作恶。不作恶一般意味着“不造成伤害”。这里的伤害可以以多种形式存在，如错误、有毒、过时、有偏见和侵犯隐私的信息。由于LLM通常在质量未知的庞大语料库上进行训练，因此在实际应用中去除这些有害信息是必要的。在金融领域，不作恶很重要，因为它强调了金融机构、专业人士和监管机构防止对投资者、消费者和更广泛的金融系统造成伤害的责任，避免潜在的财务损失或对个人或社会的伤害。在医疗保健领域，不作恶在维护患者安全、信任和保密性方面发挥关键作用，特别是在治疗规划和患者监测等任务中。在法律领域，不作恶对于防止错误行为、疏忽和违反法律权利至关重要，这些可能源于依赖过时或不准确的法律条款。特别是，由于法律体系的动态性，更新的法律可能无意中遗留下过时和有害的信息，需要谨慎的方法来确保法律实践和解释与当前的法规保持一致。

2.5.1.2 伦理考量

可解释性。可解释性意味着以人类可理解的方式阐释模型行为（例如，展示输入数据或模型组件对模型输出的重要性，以及估计模型在干预或反事实情况下的行为）。

•人工智能的可解释性一直是一个长期关注的问题（Saeed & Omlin， 2023; Došilović et al.， 2018），因为许多人工智能模型本质上作为黑盒运行，缺乏透明度和互操作性。特别是，与大多数传统人工智能技术相比，LLM中的解释通常更具挑战性，因为训练数据量巨大且模型规模庞大。

•尽管存在挑战，但从另一个角度来看，LLM理解和生成自然语言的独特能力使它们能够阐释自己的决策过程。最近的调查（Zhao et al.， 2024; Singh et al.， 2024）总结了LLM现有的解释方法，既包括传统的微调范式（采用基于特征的解释（Ribeiro et al.， 2016; Lundberg & Lee， 2017）或基于例子的解释（Koh & Liang， 2017; Verma et al.， 2020）），也包括最近的基于提示的范式（采用上下文学习解释（Li et al.， 2023j）和思维链（CoT）提示解释（Wu et al.， 2023e））。

偏见与公平性。偏见和公平性广泛包括各种伦理术语，如与敏感特征（例如种族、性别或残疾）相关的某些人口群体的社会刻板印象或歧视（Gallegos 等人，2023；Ghosh & Caliskan，2023），以及训练数据之外的语言的单语偏见（Talat 等人，2022）。

•未经审查的自然语言通常包含众多偏见，而训练语料库中包含的文化、语言和人口统计信息往往高度不平衡，这是导致不公平语言模型的主要原因。

•此外，不当的模型选择和学习范式也可能导致有偏见的结果。现有工作（Gallegos 等人，2023；Kotek 等人，2023；Zhuo 等人，2023；Ghosh & Caliskan，2023；McGee，2023；Motoki 等人，2023）已经讨论并评估了大型语言模型（LLMs）在不同情况下的偏见，表明 LLMs 在开放式对话中具有一定的抵抗社会歧视的能力，但仍然经常表现出不同形式的偏见。

•针对这些问题，已经做出了许多努力来减轻 LLMs 中的偏见（Li 等人，2023e；Ferrara，2023；Gallegos 等人，2023），涵盖了与数据相关的偏见或与模型相关的偏见两个视角。

•当前的去偏见方法主要包括：(a) 预处理方法，通过改变模型训练数据来减轻 LLM 中的偏见，例如数据增强和生成（Xie & Lukasiewicz，2023；Stahl 等人，2022），以及数据校准（Ngo 等人，2021；Thakur 等人，2023；Amrhein 等人，2023）和重新加权（Han 等人，2021；Orgad & Belinkov，2023）；(b) 处理中方法，通过改变 LLM 模型来去偏见。多项技术，如对比学习（He 等人，2022；Li 等人，2023f）、模型重新训练（Qian 等人，2022）和对齐（Guo 等人，2022；Ahn & Oh，2021）已被采用于这些研究中；(c) 后处理方法，从模型输出中减轻偏见（Liang 等人，2020；Lauscher 等人，2021；Dhingra 等人，2023）。

鲁棒性。尽管在不同上下文中其定义各异，但鲁棒性通常表示模型即使在输入偏离训练数据时也能维持其性能的能力。偏离可能由跨领域分布和对抗性攻击等不同因素触发。缺乏鲁棒性的模型常常导致一系列不利后果，

•例如隐私泄露（Carlini 等人，2021）、模型脆弱性（Michel 等人，2022）和泛化问题（Yuan 等人，2024）。

•针对 LLMs 的各种攻击（Zou 等人，2023；Lapid 等人，2023；Liu 等人，2023e；Wei 等人，2024；Shen 等人，2023b；Zhuo 等人，2023；Shi 等人，2024）不断涌现。其中一些继承了传统领域（如计算机视觉）中常用的攻击策略（Szegedy 等人，2013；Biggio 等人，2013）。

•其他研究则探索了“越狱”（Liu 等人，2023e；Wei 等人，2024；Deng 等人，2023a），旨在策略性地制作提示（通过人工努力或自动生成），以产生与对齐 LLMs 目的相偏离的输出。

•进一步的研究还关注攻击的普遍性和可转移性（Zou 等人，2023；Lapid 等人，2023）。这些研究发现 LLMs 中存在许多漏洞和不足，引发了严重的社会和伦理问题。

•与此同时，大量文献（Yuan 等人，2024；Altinisik 等人，2022；Stolfo 等人，2022；Moradi & Samwald，2021；Shi 等人，2024；Ye 等人，2023b；Mozes 等人，2023；Wang 等人，2023b；Schwinn 等人，2023；Jain 等人，2023；Kumar 等人，2023）致力于研究和评估 LLM 的鲁棒性。

•先前的工作（Wang 等人，2023e）将针对 LLMs 越狱攻击的现有方法分为两个方向：内部安全训练（Ganguli 等人，2022；Touvron 等人，2023b）（即通过对抗性示例进一步训练 LLM 模型以更好地识别攻击）和外部保护措施（Jain 等人，2023；Markov 等人，2023）（即结合外部模型或过滤器来替换有害查询为预定义的警告）。

•SELF-GUARD（Wang 等人，2023e）结合了这两种类型的安全方法。值得一提的是，LLM 输出的自我评估（Helbling 等人，2023；Li 等人，2023h）已成为防御策略中的新兴趋势。

幻觉。幻觉一直是 NLP 中的普遍问题，指的是生成错误、无意义或误导性信息。特别是，由于其与传统语言模型的不同，LLMs 中的幻觉面临着独特的挑战（Ji 等人，2023）。

•在金融、医疗保健和法律领域追求的真实性和精确性不可避免地突出了幻觉的紧迫性（Alkaissi & McFarlane，2023）。

•主流工作（Ji 等人，2023；Maynez 等人，2020；Kaddour 等人，2023）将幻觉分为两种类型：(1) 内在幻觉：生成的输出与源内容（例如，提示）冲突；和 (2) 外在幻觉：生成的输出的正确性无法根据源内容进行验证。尽管外在幻觉并不总是错误的，有时甚至可以提供有用的背景信息（Maynez 等人，2020），但论文仍应谨慎处理任何未经证实的信息。

•当前的工作（Min 等人，2023b；Ren 等人，2023）已经以不同方式识别和评估了幻觉，包括基于外部验证知识（如 Wikipedia）的方法（例如，Kola（Yu 等人，2023b），FActScore（Min 等人，2023b），FactualityPrompts（Lee 等人，2022）），以及基于概率度量的方法，如 LLM 生成的不确定性（Manakul 等人，2023；Varshney 等人，2023）。导致幻觉的因素有很多，如数据中的偏见、过时的语料库、提示策略和内在模型限制。

•相应地，正如 Ji 等人（2023）所讨论的，现有针对 LLM 幻觉限制的方法涵盖了数据中心和模型中心的不同分支。数据中心方法通过在不同阶段提高数据质量来消除幻觉（Zhang 等人，2023e；Penedo 等人，2023；Es 等人，2023）。

•模型中心方法侧重于模型的设计和它们的训练或调整过程。这一领域的代表性方法包括基于人类反馈的强化学习（RLHF）（Ouyang 等人，2022）、模型编辑（Daheim 等人，2023）和解码策略（Dziri 等人，2021；Tian 等人，2019）。

2.5.1.3 领域特定伦理

除了普遍的伦理原则和考量之外，在不同领域的具体背景下，伦理的定义展现出其独特的关注点和微妙的差异。这里，论文将分别介绍金融、健康和法律领域中伦理的特定研究。

金融。近年来，针对金融领域AI实践的许多伦理指南（Attard-Frost et al.， 2023; Svetlova， 2022; Kurshan et al.， 2021; Farina et al.， 2024）已经发布。

•在Attard-Frost et al. (2023)中，基于Leslie (2019)提出的公共部门普遍公平性、问责性、可持续性和透明度（FAST）AI伦理原则，一系列面向商业的伦理主题（例如市场公平性、专业实践中的偏见与多样性、商业模式透明度）被组织在每个原则下。

•当使用大型语言模型（LLMs）如ChatGPT（Khan & Umer， 2024）和BloombergGPT（Wu et al.， 2023d）进行金融应用时，一些研究已经开始讨论LLMs的伦理问题。探索性努力解决了LLMs在金融领域中的伦理问题，如幻觉（Kang & Liu， 2024; Roychowdhury et al.， 2023）和金融犯罪（Ji et al.， 2024），为深入调查奠定了有希望的基础。

医疗保健。由于可能产生严重且不可逆的后果，尤其是人类生命的丧失，医疗保健领域的伦理长期以来受到极大关注（Pressman et al.， 2024; Beauchamp & Childress， 2001）。因此，在临床和医疗实践中建立了一套广泛采用的伦理原则（自主性、行善、不伤害、正义）（Beauchamp & Childress， 2001）。

•除了上述的不伤害和正义，健康自主性关注个人做出知情医疗决策的权利，而行善则专注于“做好事”以促进患者福祉。最近的讨论（Li et al.， 2023b; Karabacak & Margetis， 2023; Minssen et al.， 2023; Yu et al.， 2023c; Thirunavukarasu et al.， 2023; Haltaufderheide & Ranisch， 2024; Ullah et al.， 2024）关于LLMs在健康和医学领域的伦理问题已经达成共识，即现有的LLMs仍然存在相当大的差距，以满足理想的伦理标准。这种情况导致在各种医疗保健场景中发展出更细致的伦理考量。

•例如，最近的一篇综述（Haltaufderheide & Ranisch， 2024）总结了LLM伦理在四个关键临床主题中的应用，包括临床应用、患者支持、卫生专业人员和公共卫生。其他关于特定医疗保健背景下伦理的讨论，如手术（Pressman et al.， 2024）和心理健康（Cabrera et al.， 2023），也为LLM在现实世界健康系统中的应用提供了宝贵的见解。

法律。在法律领域，关于AI法律伦理的许多讨论（Cranston， 1995; Yamane， 2020; Wright， 2020; Nunez， 2017）已经进行。LLMs的最新进展带来了法律领域伦理的新挑战和讨论，刺激了对现有法律伦理的完善和更可行评估标准的发展。在这些工作中，

•Zhang et al. (2024a)设计了一个多层次的伦理评估框架，并在该框架下评估了主流LLMs。该评估框架涵盖了三个方面，伦理熟练度逐渐提高：法律指令遵循（即LLMs根据给定指令满足用户需求的能力）、法律知识（即LLMs区分法律/非法律要素的能力）和法律鲁棒性（即LLM对不同格式和上下文中提出的相同问题的响应一致性）。

•另一项最近的工作（Cheong et al.， 2024）收集了20位法律专家的意见，揭示了专业法律领域LLM就业的详细政策考量。

•此外，在更具体的任务（如法律幻觉的剖析）中的一些探索性工作也开始吸引人们的注意（Dahl et al.， 2024）。这些研究为未来“LLM + 法律”应用中更全面的伦理法规奠定了基础。

2.5.2 未来展望

为了解决LLMs中的伦理问题，未来工作需要采取多方面的策略：

(1) 数据审查：细致的数据审查至关重要，涉及对训练数据中不当内容（如偏见或错误信息）的彻底检查和消除。这一步骤确保模型免受潜在有害信息的影响，减少编码不受欢迎模式的风险。

(2) 人类和领域知识：将人类纳入AI循环中是必要的。人类审查者提供细致的视角，提供领域知识，识别伦理问题，并通过改进模型响应来指导模型的学习过程。人机交互系统允许对新兴伦理问题进行持续监控和调整。

(3) 理论界限：建立模型行为的理论界限很重要。开发明确的理论框架和伦理指南有助于界定模型决策的范围，防止其产生可能有害或偏见的输出。通过实施这些措施，论文可以提高LLMs的伦理标准，促进负责任的AI发展。

(4) 解释和因果关系：深入探讨LLM输出背后的根本原因和机制至关重要。理解伦理问题的根本原因有助于开发有效的缓解策略。

论文标题：A Survey on Large Language Models for Critical Societal Domains: Finance, Healthcare, and Law

论文链接：https://arxiv.org/pdf/2405.01769

‍

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业