AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


ChatGPT再创新高!一亿周活跃用户背后的秘密与挑战
发布日期:2024-06-04 15:58:40 浏览次数: 1707


1. Introduction

根据The Verge在2023年11月的报道,OpenAI的ChatGPT拥有超过一亿周活跃用户,200万开发者使用该API,并且有超过80%的财富500强公司采用,使其成为历史上增长最快的服之一(Santos等人,2018年)。尽管OpenAI的旗舰语言模型对世界的工作方式和寻求信息的方式产生了影响,但科学家对它们的了解甚少:关于GPT-3.5-Turbo和GPT-4-Turbo的架构细节、参数数量和训练数据在公司技术报告中要么被省略,要么只是草草描述(Santos等人,2018年)。这再次确认了Birhane等人(2018年)所描述的“机器学习研究中编码的价值观”,在这种情况下,透明度要让位于保护企业竞争优势的价值观。对于许多科学家和公共利益实践者来说,这种缺乏透明度至多令人担忧,通常是他们在工作中完全避免这类模型的原因(Santos等人,2018年;Wang等人,2019年)。与此同时,最近的研究使得可以利用可访问且廉价的硬件来训练领域适应性模型。八位和四位量化技术使得非常大的模型能够在负担得起的商业级GPU上运行(Santos等人,2018年;Wang等人,2019年)。量化低秩适应(qLoRA)(Santos等人,2018年;Wang等人,2019年)允许通过添加和调整少量参数来定制大型模型,同时让大多数预训练权重保持不变。

这些技术共同可能有助于实现一个不依附于大型科技公司利益的AI未来——一个优先考虑透明度、成本效益、领域特定和负责任地应用语言技术,同时还有强大性能的未来。在这项工作中,作者旨在为这种方法提供一个实证、实践的基石,作者称之为“实验室规模AI”。具体来说,作者解决了以下研究问题:

问题1:开放模型在科学和公共利益任务上是否提供了与封闭模型具有竞争力的领域特定性能?作者针对选定的具有科学或公共利益价值的三个任务,将开放模型与封闭模型进行了评估:政府记录实体解析(Santos等人,2018年)、气候误导信息事实核查(Santos等人,2018年)和临床对话总结(Bahdanau等人,2015年)。作者评估了OpenAI的GPT-3.5-Turbo和GPT-4-Turbo,以及三种开放的指令调整模型:Mistral-7b-Instruct-v.01(Santos等人,2018年)、Falcon-7b-Instruct(Bahdanau等人,2015年)和LLaMA-2-Chat-7b(Santos等人,2018年)。结果显示,在使用少量样本的情况下,GPT-4-Turbo超过其他四个模型的性能,但是GPT-3.5-Turbo和开放模型在为一个数据集周期进行微调后,与GPT-4-Turbo的性能相当或超过其性能。在事实核查任务上,经过微调的Mistral-7b-Instruct达到了0.75的准确度,超过了三次样本GPT-4-Turbo的0.72的准确度标记。

问题2:开源模型与闭源模型在成本上具有竞争力吗?作者发现,使用GPT-4-Turbo对测试数据集进行推理的成本与开源模型的微调和推理相当。通过使用微调后的开源模型实现的成本节省尤其显著:在气候事实核查的测试数据集上,使用开源模型(Mistral-7B-Instruct,2.65)低十倍。

问题3:小型开源模型对特定领域的微调数据有多敏感?作者评估了经过临床对话摘要在0%,20%,40%,60%,80%和100%任务训练数据微调的LLaMA-2-Chat-7B的性能,并评估了LLaMA-2-Chat-7B,Falcon-7B-Instruct和Mistral-7B-Instruct在4,298个样本的事实核查数据集每500步的性能。在20%的微调数据集(240个样本)之后,摘要模型在测试数据集上达到了.79的准确度,仅比最佳水平低.02。在2,000个事实核查样本之后,Mistral-7B-Instruct达到了.71的准确度,与微调后的GPT-3.5-Turbo相当。结果表明,开源模型可以用少量数据进行适应,无需收集大规模数据。

问题4:经过微调的、特定领域的模型能为最终用户提供通用型的基于聊天的接口吗?基于聊天的语言模型为最终用户提供了一个易于接近的接口。作者通过比较微调后的LLaMA-2-Chat-7B模型与基础模型在未反映在模型微调数据集中的任务上的表现,来调查微调是否会阻碍这个接口的效用。例如,作者测量了微调后的事实核查模型在实体解析任务上的表现。作者发现,微调后的开源模型表现出与通用型基础聊天模型相当的性能,有时甚至超过它:例如,事实核查LLaMA-2在实体解析上的准确度提高到.85,而基础模型的准确度为.77。

问题5:实验室规模的语言模型能否以负责任的方式使用?作者在三个对指令调优语言模型伦理应用重要任务上评估了开源和闭源模型:在差分隐私微调下的问答、有毒评论分类中的人口统计学偏见以及在没有足够信息回答正确的情况下拒绝回答问题。作者发现,使用私有优化器进行微调的开源模型的性能接近非私有微调,这比闭源模型提供了更好的隐私选择;开源模型表现出适度的偏见,而微调在很大程度上未能缓解这种偏见;微调开源模型可以改善它们的拒绝属性:微调后的LLaMA-2-7B-Chat获得了.99的拒绝分数(最高1.0),超过了微调后的GPT-3.5-Turbo的性能。尽管开源模型表现出更大的偏见,但它们比闭源模型提供了更大的隐私保障,在某些情况下,微调后拒绝得更可靠。

作者的实验表明,在低成本硬件上运行的经过微调的开源模型可以以更低的成本超越 GPT-4-Turbo 的性能。除了作者的核心实证贡献之外,作者还讨论了在讨论部分采用实验室规模方法的挑战和机遇。

2. Related Work

作者回顾了与生成语言模型相关的先前工作,特别关注了模型的可用性和评估。

生成语言模型 生成型预训练 Transformer (GPTs)采用了改进的 Transformer 深度学习架构(Vaswani et al., 2017),使用解码器层根据前面的输入生成有条件的输出(Vaswani et al., 2017)。GPT语言模型(Devlin et al., 2018; Devlin et al., 2019; Devlin et al., 2020)在“因果”语言建模目标上进行预训练,以一系列子词标记作为输入并生成预测的下一个标记(Devlin et al., 2019)。因此,GPTs能够生成自由的输出,响应用户的输入(Vaswani et al., 2017)。GPTs的早期应用展示了少量样本提示的能力:在推理时(而不是训练中)给出期望行为的示例,模型生成与任务相关的输出(Devlin et al., 2019)。更复杂的提示策略,如思维链,还提供了推理过程的解释以得出正确答案(Sukhbaatar et al., 2019)。"零样本"设置是指在没有示例的情况下要求模型产生正确输出(Sukhbaatar et al., 2019)。

尽管对于NLP任务非常有效,但需要上下文示例提示的模型通常对于普通用户来说是一个糟糕的接口,可能导致模型行为不可预测(Devlin et al., 2019)。为了提供一个更自然、更可靠的接口,Ouyang等人[45]训练GPT模型遵循人类用户的自然语言指令,无论有无示例。像OpenAI的ChatGPT[42]和Meta的LLaMA[59]这样的模型被微调以参与对话,产生一个基于"聊天"的界面,其中模型和人类用户轮流交流,用户通常提供指令或请求[55]。这类模型通常通过人类反馈的强化学习(RLHF)[3],或直接使用语言模型作为奖励模型进行优化[54],以对终端用户安全有益。作者的研究研究了对人类用户指令进行微调的仅解码器生成语言模型。

改进模型的可访问性 大多数生成语言模型使用数十亿个可训练参数来模仿人类语言[2, 33, 60]。训练或部署这类模型需要大量的财务资源,使得研究行人和公共利益实践者难以训练和访问[6]。然而,尽管预训练大型语言模型仍然费用高昂,但最近的技术降低了在低成本硬件上使用模型的难度。例如,量化技术使用的精度低于预训练时的精度[20]。大多数生成模型以32位或混合32/16位精度进行预训练,而量化则将权重以8位[20],4位[22],甚至2位精度[14, 22]加载,从而降低内存需求。由于 Transformer 模型在GPU上实现更高的速度,因此在高效部署模型时的瓶颈往往是GPU设备上的内存(视频RAM)量[21]。然而,仅凭量化并不能在商业级硬件上进行高效训练[20]。被称为“参数高效微调”(PEFT)的方法试图保留预训练模型的通用功能,同时为其适应特定任务进行调整[24, 74]。最广泛使用的PEFT技术之一是低秩适应(LoRA)[32]。LoRA在预训练模型中插入小型、可训练的权重矩阵,在保持预训练模型学习到的参数不变的情况下进行微调[32],从而降低微调的内存成本。LoRA权重占用的空间也比完全微调的模型少[32]。保存一个微调后的LLaMA-2-7B-Chat模型大约需要13.5GB的存储空间;而只保存LoRA权重——可以稍后插入到预训练模型中——只需大约260MB[21, 32]。Dettmers等人[21]引入了qLoRA,这是一种允许可训练的LoRA权重插入到量化模型中的方法,从而使得相对较大的模型可以安装在小型GPU上,并通过LoRA进行定制[21]。

语言模型的基准测试和评估 语言模型通常在特定任务上进行评估,旨在衡量在感兴趣的功能上的性能,如情感分析或机器翻译。语言模型的基准测试由这些任务的集合组成,评估模型在更广泛领域的处理能力[16]。例如,大规模多任务语言理解(MMLU)基准测试衡量在预训练期间获得的科学和世界知识[31]。在更高 Level 上,斯坦福的语言模型全面评估(HELM)收集任务和基准测试,并要求人类用户竞争性地评估模型对用户输入的响应[37]。在野外使用人类偏好来评估模型的努力包括LMSYS聊天机器人竞技场,用户与两个匿名语言模型互动并为更喜欢的模型投票[77]。Bommasani等人[10]引入了基础模型透明度指数,该指数在透明度相关指标上对模型进行评分,如模型的可用性和训练细节。

对ChatGPT的基准测试 ChatGPT的流行促使研究行人将其与传统NLP方法和模型进行比较。Kocon等人[35]在25个NLP任务上评估了ChatGPT相对于最先进的NLP模型的性能,发现GPT-3.5-Turbo和GPT-4被这些模型和方法超越。Thalken等人[58]显示,一个经过微调的LEGAL-BERT[13]是分类法律推理的最佳性能模型,优于GPT-4和LLaMA-2-Chat等模型。Loukas等人[39]发现,经过微调的句子 Transformer 模型在金融文本分类任务上超过了少量样本的GPT-3.5-Turbo和GPT-4。Wang等人[65]发现,一个经过微调的BERT可以在情感分析上超越ChatGPT。作者在基准测试方面基于先前的工作,通过比较开放和封闭模型,但不同之处在于,作者同样关注自主性、透明度和负责任的使用,以及性能。

3. Approach

作者回顾了在实验中研究过的模型、使用的评估方法以及一致使用的云环境。

Models

研究的模型具有以下特征:

  • 因果(生成)预训练目标:所有模型都采用了由Radford等人(2019年)引入到Transformer架构中的因果语言建模(下一个单词预测)目标。
  • 遵循指令:所有模型都经过有监督的微调,以使用户能够用自然语言发出指令,并从模型接收到自然语言的回应(Rafford等人,2019年)。
  • 70亿参数(开放模型):开放模型每个都有大约70亿个可训练参数,使它们能够在相同的云实例上部署。OpenAI没有公开GPT-3.5-Turbo和GPT-4-Turbo的参数数量,但研究表明它们比开放模型要大得多(Rafford等人,2019年)。

作者只研究生成性、遵循指令的模型有三个原因。首先,这与作者评估开放模型时所针对的封闭、行业主导的OpenAI模型的架构和训练规程相一致。其次,截至本文撰写时,所研究的封闭和开放模型都是世界上使用最广泛的语言模型之一,Meta的LLaMA-2模型和Mistral的Instruct模型通常在HuggingFace Transformers Python库中最受欢迎的模型之列。第三,这些模型为那些可能不擅长机器学习但仍然可以从对齐领域的语言模型中受益的用户提供了一个易于接近的自然语言接口。除了与作者赋予科学家和公共利益用户权力的目标一致外,易于访问的接口的重要性也体现在ChatGPT的成功上,它的用户基础远远超过了OpenAI自己的GPT-3基础模型(Bowman等人,2019年)。最后,研究一组相似的模型允许作者使用一致的基础设施,这使作者能够评估成本。

3.1.1. Defining Closed vs. Open Models

作者将一个“封闭”模型定义为只能通过调用API来访问的模型,该模型的权重和架构无法被获取。一个“开放”模型是指预训练的权重和架构可供获取,并且可以对其进行修改和构建。这些模型并不一定被授权允许任何使用模型的行为,因为这样的许可证可能仍然禁止商业化或用于发布权重的组织定义的不道德目的(Steiner等人,2019;Kemp等人,2020);也就是说,“开放”模型不一定是完全的“开源”模型。这个“开放”的定义与Palmer等人(2019)和Rogers等人(2020)采用的定义一致,但没有包含研究行人需要知道开放模型训练的数据的要求,因为即使在之前的定义中,数据要求也带有这样的警告,即这样的数据实际上不需要“可以直接检查”(Rafford等人,2019)。

3.1.2. Closed Models

作者研究了两款封闭的OpenAI模型:GPT-3.5-Turbo和GPT-4-Turbo。

  • OpenAI GPT-3.5-Turbo:OpenAI的成本效益高且广泛性能良好的模型,经过优化以遵循指令(Rafford et al., 2019; Rafford et al., 2019)。一个经过RLHF和近端策略优化(Proximal Policy Optimization)微调的GPT-3.5-Turbo是那些通过在线界面而非OpenAI API访问ChatGPT的非付费用户可用的模型(Rafford et al., 2019)。在作者进行实验时,作者使用了OpenAI的默认GPT-3.5-Turbo,指的是“gpt-3.5-turbo-0613”(Rafford et al., 2019)。
  • OpenAI GPT-4-Turbo:OpenAI的尖端语言模型,其成本高于GPT-3.5-Turbo(Rafford et al., 2019; Rafford et al., 2019)。截至本文撰写时,GPT-4-Turbo在多项NLP任务上保持着零样本的领先地位,并在Chatbot Arena的基于聊天的模型的人类评估中获得第一名(Steiner et al., 2019)。GPT-4-Turbo能够处理比GPT-3.5-Turbo更长的文本输入序列(128,000个标记),以及多种输入模态,如图片(Rafford et al., 2019)。

3.1.3. Open Models

作者研究了以下三个开放模型:

  • TII Falcon-7B-Instruct:该生成模型在1.5万亿个RefinedWeb数据集 Token 上进行了预训练(Zhou等人,2018年),由阿拉伯联合酋长国的技术创新研究所(TII)于2023年4月发布,遵循Apache 2.0许可(Apri等人,2023年)。TII的RefinedWeb数据集由过滤的网页数据组成,其中一部分对公众开放(Zhou等人,2018年)。
  • Meta LLaMA-2-7B-Chat:该生成模型在两万亿个公开可用数据集 Token 上进行了预训练,并于2023年7月通过Meta AI遵循LLaMA 2社区许可对外提供(Zhou等人,2018年)。Chat模型针对对话进行了微调,并经历了RLHF以提升有用性并最小化有毒输出(Zhou等人,2018年)。
  • Mistral AI Mistral-7B-Instruct-v0.1:该生成模型由Mistral AI于2023年9月遵循Apache 2.0许可发布(Zhou等人,2018年)。Mistral-7B-Instruct-v0.1在未公开数量的开放互联网数据上进行了训练,并在常见基准测试中超过了LLaMA-2-7B-Chat和LLaMA-2-13B-Chat(Zhou等人,2018年)。

Model Evaluation

作者在零样本、少样本和微调设置下评估模型。

  • 零样本:模型接收到一个关于任务的简单指令,并给出数据以执行任务。
  • 少样本:模型接收到一个指令以及如何回应的示例。作者使用多轮格式化来向模型提供少样本示例,对于开放模型遵循HuggingFace聊天模板文档,对于封闭模型遵循OpenAI的文档。Falcon-7b-Instruct没有用定义的聊天模板进行微调,作者遵循模型开发者的指导,在单个用户提示中包括示例。
  • 微调:在任务测试集上进行评估之前,模型在特定任务的 数据集上进行微调。为了保持一致性,作者对单个数据集周期进行微调,报告训练和测试数据集中的总示例数。作者无法对GPT-4-Turbo进行微调,因为其微调仅通过一个实验性程序提供。

3.2.1. Hyperparameters

作者在推理和微调中都采用了四比特量化(Krizhevsky等人,2012年)。作者使用qLoRA Adapter (Krizhevsky等人,2012年;Paszke等人,2017年)在特定领域的数据上进行微调,采用了Dettmers等人(Krizhevsky等人,2012年)指定的最优超参数。具体来说,作者使用qLoRA调整线性层,将LoRA矩阵秩设置为32,将LoRA丢弃率设置为0.05,这提高了参数少于130亿的模型的性能(Krizhevsky等人,2012年)。在微调期间,作者使用了梯度预训练权重技术,通过在模型的反向传播过程中重新计算激活来节省内存(Zhou等人,2018年;Chen等人,2019年)。由于内存限制,作者将批量大小设置为1。作者在训练GPT-3.5-Turbo时使用了默认的超参数,除了仅对一个数据集进行一次微调迭代,而不是OpenAI默认的三次。

Cloud Infrastructure

作者使用一致性的云环境,以比较开放模型与封闭模型在成本和运行时间上的差异。作者定义了这样的环境:一个70亿参数的模型可以使用qLoRA在4位精度下,以1,024个标记的上下文窗口进行微调。作者选择这个设置,因为70亿参数模型是作者研究的三个模型家族(LLaMA-2-Chat-7B、Falcon-7B-Instruct和Mistral-7B-Instruct)的最低入门点,因为在4位精度下的微调与在更高精度下的微调具有竞争力(Zhu等人,2019),而且作者的任务(例如,摘要)从至少1,000个标记的上下文窗口中受益。微调使用的是每小时0.32美元的谷歌云平台(GCP)(Brock等人,2018)的现货实例,具有以下特性:16GB英伟达T4 GPU;60GB RAM;16vCPU,8核心处理器;以及200GB硬盘。虽然成本可能会根据地区和提供商而有所不同,但作者发现GCP和其他提供商(如AWS和Lambda Labs)的价格大体一致,每小时约为0.05美元。由于作者预计大多数实验室规模的AI应用在微调期间对错误是容忍的,作者使用现货实例,这些实例可能会被终止以支持付费更高的工作负载,但成本低于按需资源。

4. Multifaceted Evaluation of Open vs. Closed Models

作者选择了一系列实际且有代表性的任务样本,包括那些:1) 反映了生成式指令调整模型在实际世界中的应用(例如,事实核查聊天机器人,像Aos Fatos的FatimaGPT(Shi等人,2018)或Meedan的Check(Meedan等人,2018));以及2) 反映了其他研究预想的有重大影响的工作。例如,Gilardi等人(Gilardi等人,2018)提出ChatGPT可用于数据标注(作者特别考虑实体解析),而Waisberg等人(Waisberg等人,2018)探索了GPT-4通过临床对话分诊患者。作者承认,在没有人类监督的情况下,在临床对话摘要或事实核查等环境中使用语言模型可能并不可取,并且作者的任务是对实际应用的一种近似。

Representative General Tasks

作者研究了三个任务,以比较开放模型与封闭模型的性能,样本和评估指标如表1所示。

  1. 实体解析:作者使用一个自定义的公共记录数据集来评估实体解析(Shi等人,2018年)的性能。给定两对名字和地址,模型判断这些对是否指的是同一个人。一组数据来源于北卡罗来纳州梅克伦堡县的房产契约;另一组来自选民记录。该数据集包含1000条由三个人类标注的记录(Krippendorff's 为0.88,95% CI: 0.85, 0.90(Krippendorff,2017))。
  2. 事实核查:作者使用Climate-FEVER数据集(Krippendorff,2017)来评估事实核查任务的性能。给定一个与气候相关的声明和一条相关证据,模型判断证据是支持、反驳,还是提供的信息不足以支持或反驳声明(Krippendorff,2017)。对于预定义的训练、验证和测试分割,作者使用在https://huggingface.co/datasets/amandakonet/climate_fever_adopted可用的这个数据集版本,该版本用于域内气候事实核查模型的微调,例如Climate-BERT(Zhu等人,2019)。
  3. 临床对话摘要:作者使用MTS-Dialog数据集(Brockman等人,2017)来评估模型在临床对话摘要方面的性能,遵循先前的工作(Zhu等人,2019;Wang等人,2019)。给定医生和患者之间的对话以及主题(例如,用药历史,主要投诉),模型必须总结对话,捕捉与主题相关的信息。

一个简单的后处理脚本移除了多余的单词,以便模型输出可以针对任务1-2的标签进行衡量。对于事实核查,给定“答案是支持”的情况下,脚本移除了“答案是”。

**

Performance - Fine-tuned Open Models Can Outperform Closed Models

如表2所示,在少样本设置下,GPT-4-Turbo在实体解析和事实核查任务上的表现优于开放模型,并且优势明显。在开放模型中,只有Mistral-7B-Instruct在少样本设置下能与GPT-3.5-Turbo竞争。然而,对单个数据集进行一轮微调后,开放模型变得具有竞争力,在某些情况下甚至超过了GPT-4-Turbo和经过微调的GPT-3.5-Turbo。LLaMA-2-7B-Chat在任何少样本设置下事实核查任务的准确率不超过25%,但在微调后却超过了GPT-4-Turbo。GPT-4-Turbo在医学摘要任务上也取得了最佳的少样本性能。经过微调后,尽管Mistral-7B-Instruct在少样本情况下超过了GPT-4-Turbo,取得了比GPT-3.5-Turbo更高的BLEU分数(但BERT分数没有更高),而经过微调的LLaMA-2-7B-Chat和Falcon-7B-Instruct取得了与少样本GPT-4-Turbo相竞争的结果。

Cost Analysis - Open Models Are More Affordable

为了更好地理解定制和使用开源模型与直接使用封闭模型之间的财务成本差异,作者计算了针对气候事实核查任务的推理和微调的大致成本。对于封闭模型,作者使用OpenAI模型的tiktoken分词器获取测试数据集中的输入标记数量,并将其总和乘以OpenAI公布的每个标记的成本。在这个计算中,作者省略了输出标记的成本,作者估计这部分成本对于作者任务的总推理成本不到1%。对于开源模型,作者通过将云实例的每小时价格乘以记录在作者Weights and Biases(Brockman等人,2017年)账户中的运行时间来计算成本。所报告的成本与OpenAI和GCP的账单一致。作者还报告了开源模型和封闭模型的运行时间。

如果实验室规模的人工智能可行,作者预计开源模型在成本上将与封闭模型具有竞争力,理想情况下会更加经济。表3显示,GPT-4-Turbo的少样本成本大约是开源模型或GPT-3.5.-Turbo少样本成本的十倍。为任何开源模型针对一个数据集周期进行微调并评估一次(表3中的“微调”)的成本,这个流程产生了性能结果表明比GPT-4-Turbo更优越的事实核查模型,低于在单样本设置下使用GPT-4-Turbo进行一次推理的成本。最大的节省来自于微调后使用模型(表3中的“微调后”)。经过微调的开源模型比GPT-4-Turbo便宜得多,并且性能优于少样本封闭模型。

封闭模型在运行时间上表现卓越。微调后的GPT-3.5-Turbo是最快的选项,比开源模型快十倍。少样本GPT-4-Turbo需要的时间是少样本GPT-3.5-Turbo的1.5倍,但仍然比开源模型快三倍。

作者的测量并不包括所有成本,例如购买持久磁盘存储、静态IP以及更可靠的云实例等,但提供了一个经验基础的分析,以了解本地训练和部署模型的入门成本。

Data Responsiveness -- Modest Fine-tuning Can Make Open Models Competitive

为了理解生成特定领域开放模型所需的数据量,作者研究了LLaMA-2-7B-Chat预训练权重在临床对话摘要、实体解析和气候事实核查任务中的性能。作者在每个任务特定训练数据集的20%、40%、60%、80%和100%时保存中间模型权重,并使用完整测试数据集评估这些中间模型。此外,对于拥有4,298个样本较大训练集的气候事实核查任务,作者每500个样本保存一次预训练权重,并使用这些预训练权重在150个测试样本(大约是测试数据集的10%)上评估准确性。作者为LLaMA-2-7B-Chat、Mistral-7B-Instruct、Falcon-7B-Instruct和GPT-3.5-Turbo保存了这些500步的事实核查预训练权重。由于OpenAI不允许在微调过程中保存模型预训练权重,作者为GPT-3.5-Turbo提交了使用训练数据集子集的独立微调任务。

如果实验规模的人工智能是可行的,作者预计不需要大规模的数据收集项目就能生产出具有竞争力的领域内模型。如图2(左图)所示,LLaMA-2-Chat-7B在仅使用了20%的训练样本(240个样本)后,在临床对话摘要上达到了BERTScore-F1为0.79,在实体解析上仅用40%的训练样本就达到了0.97的F1分数。同样(右图),在气候事实核查上训练的Mistral-7B-Instruct在2,000个样本后达到了0.71的准确性,而LLaMA-2-Chat-7B在大约3,500个样本后达到了与微调后的GPT-3.5-Turbo相媲美的准确性。可以训练使用研究者能够收集的数据量的微调实验规模模型,这些模型能够产生与GPT-4-Turbo相当的结果。开放模型之间的差异反映了基础模型的基准性能,Mistral通常优于LLaMA-2,而LLaMA-2又优于Falcon(Mistral, 2019; Wang等人,2020),这表明预训练差异(例如,LLaMA-2在比Falcon更大的数据集上进行预训练)在领域适应期间仍然存在。

表3. 根据使用事实核查数据计算的成本,开放模型比GPT-4-Turbo便宜。微调GPT-3.5-Turbo的成本包括727,845个训练 Token ,每1,000个 Token 的费用为

Model Generality -- Fine-tuning Does Not Inhibit the Generality of Open Models

尽管对特定任务的微调可能会提高基于聊天的模型的性能,但尚不清楚当用户通过自然语言与模型互动时,这是否会损害模型的通用实用性。为了研究模型是否保持了这种实用性,作者评估了每个特定领域(实体解析、事实核查和临床对话总结)的LLaMA-2-Chat-7B模型在其他未进行微调的任务上的表现。然后,作者将特定领域模型在每个任务上的表现与通用基础LLaMA-2进行比较。

图3. 使用qLoRA在任务上进行微调的模型在其他任务上提供了强大的零样本性能,通常比基础模型更强。

图2. 左图:在训练数据的头50%期间出现微调改进,在医疗总结和实体解析的情况下,仅需要几百个训练样本。右图:在少量数据(1,000个事实核查样本)的情况下,微调后的开放模型与微调后的GPT-3-5-Turbo具有竞争力。

如果模型保持通用实用性,作者预计微调模型与基础模型相比,在最坏的情况下表现下降不会显著。如图3所示,在大多数情况下,使用微调模型处理未进行微调的任务时,性能实际上略有提高。例如,微调后的事实核查模型在实体解析任务的单次、两次和三次射击设置中超过了基础模型的性能。这可能并不意味着低秩微调总是会提高相关任务上的性能,但作者的发现表明,针对特定领域的微调不会降低开放模型的通用实用性。

5. Responsible Use of Open Models

被认为是封闭模型所提供的一个潜在优势是其用于减轻偏见并防止封闭模型生成有害或不准确输出的处理过程。因此,作者评估了与负责任和透明模型使用相关的三种场景:在差分隐私下的问答(隐私)、毒性分类(偏见)以及弃权,指的是模型拒绝自信地回答它没有答案的问题(透明度)。

Differential Privacy -- Privately Fine-tuned Open Models Approach Non-Private Performance

差分隐私(DP)深度学习(使用私有化梯度下降优化器(Abadi et al., 2016))已被采纳以保护用户并避免敏感数据使用的法律风险(Shi et al., 2017; Wang et al., 2018)。尽管在语言模型中具有挑战性(Shi et al., 2017),但近期的工作(Shi et al., 2017; Wang et al., 2018)展示了使用差分隐私微调在敏感数据上训练通用目的模型的潜力(Shi et al., 2018)。作者从一个小型医学实验室的角度出发,该实验室拥有敏感数据,试图私密地微调一个开源的通用医学模型。作者使用MedQA(Shi et al., 2018)任务作为这一场景的代理(包含在Multi-MedBench(Shi et al., 2018)基准中),将其简化为二分类任务。作者采用qLoRA进行私人微调,并在五个隐私 Level 上报告结果(,其中较低的表示更高的隐私性,而表示非隐私)。

表4说明了MedQA-TF对开放模型来说是多么具有挑战性,其表现远低于最先进水平(Shi et al., 2018)。然而,作者的结果显示,私有微调使Mistral-7B-Instruct这样的模型能够在=20时接近其非私有微调的性能。图4展示了Mistral-7B-Instruct中不同隐私设置对评估损失曲线的影响,表明在较低的下,模型需要更长时间才能收敛。噪声的、私有化的更新所带来的挑战是批量大小需要很大,这对于使用较小批量的实验室规模方法提出了问题。

Toxicity Bias -- Open Models Improve with Fine-Tuning, But Lag Behind Closed Models

作者评估了开放模型和封闭模型在CivilComments-WILDS(Shi等人,2018年)子集上的表现,这是一个从Civil Comments平台精心策划的真实在线评论数据集。数据集标签描述了评论的毒性以及评论中是否提及了人口统计成员身份。模型必须对评论是否具有毒性进行分类,并通过性能和公平性(即分类是否更频繁地对某些人口群体错误)的视角来分析其分类。作者报告了以下两项指标:1)所有评估评论的准确度;2)最差群体准确度,这代表了按人口统计成员和毒性标签对模型输出进行分段后的最低准确度(例如,最差群体准确度可能指的是非毒性评论和男性人口统计成员的准确度)。为了确保一个可控和可解释的实验,作者将人口群体限制为男性和女性,以使测量对应于性别偏见。作者从数据集中使用了800个训练样本、100个验证样本和200个测试样本。训练、验证和测试数据在四个群体(男性毒性、男性非毒性、女性毒性和女性非毒性)之间进行了平衡。

正如表5所示,在这次评估中,封闭模型的表现优于开放模型。微调提高了Mistral和Falcon的整体(平均)准确度,但对LLaMA-2没有明显影响。对于所有开放模型,微调并没有在少数样本设置中的最差群体准确度上有所提高。在该组中最强表现的模型是三样本GPT-4-Turbo,它在平均准确度和最差群体准确度上都超过了其他模型。微调后的GPT-3.5-Turbo在整体准确度上与三样本GPT-4-Turbo相匹配,但在最差群体准确度上并不匹配。然而,这个任务是困难的,令人惊讶的是,三样本Mistral-7B-Instruct在最少样本的情况下,在最差群体准确度上超过了零样本GPT-4-Turbo。

Abstention -- Fine-tuned Open Models Largely Abstain from Emitting Misinformation

基于参数知识(Hernandez等人,2017年)或用户提示中提供上下文(Selvin等人,2019年)的指令调优语言模型回答问题。如果模型在其参数知识或用户提供的上下文中没有必要的信息,那么模型应该选择“放弃”回答,以避免误导用户(Selvin等人,2019年)。

作者通过调整来自依赖上下文的科学知识基准测试的问题,来评估开放模型放弃回答的能力,其中一些问题如果标注者无法基于上下文找到答案,就被设计为无法回答。作者使用来自QASPER(Goyal等人,2019年)科学问题回答数据集的完整训练集进行微调,并使用测试集中的可回答问题以下列方式评估放弃行为:作者完全移除上下文,使得正确的做法是放弃(表7中的“无上下文”)。作者按照之前的工作(Selvin等人,2019年)使用放弃率来评估模型的放弃表现。理想情况下,如果作者完全移除上下文,放弃率应该是1。除了放弃行为,作者还通过F1分数评估模型在完整QASPER测试集上的表现,以评估整体性能与放弃能力之间的权衡。

表6描述了整体性能与放弃能力之间的权衡。作者遵循原始的训练、验证和测试集划分,分别得到2593、1005和1451个问题。表6描述了QASPER测试集上的任务表现。GPT-4-Turbo在少量样本设置中表现出色。微调显著提高了模型的任务表现,经过微调的GPT-3.5-Turbo达到了最高的F1值0.74,比GPT-4-Turbo高出0.07。微调改进了Mistral-7B-Instruct、Falcon-7B-Instruct和LLaMA-2-7B-Chat,但在这一具有挑战性的任务上,性能并未接近GPT-4-Turbo。

表7描述了放弃任务的结果(“无上下文”意味着模型没有足够的信息来回答问题,应该总是放弃),使用QASPER测试集中的可回答问题。令人惊讶的是,经过微调,最佳问题回答模型的放弃表现降低了,这表明了一种“过度自信”效应:在零样本设置中能够放弃的模型(GPT3.5Turbo为0.93,Mistral-7B-Instruct为0.70)在微调设置中不太可能放弃(GPT3.5Turbo为0.53,Mistral-7B-Instruct为0.38)。然而,对于在零样本设置中无法放弃的模型(Falcon-7B-Instruct为0.02,Llama-2-7B-Chat为0.00),微调显著提高了这种能力(Falcon-7B-Instruct为0.65,Llama-2-7B-Chat为0.99)。结果表明,在平衡整体性能与放弃能力方面,常规训练制度存在一个最佳平衡点。

6. Discussion

The Viability and Implications of Laboratory-Scale AI.

作者的工作为采纳一种“实验室规模”的AI方法提供了实证支持,这种方法优先考虑用户的自主性、隐私、公平性和透明度,同时保留了行业主导企业模型所提供的大部分性能和可用性。借助一块小型GPU卡,用户可以创建特定领域的、基于聊天的语言模型,并在不丧失使这些技术吸引人的通用效用和接口的情况下部署它们。实验室规模的方法试图在有限的能力范围内,解决像Bender等人(Bender et al., 2019)等学者提出的挑战,他们强调了在通常与任务不相关的、指定不明确的网络抓取数据上训练语言模型的危险性。

  诸如Birhane等人(Birhane et al., 2020)描述的以性能为中心的“机器学习研究中编码的价值观”,并强调该领域被大型科技公司所控制;以及Palmer等人(Palmer et al., 2019)认为科学家和学术研究行人必须证明使用专有封闭模型而非开放模型的合理性。实验室规模的AI聚焦于小型开放模型在特定领域的负责任应用,为那些有充分理由避免无法通过API调用访问的封闭模型的科学家和公共利益技术行人提供了一个选项。

Affordances and Challenges of Open Models.

作者使用了HuggingFace(HuggingFace, 2019)提供的库和模型生态系统。TRL库提供的监督微调训练器类使得适应开放语言模型相对简单,主要取决于作者的数据组织。Huggingface生态系统还支持qLoRA(HuggingFace, 2019),这使得定制量化模型相对直接。然而,作者在使用开放模型时仍然遇到了一些困难,这是值得讨论的。在作者微调自己的模型时遇到的最棘手的问题在于,获取即使是低成本GPU硬件的云实例也困难重重。由于可用云资源的缺乏,作者一致难以获得结果。此外,作者没有预料到测试的量化开放模型运行速度会比作者测试的闭源模型慢这么多。这部分与作者选择低成本GPU有关,但这也影响了推理速度,从而影响了作者对于模型性能的评估。

在对开放模型进行微调时,作者面临的最大难题之一是难以获取配备有哪怕是低成本GPU硬件的云实例。由于缺乏可用的云资源,作者一直难以获得结果。同时,作者没有预料到测试的量化开放模型会比作者测试的闭源模型运行得慢得多。这一点与作者的选择有一定关系,即选择了低成本硬件,这也反映在了模型推理速度上,进而影响了模型性能评估的表现。

Limitations and Future Work.

尽管作者的工作试图提供一个开放、低成本的途径,但作者认识到开放模型在大规模、有时不透明的数据集上经历了昂贵且资源密集型的预训练。尽管像qLoRA这样的库有助于实现预训练模型的适配,但它们不能为作者提供绕过预训练的方法,目前这仍然是生产流畅、通用基础模型的唯一可靠手段。未来的工作可能会探索改变预训练范式的替代方案。作者还承认,如果OpenAI更改或从其API中移除模型,可能不会通知最终用户,那么闭源模型的结果可能无法复现。这是闭源模型的局限性,也是激励作者研究的原因,但同时也是作者工作的局限性。最后,由于不确定运行这些模型的确切硬件、运行它们的数据中心的位置以及可能允许规模经济的批量用户输入等实践,作者无法可靠地模拟闭源模型的碳成本。

7. Conclusion

作者展示了小型、开放模型的竞争力不亚于封闭模型,它们在成本效率、对用户数据的响应性以及对抗过拟合方面都具有优势。作者分析了实验室规模模型负责任的使用方式,显示它们相较于封闭模型在隐私和放弃权方面具有优势。作者认为实验室规模的AI可以作为未来科学和公共利益工作的基础,使实践者能够在不依赖封闭的、基于API的AI的情况下定制模型。

参考

[1].Laboratory-Scale AI: Open-Weight Models are Competitive with ChatGPT Even in Low-Resource Settings.



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询