我要投稿

OpenAI Day2有点惊喜！o1模型将支持用户强化微调！可达博士水平！

发布日期：2024-12-07 03:21:42 浏览次数： 2628

作者：GeekSavvy

微信搜一搜，关注“GeekSavvy”

OpenAI Day2！这两天的科技狂欢简直比追世界杯还兴奋 —— 谁能想到，熬夜追的不再是球赛，而是一次次期待会突破想象的科技发布！

第一天已经发布了 ChatGPT Pro，价格为每月 200 美元（贵的离谱?‍♂️），以及其“推理”o1 模型的完整版本。迫不及待地想看看他们还有什么惊喜！

今天12月7日北京时间凌晨两点（太平洋时间上午 10 点），迎来了 OpenAI Day 2 的发布会！OpenAI 研究高级副总裁 Mark Chen 联手伯克利实验室环境基因组学与系统生物学的计算研究员 Justin Reese，以及 OpenAI 团队的多位核心成员，共同为我们带来关于 强化微调（Reinforcement Fine-Tuning） 的深入演示和讨论。OpenAI 高管介绍 RFT，强调其将大型语言模型从“高中水平”提升至“博士级专家”的能力，适合高校、研究人员和企业打造独特的 AI 解决方案，将于2025年发布！

概要总结

RFT 的能力：RFT 使用户能够利用 OpenAI 强大的强化学习算法，创建针对特定任务和领域的专家级 AI 模型。
数据需求低：RFT 只需少量数据（仅需几十个示例）即可实现显著的性能提升。
超越标准微调：RF 在特定任务中的表现优于标准微调，甚至超过了 Zero-One 基础模型。
核心流程：RFT 需要提供训练数据集、验证数据集，以及一个“评分器”用来将模型输出与正确答案进行比对。
评分器支持：OpenAI 提供预建评分器，并计划未来支持用户定义自定义评分器。
案例展示：在罕见病诊断应用中，使用 RF 微调的 Zero-One Mini 模型在根据患者症状预测正确致病基因的准确率上达到了 31%，优于基础 Zero-One 模型（25%）和未微调的 Zero-One Mini（17%）。
多领域潜力：RFT 在多个领域表现出潜力，包括生物化学、AI 安全、法律和医疗保健。
研究项目邀请：OpenAI 邀请研究人员和组织申请 RF 研究计划，以探索 RF 在各自领域的潜力

一、OpenAI推出强化微调RFT

OpenAI 推出了一项新的模型定制计划——强化微调（Reinforcement Fine-Tuning），利用强化学习的强大能力，为特定任务打造专家级的AI模型。该计划旨在赋能开发者、研究人员和机器学习工程师，特别是在法律、金融、工程和保险等领域，通过他们自己的数据创建独特的AI解决方案。

二、理解强化微调RFT

01 什么是微调（Fine-Tuning）？

强化微调是将一个预好的通用模型，通过在特定领域的小规模数据集上进一步训练，使其适应特定任务的技术。简单来说就是在一个“学过很多东西”的大模型上，再让它针对某个具体任务“重点练习”，让它更适合做这件事。

那有什么作用呢？

让模型更聪明地解决特定问题，比如帮你分析法律文件或者推荐你喜欢的电影。
省时省力，不用从头训练模型，只需要对现有模型稍加调整。
让模型更懂领域知识，比如让它更懂医学术语或专业技术词汇。

02 强化微调RFT是什么？

强化微调不同于监督微调，其目标是让模型学会推理和解决问题，而不仅仅是复制模式。

该过程通过为模型提供一个问题，允许其思考解决方案，对最终答案进行评分，并使用强化学习鼓励成功的推理路径。
这种技术类似于训练 GPT-4 和其他前沿模型的方式，仅需少量的例子（几十个）即可有效学习。

科学研究中的应用：罕见遗传病的案例研究

伯克利实验室研究员 Justin Reese 讨论了强化微调在理解和治疗罕见遗传病中的潜力，这类疾病影响了全球大量人口。

研究重点是开发将医学专家知识与系统性生物医学数据推理结合的计算工具，使用“Zero-one”模型实现这一目标。
Reese 解释了如何通过从科学出版物中提取疾病信息，创建包含症状、缺失症状和致病基因的数据集，以根据患者症状预测变异基因。

03 使用 RFT 相比传统微调方法有哪些关键优势？

提升推理能力：RFT 专注于增强模型的推理和解决问题的能力，使其能够在需要深入专业知识的复杂任务中表现出色。
高效的数据需求：RFT 即使在数据量有限的情况下（有时仅需几十个样本）也能实现显著性能提升，而标准微调通常需要大量数据集。
泛化能力：RFT 训练模型将学习成果推广到新的、未见过的数据中，避免仅仅记忆训练数据中的模式，从而使模型在实际场景中更加稳健和适应性强。

04 什么是“评分器（Graders）”，它们在 RFT 中的作用是什么？

“评分器”是 RFT 过程中的关键组件，它们作为评估函数，通过将模型输出与已知正确答案进行对比来评估输出质量。

评分器分配的分数范围从 0 到 1，其中 0 表示完全错误的答案，1 表示完美的答案。
这些分数为强化学习算法提供反馈，指导模型改进推理并生成更好的响应。
OpenAI 提供了一系列用于常见任务的预建评分器，并计划未来允许用户定义自定义评分器。

05 RFT对数据的要求是什么？这些数据是如何构建的？

RF 需要以 JSONL 格式提供训练和验证数据集。文件中的每一行表示一个示例，包含以下内容：

病例报告：需要模型分析的场景描述，例如医学案例中的患者症状。
指令：明确解释任务的提示，包括所需的输出格式。
正确答案：已知的真实答案，用于评估模型的输出。在训练过程中不会向模型透露正确答案，但评分器会使用它。

验证数据集使用相同格式，但包含与训练集不重叠的不同示例，以确保模型的泛化能力。

06 RFT应用的真实案例

一个典型的案例是罕见遗传病研究。OpenAI 与伯克利实验室和德国 Charité 医院的研究人员合作，使用 RFT 训练 Zero-One Mini 模型。

该模型基于一个包含病例报告、患者症状和致病基因的数据集进行训练。
通过 RFT，该模型学会了有效推理罕见疾病的成因，并在性能上超越了更大的 Zero-One 模型，展示了其在诊断和理解复杂病情方面的潜力。

07 RFT的未来发展方向及其潜在影响是什么？

扩大访问范围：向研究人员和开发者广泛开放 RFT，将释放其潜在的应用范围。
自定义评分器：允许用户定义自己的评分器，将进一步提高 RFT 在各种任务中的灵活性和适用性。
与其他工具整合：将 RFT与其他 AI 技术和平台结合，创造更强大、通用的 AI 解决方案。

RFT 的持续发展与更广泛的采用，有望显著提升多个领域的 AI 能力，推动科学研究、医疗保健等行业的突破性进展。

强化微调的潜力不仅限于科学研究，还在多个领域表现出前景。

OpenAI 正在扩展其 alpha 计划，为更多研究人员和开发者提供访问权限。
该计划鼓励处理复杂任务且需要专家级AI辅助的组织参与，旨在探索技术的全面潜能。

三、强化微调的实际操作：演示

在 OpenAI 开发平台上提供了强化微调过程的分步演示，包括：

数据准备：上传 JSONLines 格式的训练和验证数据集，其中包含病例报告、症状、模型指令和正确答案。
评分器实现：定义一个评分器，根据正确答案对模型输出进行评估，评分范围为 0 到 1，并提供多种任务意图的评分器。
训练与评估：启动训练任务，利用 OpenAI 的基础设施和算法。微调模型显示验证奖励分数逐步上升，表明在任务上的泛化能力。
与基线模型比较：评估仪表盘结果展示了微调后的 Zero-one Mini 模型与基础 Zero-one Mini 和更大 Zero-one 模型的性能对比。微调模型在“Top at One”准确率上表现出显著提升。

Day2发布会关键引言

“这不是普通的微调，而是强化微调。它真正利用了强化学习算法，将我们从高级中学水平带到了博士级别，并应用于您的实际用例中。”
“开发者、研究人员和机器学习工程师首次能够利用强化学习创建专家级模型，在其领域内的特定任务上表现卓越。”
“仅需几十个示例，模型就能学会在自定义领域中以新的方式进行推理并取得成效。”
“这是一个通用技术。在生物化学、AI 安全、法律和医疗保健数据集中，我们看到了令人振奋的结果。我们可以想到数百个更多的任务示例，但我们知道您可能会想到更多。”

附录：

理解基于强化学习的扩散模型微调：教程和评论：本文重点关注微调扩散模型这一主题，扩散模型是用于计算机视觉、自然语言处理和生物学等各个领域的强大生成模型。完整论文：https:// https://www.openread.academy/en/paper/reading?corpusId=505129121