我要投稿

比DeepSeek、o1高3倍！首创无服务器强化微调，只需十几个数据点，

发布日期：2025-03-20 06:58:45 浏览次数： 2411 作者：AIGC开放社区

今天凌晨，知名大模型训练、开发平台Predibase发布了，首个端到端强化微调平台（RFT）。

与传统的监督式微调相比，RFT不依赖大量的标注数据，而是通过奖励和自定义函数来完成持续的强化学习，同时支持无服务器和端到端训练方法，从数据管理、训练模型到应用部署可以在同一个平台全部完成。

也就是说，你只需要一个浏览器，设定微调目标、上传数据、就能完成以前非常复杂的大模型微调流程。

在线体验地址：https://predibase.com/reinforcement-fine-tuning-playground

为了展示RFT强大功能，Predibase根据阿里开源的Qwen2.5-Coder-32B-instruct，微调了一个专门用于将PyTorch代码翻译为Triton的模型。

这是一个大多数LLM都难以完成的任务，需要对两个框架都有深入的理解，并且需要复杂的推理能力来考虑计算效率，并且Qwen2.5-Coder-32B-instruct在微调之前准确率比较低。

通过RFT，Predibase在训练过程结合了冷启动监督式微调、强化学习和课程学习，并且只使用了十几个标记数据点。

在Kernelbench数据集上进行的基准测试显示，Qwen2.5-Coder-32B-instruct经过强化后，其正确率比DeepSeek-R1和OpenAI的o1高出3倍，比Claude 3.7 Sonnet高出4倍以上，而模型的体量却比这三个小很多。

目前，Predibase已经开源了微调后的Qwen2.5-Coder-32B-instruct模型。

开源地址：https://huggingface.co/predibase/Predibase-T2T-32B-RFT

技术优势方面，RFT不依赖大量标注数据，而传统方法需要海量标注数据来指导模型学习，这些数据通常需要人工标注，成本高昂且耗时。RFT则通过奖励函数来引导模型学习，无需大量标注数据，奖励函数可根据任务的特定需求评估模型输出，来引导模型的优化目标。

RFT的适应性与灵活性更强。传统方法依赖于标注数据的质量和数量，若标注数据有限或不准确，模型性能会受限。而RFT允许用户根据具体任务需求自定义奖励函数，灵活定义模型优化目标。

例如在代码生成任务中，可定义奖励函数验证代码正确性；在问答任务中，可定义奖励函数评估答案相关性和准确性。

RFT具备持续改进能力。传统方法通常是一次性过程，模型训练完成后难以继续改进。RFT则支持持续改进，随着奖励函数优化和更多反馈数据积累，模型能不断学习和改进，适应任务需求变化。

在训练与推理效率方面，传统方法通常需在本地环境中进行，对硬件资源要求高，且需手动管理训练和部署过程。

而Predibase提供的RFT平台是完全托管的无服务器平台，用户无需管理底层服务器或基础设施，平台自动处理训练、部署和推理全过程，大大降低了开发和运维复杂性。此外，RFT利用多LoRA框架和流式微批处理技术，实现了高效的训练和推理。

RFT还支持复杂任务的课程学习。传统方法在处理复杂任务时，通常需大量标注数据覆盖各种情况，否则模型难以学习到有效策略。RFT则支持课程学习，即从简单到复杂逐步训练模型，使其能处理更复杂任务，这在需要深度推理的任务中特别有效。

在模型部署方面，传统方法部署模型通常需额外工具和配置，且难以保证高性能。Predibase的推理引擎原生支持RFT训练的模型，并提供高性能的无服务器部署解决方案，用户可将训练好的模型快速部署到生产环境中，并获得行业级服务水平支持。

RFT还具备更好的泛化能力。传统方法可能会导致模型过度拟合标注数据，从而在未见过的数据上表现不佳。RFT通过奖励函数引导模型学习，使模型能更好地泛化到未见过的数据上，提升其在实际应用中的鲁棒性。

Predibase表示，DeepSeek在开源R1之后，在全球AI领域产生了巨大影响，让很多人意识到强化学习微调对训练大模型的重要性。受此启发，他们开发了这个端到端无服务器强化微调平台。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-14

AI Agent工程的6个要素

2025-04-14

DeepSeek|手把手教你完成AI投喂数据训练

2025-04-14

大模型量化方式详解及建议

2025-04-14

驯服AI的艺术：参数调整完全手册

2025-04-13

Ollama部署大模型以及配置外部访问

2025-04-13

企业私有化 LLM 应用开发路径：从技术跟风到业务驱动

2025-04-13

本地部署大语言模型指南

2025-04-13

深入浅出大模型：大模型预训练、后训练、微调

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

一文读懂DeepSeek-R1本地部署配置要求（建议收藏）

2025-02-04

DeepSeek R1 671B 完整版本地部署教程来了！！！

2025-02-04

太爽了！o1 现在可以天天享用了

2024-09-18

万字综述 10+ 种 LLM 投机采样推理加速方案

2024-07-11

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

2024-07-09

FP8 低精度训练：Transformer Engine 简析

2024-07-11

彻底理解系列之：FP32、FP16、TF32、BF16、混合精度

2024-07-26

别被Deepseek低成本冲昏头！本地化部署后续的“甜蜜陷阱”，你真能扛住吗？

2025-02-05

ollama 部署 deepseek-r1 70B 模型完整指南

2025-01-27

o3-mini 完全指南：一个被 DeepSeek 破大防的模型

2025-02-01

大家都在问

RAGFlow vs Dify, 商业化落地场景选哪个？

2025-04-01

如何利用Dify轻松构建你的专属语料库？

2025-03-31

从 0 到 1，Agentic Ops 如何打造企业级 AI 生产力？

2025-03-20

DeepSeek-R1的Qwen-32B蒸馏模型与QwQ-32B模型，谁更强？

2025-03-16

部署DeepSeek的4条路，企业级客户到底该咋走？

2025-03-16

谷歌Gemma 3 27b 到底能不能打，写个游戏测试下？

2025-03-13

强化学习(RL)是什么? 它和微调有什么区别?

2025-03-13

从DeepSeek到Manus：如何实现本地LLM微调+联网开发？

2025-03-11

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB