AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


周末竟然没人讨论:强化微调的意义被低估
发布日期:2024-12-09 09:20:07 浏览次数: 1757 来源:信息平权


周六凌晨OpenAI发布了强化微调(Reinforcement Fine-Tuning),大白话说就是:让用户基于自己领域的少量数据(几十条),就能塑造出一个强大的专家模型。整个过程非常简洁,自定义数据集、配置超参数,结束。不需要过去fine-tune微调那样的数据标注,而是反馈奖励。看到了人人快速塑造自己领域模型的可能。

初步结论:
1. 还记得o1-preview时候Noam Brown留了个悬念,让大家思考为什么o1-mini有时候表现比o1更好现在看很可能是做了强化微调。说明什么?模型参数真的不需要很大了...这不是蒸馏的问题了,是超大参数的“知识模型”过于冗余,专业领域的推理能力不需要那么多参数。
2. 数据壁垒降低,中小企业的机会可能来了。之前的思考模式是:大模型时代的数据壁垒越来越高,数据成为差异化核心要素。但从RFT的使用方式看,小公司基于自己的少量数据+源小模型,也可以拥有自己的专家模型。问题是,这里面o1底座的重要性有多大,比如用deepseek的“o1,差距会很大吗不可知。以及数据本身的“浓度”可能比“数量”更重要。各行业的“know-how”一定是高度浓缩的,虽然可能也是基于海量数据、或者海量经验试错得到的,但只要有edge,比如差异化数据,即使数据规模不大,也可以建立优势。也就是各公司自己的“奖励函数”,一定是高度提炼的。
3. 从专业走向泛化的可能?OpenAI自己强调在生物化学、安全、法律、医疗上效果显著因为上述领域都有明确规则,或“奖励函数”。但这已经比o1刚出时候的“数学和代码范围更广。核心问题在于,这个奖励函数的获取成本变低,一个基座模型不可能穷尽各领域奖励函数,但可以交给各行各业,各行业自己的"know-how”就是那个奖励函数按道理,强化学习的核心是“策略最优,比如自动驾驶、游戏、手机Agent等等很多行业,都适合策略优化”的模型训练目标
4. 大幅降低了应用门槛。过去的问题就是统一的基座大模型,依靠其“昂贵”的泛化性去实现各个领域的专业应用,成本高昂且专业化、精确度不够。RFT范式下,小模型+专业少量数据的模式,至少让应用的实现成本大幅降低。瓶颈可能还是找个那个各自领域的“奖励函数”。这里自然有人会质疑,这不又回到过去“垂类AI”的老路了吗?似乎1)实现成本还是低得多;2)reasoning能力是泛化的,领域数据是定制的。想象空间应该还是大于上个AI时代。
5. 对算力卡的要求门槛是否降低?毕竟这种方式更偏向于“fine-tune”微调,且基座模型尽可能小、数据集又很小,整个算力要求很低。可能对国产卡是好事。


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询