在生成式AI蓬勃发展的当下,如何更高效、更低成本地训练出满足特定场景需求的大模型,成为众多企业开发者关注的焦点。近日,OpenAI所提出的RFT(Reinforcement-based Fine-Tuning,基于强化学习的微调)技术,因其能以更少量的数据显著提升模型性能而备受瞩目。RFT的核心在于结合强化学习和监督微调,让AI在少量专业数据中自主学习并达到专家水平。
2月28日,百度智能云千帆ModelBuilder宣布成为国内首个全面支持RFT训练方法的大模型开发平台,无疑为国内企业开发者带来了福音。这一举措有望降低大模型定制开发的门槛,加速生成式AI应用在各行各业的落地。
RFT:大模型训练的新范式
传统的大模型训练往往依赖于海量的人工标注数据,成本高昂且效率低下。RFT则打破了这一瓶颈,其核心在于引入了Grader(评分器)模块。Grader能够自动比较模型输出(Response)和参考答案(Reference),并给出0-1之间的量化奖励信号。这些信号驱动模型不断优化自身的输出策略,如同一个学生在老师的指导下不断改进答案。

具体而言,RFT融合了强化学习(RL)与监督微调(SFT),主要通过以下两个关键机制实现高效训练:
- 奖励信号自动化: 引入Grader模块,该模块可以基于规则或参考答案对模型输出进行评分,自动生成量化的奖励信号,从而替代了传统方法中耗时耗力的人工偏好标注。
- 策略优化智能化: 基于PPO算法构建强化学习框架,驱动模型通过自主探索来优化输出策略,避免了传统SFT容易陷入局部最优的局限性。
千帆ModelBuilder RFT训练全流程解析:助力模型实现“思维跃迁”
为了验证RFT的实际效果,百度智能云千帆ModelBuilder进行了实测。结果表明,RFT展现出了显著的“超强增效”特性:
- 数据效率:在复杂场景下,仅需约4500条训练数据即可完成模型训练,并保证良好的模型效果。
- 泛化能力:在“好人/坏人”推理场景中,随着人物复杂度从3人递增至8人,RFT训练后的模型平均准确率相比Base模型提升了29%。
- 训练天花板:在处理复杂问题时,RFT展现出更高的训练潜力,能够达到传统方法难以企及的高度。
千帆ModelBuilder上的RFT训练三步曲
千帆ModelBuilder平台将RFT训练过程简化为三个步骤,即使是缺乏经验的开发者也能轻松上手:
Step 1: 创建RFT训练任务
在千帆ModelBuilder上,用户可以选择「模型精调」→「偏好对齐」→「RFT」,然后选择合适的Base模型,如DeepSeek-R1-Distill-Qwen-7B,并配置奖励规则。平台预置了多种规则,用于定义如何评估模型输出效果。


Step 2: 准备训练数据
用户可以使用开源数据集,如K-and-K/knights-and-knaves(约4500条数据)。平台数据配置要求数据格式包含Prompt(问题)与Response(参考答案)。

Step 3: 模型部署与效果快速评估
完成配置后,用户可以在平台上一键开启模型训练。训练完成后,可以将模型一键部署至千帆ModelBuilder。同时,平台还支持创建自动评估任务,利用ERNIE-4.0-Turbo等模型作为裁判员,并自定义评估指标,快速获取模型评估结果。
效果验证:RFT“超强增效”——训练后的模型回答准确率大幅提升,甚至超越OpenAI o1模型!
基于百度智能云千帆ModelBuilder平台,利用Base模型DeepSeek-R1-Distill-Qwen-7B和约4500条数据进行RFT训练。通过分析回答准确率和案例,可以得出以下两个关键结论:
- 准确率跃升,训练天花板更高:在2-8人复杂度递增的场景中,RFT训练后的DeepSeek-R1-Distill-Qwen-7B平均准确率提升了28%,超过了OpenAI o1模型。与经过SFT(全量更新)的模型相比,RFT在逻辑推理场景下的效果提升更为显著,展现出更高的训练潜力。
- 泛化能力增强:RFT训练前的Base模型在输出答案和思考过程中都存在明显错误,且随着题目难度增加,模型回答甚至出现语言错乱。而经过RFT训练后,模型输出的答案更加准确,思考过程也更加清晰。
