国内首个!千帆ModelBuilder支持RFT,模型轻松实现“思维跃迁”,效果超越OpenAI o1!

在生成式AI蓬勃发展的当下,如何更高效、更低成本地训练出满足特定场景需求的大模型,成为众多企业开发者关注的焦点。近日,OpenAI所提出的RFT(Reinforcement-based Fine-Tuning,基于强化学习的微调)技术,因其能以更少量的数据显著提升模型性能而备受瞩目。RFT的核心在于结合强化学习和监督微调,让AI在少量专业数据中自主学习并达到专家水平。

2月28日,百度智能云千帆ModelBuilder宣布成为国内首个全面支持RFT训练方法的大模型开发平台,无疑为国内企业开发者带来了福音。这一举措有望降低大模型定制开发的门槛,加速生成式AI应用在各行各业的落地。

RFT:大模型训练的新范式

传统的大模型训练往往依赖于海量的人工标注数据,成本高昂且效率低下。RFT则打破了这一瓶颈,其核心在于引入了Grader(评分器)模块。Grader能够自动比较模型输出(Response)和参考答案(Reference),并给出0-1之间的量化奖励信号。这些信号驱动模型不断优化自身的输出策略,如同一个学生在老师的指导下不断改进答案。

图片1.jpg

具体而言,RFT融合了强化学习(RL)监督微调(SFT),主要通过以下两个关键机制实现高效训练:

  1. 奖励信号自动化: 引入Grader模块,该模块可以基于规则或参考答案对模型输出进行评分,自动生成量化的奖励信号,从而替代了传统方法中耗时耗力的人工偏好标注。
  2. 策略优化智能化: 基于PPO算法构建强化学习框架,驱动模型通过自主探索来优化输出策略,避免了传统SFT容易陷入局部最优的局限性。

千帆ModelBuilder RFT训练全流程解析:助力模型实现“思维跃迁”

为了验证RFT的实际效果,百度智能云千帆ModelBuilder进行了实测。结果表明,RFT展现出了显著的“超强增效”特性:

  • 数据效率:在复杂场景下,仅需约4500条训练数据即可完成模型训练,并保证良好的模型效果。
  • 泛化能力:在“好人/坏人”推理场景中,随着人物复杂度从3人递增至8人,RFT训练后的模型平均准确率相比Base模型提升了29%。
  • 训练天花板:在处理复杂问题时,RFT展现出更高的训练潜力,能够达到传统方法难以企及的高度。

千帆ModelBuilder上的RFT训练三步曲

千帆ModelBuilder平台将RFT训练过程简化为三个步骤,即使是缺乏经验的开发者也能轻松上手:

Step 1: 创建RFT训练任务

在千帆ModelBuilder上,用户可以选择「模型精调」→「偏好对齐」→「RFT」,然后选择合适的Base模型,如DeepSeek-R1-Distill-Qwen-7B,并配置奖励规则。平台预置了多种规则,用于定义如何评估模型输出效果。

图片2.jpg

图片3.jpg

Step 2: 准备训练数据

用户可以使用开源数据集,如K-and-K/knights-and-knaves(约4500条数据)。平台数据配置要求数据格式包含Prompt(问题)与Response(参考答案)。

图片4.jpg

Step 3: 模型部署与效果快速评估

完成配置后,用户可以在平台上一键开启模型训练。训练完成后,可以将模型一键部署至千帆ModelBuilder。同时,平台还支持创建自动评估任务,利用ERNIE-4.0-Turbo等模型作为裁判员,并自定义评估指标,快速获取模型评估结果。

效果验证:RFT“超强增效”——训练后的模型回答准确率大幅提升,甚至超越OpenAI o1模型!

基于百度智能云千帆ModelBuilder平台,利用Base模型DeepSeek-R1-Distill-Qwen-7B和约4500条数据进行RFT训练。通过分析回答准确率和案例,可以得出以下两个关键结论:

  • 准确率跃升,训练天花板更高:在2-8人复杂度递增的场景中,RFT训练后的DeepSeek-R1-Distill-Qwen-7B平均准确率提升了28%,超过了OpenAI o1模型。与经过SFT(全量更新)的模型相比,RFT在逻辑推理场景下的效果提升更为显著,展现出更高的训练潜力。
  • 泛化能力增强:RFT训练前的Base模型在输出答案和思考过程中都存在明显错误,且随着题目难度增加,模型回答甚至出现语言错乱。而经过RFT训练后,模型输出的答案更加准确,思考过程也更加清晰。

图片5.jpg
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,可联系本站进行审核删除。
(0)
AI快讯网编辑-青青AI快讯网编辑-青青
上一篇 2025年 3月 14日 下午1:40
下一篇 2025年 3月 14日 下午2:55

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

zh_CNChinese
欢迎来到AI快讯网,开启AI资讯新时代!