带伤训练

人工智能

多模态大模型“带伤训练”：SFT后别急着接RL

当前多模态大模型的后训练流程，几乎被“先SFT（有监督微调），再RL（强化学习）”这一范式统治。从DeepSeek到Qwen，从GRPO到DAPO，团队们拼命优化RL算法的稳定性、…

2026年 5月 17日