DeepSeek启示:中兴通讯Curr-ReFT重塑小尺寸VLM模型能力

责任编辑:包建羽 2025.05.22 10:53 来源:通信世界网

通信世界网消息(CWW)随着大模型技术的飞速发展,多模态智能(即同时理解图像和文字的AI)也迎来了突破。然而,性能表现优异的视觉-语言模型(Vision-Language Models,VLMs),尤其是推理能力强劲的VLMs,普遍存在参数膨胀的问题,中兴通讯受到DeepSeek R1-Zero的启发,推出了Curr-ReFT (Curriculum Reinforcement Fine-Tuning)训练范式,为轻量化的VLMs训练成为推理模型带来了优秀的训练思路。

从启示到创新:Curr-ReFT的诞生

DeepSeek R1-Zero通过“组相对策略优化(Group Relative Policy Optimization, GRPO)”显著提升了大语言模型在复杂推理任务中的表现,展示了模型基于相对响应自我改进的潜力。中兴通讯深度借鉴其理念,结合多模态任务需求,提出了面向小模型后训练优化的Curr-ReFT范式。

Curr-ReFT训练范式从复现R1-Zero在多模态数学数据上的训练起步,发现基础能力提升有限。为解决这一瓶颈,中兴通讯大胆创新,将原本依赖有监督微调的训练流程,全面转向以强化学习为核心的方式,实现在计算机视觉(CV)、多模态任务中的全流程重塑,有效突破“Superficial Pattern Matching(表面模式匹配)”问题。

进一步针对轻量VLM在能力提升上遭遇“Brick Wall(瓶颈墙)”的难题,Curr-ReFT引入“课程式强化学习”策略,通过由易到难、循序渐进的三阶段任务设计,帮助模型逐步激发推理潜能。同时,结合基于拒绝采样的高质量微调机制,实现对模型能力的持续优化。

Curr-ReFT训练范式:重塑轻量化VLM训练的两大核心技术

1. 课程强化学习——循序渐进,攻克难题

Curr-ReFT借鉴了课堂教学中 “由易到难”的教学理念,将复杂任务拆分为三个阶段,逐步提升模型的能力:

第一阶段:二元决策学习,视觉启蒙

模型从最简单的任务入手,仅需回答“是”或“否”,快速建立基础的视觉理解和简单推理能力。例如,AI模型能够判断“这是苹果吗?”

第二阶段:多项选择学习,认知跃迁

随后模型进入选择题阶段,需要从多个选项中挑选正确答案,这一阶段既考验决策能力,也帮助模型学会分辨细节。通过锻炼观察力和细节分析,AI模型升级到会分析“水果里哪个最大?“

第三阶段:开放式回答,思维觉醒

最终,模型将面对开放性问题,需要根据图像和文字信息自由作答。这时,模型的综合推理能力得到充分锻炼,最终能描述"这幅画讲的是什么故事"。

这一层层递进的奖励机制确保了模型能够稳步提升,逐步适应越来越复杂的任务,而不会因为过早接触难题而出现训练不稳定的情况。

2. 拒绝样本自我改进——精挑细选,持续自我优化
为了在提升复杂推理能力的同时不损失模型的基本语言技能,中兴通讯还采用了基于拒绝采样的自我改进机制。

●首先,我们利用先进的GPT-4-O作为奖励模型,对模型生成的回答进行全方位评分(包括准确性、逻辑性、格式和流畅度),只有评分超过85分的回答才被挑选出来。

●接着,这些高质量样本组成一个精编数据集, 这些高分答案成为模型自我学习的参考,通过不断修正错误、优化表现,模型能力持续提升。

这种方法确保模型在不断进步的同时,始终保持扎实的基础能力,避免了因过拟合某些简单任务而影响整体表现。

Curr-ReFT实战验证:小模型,大能量

为了全面评估Curr-ReFT后训练方法的效果,我们选取了Qwen2.5-VL-3B和Qwen2.5-VL-7B两个基础模型进行验证。实验结果显示,Curr-ReFT在这两个模型上的表现均显著超越了原有基线,甚至在多个公开基准测试中超越了更大规模的26B(InternVL-26B)和32B(Llava-Next-32B)模型。

image.png

推理能力跃升:Curr-ReFT-3B模型在AI2D数学推理测试中准确率达83%,相比原模型的74%提升显著,甚至超越了多项任务中26B(InternVL-26B)和32B(Llava-Next-32B)的大模型表现。

● 泛化能力增强:在Qwen2.5-VL-7B基础上,Curr-ReFT进一步带来性能跃迁。视觉检测准确率从89.8%提升至92.2%,分类任务准确率从71.5%提升至73.1%。在关键基准测试中也取得显著突破(MMVet从29.95%提升至36.78%,MathVista从58.6%提升至92.2%)。

这一系列数据充分证明,Curr-ReFT不仅适配小模型、低算力场景,更具备跨模型、跨任务的通用适应能力。

技术价值全面释放:小模型,大场景

中兴通讯自主研发的Curr-ReFT训练范式,凭借其核心优势,为小型视觉语言模型在各类视觉文本任务中提供了坚实保障,具体亮点包括:

领先技术:中兴通讯自主研发的Curr-ReFT训练范式,使小型VLMs在各类视觉文本任务中展现出卓越的推理和泛化能力。

● 高效易用:该技术采用通俗易懂的分阶段训练和拒绝采样策略,即使在资源有限的环境下,也能实现稳定、快速的模型优化。

广泛应用场景:无论是智能终端、边缘计算平台还是智算中心,中兴通讯的这项创新均能为客户提供高效、低成本的VLMs解决方案。

携手创新,智绘未来

中兴通讯始终致力于前沿技术的持续探索与突破,将Curr-ReFT这一创新训练范式深度集成至AIS训推平台,不仅大幅简化了轻量化VLM的训练流程,更显著提升了小模型的推理与泛化能力。未来,中兴通讯将携手生态伙伴,共同拓展视觉语言智能的新边界,赋能千行百业迈向更高效、更普惠的智能新时代。

通信世界网版权及免责声明:
1、凡本网注明“来源:通信世界全媒体”及标有原创的所有作品,版权均属于通信世界网。未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。
2、凡本网注明“来源:XXX(非通信世界网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的,请在相关作品刊发之日起30日内进行。
发表评论请先登录
...
热点文章
    暂无内容