再突破！腾讯“混元”AI大模型登顶视觉常识推理VCR榜单

责任编辑：包建羽 2022.05.31 10:02 来源：通信世界全媒体

腾讯

"混元"AI大模型

人工智能

VCR

通信世界网消息（CWW）5月31日，腾讯"混元"AI大模型在多模态理解领域国际权威榜单VCR（视觉常识推理，Visual Commonsense Reasoning）中登顶，两个单项成绩和总成绩均位列第一。

据了解，这是继在跨模态检索领域大满贯、CLUE自然语言理解分类榜及CLUE总榜登顶后，"混元"AI大模型的又一重大突破，展现了其在多模态理解领域的强大实力。

与跨模态理解任务不同的是，多模态理解任务要求计算机除了做到识别层次的感知（如分类检测等），还需要达到认知层次的感知（如判断意图、逻辑推理等），具备和人类一样的思考能力。

视觉常识推理VCR（Visual Commonsense Reasoning）作为多模态理解核心任务之一，由华盛顿大学等研究机构于 2018 年发起，自举办以来吸引了众多知名高校、企业和研究机构参加，已成为国际上最权威的多模态理解领域榜单。

此次登顶VCR榜首的“混元”AI大模型由腾讯广告多媒体AI团队自主研发，同时借助腾讯太极机器学习平台的GPU算力和训练加速框架，该模型在预训练任务、训练方式上进行了诸多的创新改进和设计，有效提升了模型性能。

训练任务方面，“混元”AI大模型基于视觉场景图预测任务（VSGP）进行细粒度的建模学习，能够获取更丰富的视觉语义信息；交互层面，“混元”采用全局+局部注意力的方式，能够在有限训练成本的情况下达到最大化的学习效率。

在训练方式上，“混元”AI大模型在预训练阶段、微调阶段增加对抗训练，提升模型的泛化性能，增强该模型在下游任务上的性能。基于此，“混元”多模态理解大模型在图文跨模态检索、视觉问答等多个理解任务上都取得了明显的效果提升，并最终在VCR上登顶榜首。

截至目前，“混元”AI大模型在MSR-VTT、MSVD、CLUE、VCR等多个领域的AI权威榜单中取得第一名的成绩，并刷新多项行业历史纪录。这意味着，“混元”在自然语言理解、多模态理解、跨模态理解等领域的技术实力已经得以验证。

据悉，“混元”已应用到腾讯广告业务中的多个场景，有效提升广告推荐精准度，提升用户体验和推荐效果。未来腾讯“混元”AI大模型研发团队也将持续加强对模型的性能优化及迭代，使其发挥更大的学术价值和社会价值。

通信世界网版权及免责声明:

1、凡本网注明“来源：通信世界全媒体”及标有原创的所有作品，版权均属于通信世界网。未经允许禁止转载、摘编及镜像，违者必究。对于经过授权可以转载我方内容的单位，也必须保持转载文章、图像、音视频的完整性，并完整标注作者信息和本站来源。
2、凡本网注明“来源：XXX（非通信世界网）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的，请在相关作品刊发之日起30日内进行。

发表评论请先登录

发表评论

评价

共0条评论

...

热点文章

...

技术文章

...

会议活动