阿里通义旗下首个音频生成模型ThinkSound 已正式开源

责任编辑:王鹤迦 2025.07.07 09:04 来源:通信世界网

通信世界网消息(CWW)阿里“通义大模型”公众号发文宣布,通义实验室首个音频生成模型ThinkSound现已正式开源,将打破“静音画面”的想象力局限。

ThinkSound首次将CoT(Chain-of-Thought,思维链)应用到音频生成领域,让AI学会一步步“想清楚”画面事件与声音之间的关系,从而实现高保真、强同步的空间音频生成——不只是“看图配音”,而是真正“听懂画面”。

为了让AI学会“有逻辑地听”,通义实验室语音团队构建了首个支持链式推理的多模态音频数据集AudioCoT。

AudioCoT融合了来自VGGSound、AudioSet、AudioCaps、Freesound等多个来源的2531.8小时高质量样本。这些数据覆盖了从动物鸣叫、机械运转到环境音效等多种真实场景,为模型提供了丰富而多样化的训练基础。为了确保每条数据都能真正支撑AI的结构化推理能力,研究团队设计了一套精细化的数据筛选流程,包括多阶段自动化质量过滤和不少于5%的人工抽样校验,层层把关以保障数据集的整体质量。

在此基础上,AudioCoT还特别设计了面向交互式编辑的对象级和指令级样本,以满足ThinkSound在后续阶段对细化与编辑功能的需求。

ThinkSound由两个关键部分组成:一个擅长“思考”的多模态大语言模型(MLLM),以及一个专注于“听觉输出”的统一音频生成模型。正是这两个模块的配合,使得系统可以按照三个阶段逐步解析画面内容,并最终生成精准对位的音频效果——从理解整体画面,到聚焦具体物体,再到响应用户指令。

据官方介绍,近年来,尽管端到端视频到音频(V2A)生成技术取得了显著进展,但仍难以真正捕捉画面中的动态细节和空间关系。像猫头鹰何时鸣叫、何时起飞,树枝晃动时是否伴随摩擦声等视觉-声学关联,往往被忽视,导致生成的音频过于通用,甚至与关键视觉事件错位,难以满足专业创意场景中对时序和语义连贯性的严格要求。

这背后的核心问题在于:AI缺乏对画面事件的结构化理解,无法像人类音效师那样,一步步分析、推理、再合成声音。

年1月至5月,国内外科技企业围绕基础大模型展开密集技术布局,多模态大模型的持续突破推动生成式AI从技术创新阶段向产业重塑阶段加速演进。


通信世界网版权及免责声明:
1、凡本网注明“来源:通信世界全媒体”及标有原创的所有作品,版权均属于通信世界网。未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。
2、凡本网注明“来源:XXX(非通信世界网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的,请在相关作品刊发之日起30日内进行。
发表评论请先登录
...
热点文章
    暂无内容