IT之家 07月04日 18:18
阿里通义开源旗下首个音频生成模型 ThinkSound:可像“专业音效师”一样思考
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

阿里通义实验室开源了首个音频生成模型ThinkSound,该模型创新性地将CoT(思维链)技术应用于音频生成领域,实现了高保真、强同步的空间音频。ThinkSound能够“听懂画面”,而非仅仅“看图配音”,它通过多模态大语言模型和统一音频生成模型的配合,逐步解析画面内容并生成精准音频。为了训练模型,研究团队构建了首个支持链式推理的多模态音频数据集AudioCoT,涵盖多种真实场景,并设计了精细化的数据筛选流程。ThinkSound的开源将推动音频生成技术的发展,弥补现有V2A技术的不足,满足专业创意场景的需求。

🔊 ThinkSound的核心在于将CoT(思维链)技术应用于音频生成,使AI能够像人类音效师一样,理解画面事件与声音之间的关系,从而实现高保真、强同步的空间音频生成。

🗂️ 为了支持ThinkSound的训练,通义实验室构建了首个支持链式推理的多模态音频数据集AudioCoT,该数据集融合了来自VGGSound、AudioSet等多个来源的2531.8小时高质量样本,覆盖了多种真实场景。

⚙️ ThinkSound由两个关键部分组成:一个擅长“思考”的多模态大语言模型(MLLM),以及一个专注于“听觉输出”的统一音频生成模型,这两个模块协同工作,可以按照三个阶段逐步解析画面内容并生成精准对位的音频效果。

IT之家 7 月 4 日消息,阿里“通义大模型”公众号今日发文宣布,通义实验室首个音频生成模型 ThinkSound 现已正式开源,将打破“静音画面”的想象力局限。

ThinkSound 首次将 CoT(Chain-of-Thought,思维链)应用到音频生成领域,让 AI 学会一步步“想清楚”画面事件与声音之间的关系,从而实现高保真、强同步的空间音频生成 —— 不只是“看图配音”,而是真正“听懂画面”。

为了让 AI 学会“有逻辑地听”,通义实验室语音团队构建了首个支持链式推理的多模态音频数据集 AudioCoT。

AudioCoT 融合了来自 VGGSound、AudioSet、AudioCaps、Freesound 等多个来源的 2531.8 小时高质量样本。这些数据覆盖了从动物鸣叫、机械运转到环境音效等多种真实场景,为模型提供了丰富而多样化的训练基础。为了确保每条数据都能真正支撑 AI 的结构化推理能力,研究团队设计了一套精细化的数据筛选流程,包括多阶段自动化质量过滤和不少于 5% 的人工抽样校验,层层把关以保障数据集的整体质量。

在此基础上,AudioCoT 还特别设计了面向交互式编辑的对象级和指令级样本,以满足 ThinkSound 在后续阶段对细化与编辑功能的需求。

ThinkSound 由两个关键部分组成:一个擅长“思考”的多模态大语言模型(MLLM),以及一个专注于“听觉输出”的统一音频生成模型。正是这两个模块的配合,使得系统可以按照三个阶段逐步解析画面内容,并最终生成精准对位的音频效果 —— 从理解整体画面,到聚焦具体物体,再到响应用户指令。

据官方介绍,近年来,尽管端到端视频到音频(V2A)生成技术取得了显著进展,但仍难以真正捕捉画面中的动态细节和空间关系。像猫头鹰何时鸣叫、何时起飞,树枝晃动时是否伴随摩擦声等视觉-声学关联,往往被忽视,导致生成的音频过于通用,甚至与关键视觉事件错位,难以满足专业创意场景中对时序和语义连贯性的严格要求。

这背后的核心问题在于:AI 缺乏对画面事件的结构化理解,无法像人类音效师那样,一步步分析、推理、再合成声音。

IT之家附开源地址:

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

通义大模型 ThinkSound 音频生成 CoT
相关文章