通义 07月08日 14:12

ThinkSound：你的专业音效师

通义实验室开源音频生成模型ThinkSound，打破“静音画面”的想象力局限。该模型将CoT思维链首次应用于音频生成领域，通过结构化推理实现高保真、强同步的空间音频生成，解决传统方法难以捕捉画面动态细节和空间关系的问题。ThinkSound利用AudioCoT数据集，融合多来源高质量样本，并设计对象级和指令级样本，支持交互式编辑。模型分为多模态大语言模型和统一音频生成模型两部分，通过三个阶段解析画面内容并生成精准音频。ThinkSound在权威测试集上表现优异，开源代码和模型，未来将拓展模型能力、数据构建和应用场景，为游戏开发、虚拟现实等沉浸式交互场景带来更丰富的声音体验。

🎤 ThinkSound是通义实验室开源的音频生成模型，首次将CoT思维链应用于音频生成领域，通过结构化推理实现高保真、强同步的空间音频生成，解决传统方法难以捕捉画面动态细节和空间关系的问题。

🔍 ThinkSound利用AudioCoT数据集进行训练，该数据集融合了来自VGGSound、AudioSet、AudioCaps、Freesound等多个来源的2531.8小时高质量样本，覆盖动物鸣叫、机械运转到环境音效等多种真实场景，为模型提供了丰富而多样化的训练基础。

🎭 ThinkSound由多模态大语言模型和统一音频生成模型两部分组成，通过三个阶段逐步解析画面内容并生成精准对位的音频效果：理解整体画面、聚焦具体物体、响应用户指令，实现了真正的交互式编辑能力。

🌐 ThinkSound在多个权威测试集上展现出显著优势，在VGGSound测试集上，核心指标相比MMAudio、V2A-Mappe、V-AURA等现有主流方法均实现了15%以上的提升，在MovieGen Audio Bench测试集上表现大幅领先Meta推出的音频生成模型MovieGenAudio。

原创通义语音团队 2025-07-04 14:39 浙江

让每一帧画面，都有专属它的声音故事

通义实验室首个音频生成模型 ThinkSound 开源，是时候打破“静音画面”的想象力局限了！

近年来，尽管端到端视频到音频（V2A）生成技术取得了显著进展，但仍难以真正捕捉画面中的动态细节和空间关系。像猫头鹰何时鸣叫、何时起飞，树枝晃动时是否伴随摩擦声等视觉-声学关联，往往被忽视，导致生成的音频过于通用，甚至与关键视觉事件错位，难以满足专业创意场景中对时序和语义连贯性的严格要求。

这背后的核心问题在于：AI 缺乏对画面事件的结构化理解，无法像人类音效师那样，一步步分析、推理、再合成声音。ThinkSound 正是为此而生，它首次将 CoT（Chain-of-Thought，思维链）应用到音频生成领域，让 AI 学会一步步“想清楚”画面事件与声音之间的关系，从而实现高保真、强同步的空间音频生成——不只是“看图配音”，而是真正“听懂画面”。

通过结构化推理，逐步分析画面内容并生成与之匹配的声音

为了让 AI 学会“有逻辑地听”，通义实验室语音团队构建了首个支持链式推理的多模态音频数据集 AudioCoT。

AudioCoT 融合了来自 VGGSound、AudioSet、AudioCaps、Freesound 等多个来源的 2531.8 小时高质量样本。这些数据覆盖了从动物鸣叫、机械运转到环境音效等多种真实场景，为模型提供了丰富而多样化的训练基础。为了确保每条数据都能真正支撑 AI 的结构化推理能力，研究团队设计了一套精细化的数据筛选流程，包括多阶段自动化质量过滤和不少于 5% 的人工抽样校验，层层把关以保障数据集的整体质量。

在此基础上，AudioCoT 还特别设计了面向交互式编辑的对象级和指令级样本，以满足 ThinkSound 在后续阶段对细化与编辑功能的需求。

对象级样本

通过 Grounded SAM-2 检测并跟踪视频中的声源区域（如猫头鹰、车门、脚步等），再经由 VideoLLaMA2 对每个 ROI（Region of Interest）进行语义描述，并融合来自其他视频的全局 CoT 信息。最终由 GPT-4.1-nano 生成专属推理链，例如：“提取猫头鹰鸣叫，避免引入风声 → 在起飞瞬间加入轻微振翅声”。

指令级样本

针对用户可能提出的自然语言指令，如“在鸟鸣后添加树叶沙沙声”或“移除背景噪声并延长雨滴声”，系统同样通过 GPT-4.1-nano 将指令与原始 CoT 链进行融合，输出一系列操作步骤，并配以相应的输入输出音频样本，形成了三元组训练数据。

ThinkSound 音频生成模型的工作流

这一设计不仅让模型在统一架构下完成生成、细化与编辑等多种任务，也为系统提供了面向交互的实时响应能力，为 ThinkSound 实现高保真、可交互的音频合成奠定了坚实基础。

ThinkSound 由两个关键部分组成：一个擅长“思考”的多模态大语言模型（MLLM），以及一个专注于“听觉输出”的统一音频生成模型。正是这两个模块的配合，使得系统可以按照三个阶段逐步解析画面内容，并最终生成精准对位的音频效果——从理解整体画面，到聚焦具体物体，再到响应用户指令。

下图展示了 ThinkSound 的完整技术架构，包括多模态大语言模型和基于流匹配的统一音频生成模型的工作流程。

ThinkSound 技术架构图

第一阶段：理解整体画面

系统会对整段视频进行全面分析，提取画面中的运动动态（如猫头鹰振翅瞬间）与场景语义（如夜林环境），并结合 Qwen2-Audio 生成的初步音频描述，最终由 GPT-4.1-nano 输出结构化的 Chain-of-Thought（CoT）推理链。这一过程确保了 AI 能够捕捉事件识别、属性推断与因果顺序，为后续合成提供精确的时空对齐能力。

例如，面对一段烟花表演的画面，系统会识别出：“烟花被点燃 → 爆裂声响起 → 舞台回响增强”这样的完整逻辑链条。

第二阶段：聚焦具体物体

系统的推理指导开始从“全局”转向“局部”，通过 Grounded SAM-2 检测并跟踪每帧中可能的声源区域（ROI），例如猫头鹰、车门或脚步，再结合 VideoLLaMA2 提供的语义细化描述与全局 CoT 信息，生成更精细的专属推理指令。

例如：“提取猫头鹰鸣叫，避免引入风声 → 在起飞瞬间加入轻微振翅声”。

第三阶段：响应用户指令

在这一阶段，系统实现了真正的交互式编辑能力。当用户输入自然语言指令时，系统会将这些指令与已有的 CoT 推理链融合，由 GPT-4.1-nano 输出具体的编辑步骤，并结合对应的输入输出音频样本，形成可用于训练的三元组数据。这一机制不仅提升了模型在多样化场景下的泛化能力，也让 ThinkSound 成为首个支持交互式音频编辑的多模态音频生成模型。

例如：“在鸟鸣后添加树叶沙沙声”或“移除背景噪声并延长雨滴声”。

ThinkSound 在多个权威测试集上展现出显著优势。

在开源的 VGGSound 测试集上，ThinkSound的核心指标相比 MMAudio、V2A-Mappe、V-AURA 等现有主流方法均实现了 15% 以上的提升。例如，在 openl3 空间中 Fréchet 距离（FD）上，ThinkSound 相比 MMAudio 的 43.26 降至 34.56（越低越好），接近真实音频分布的相似度提高了 20% 以上；在代表模型对声音事件类别和特征判别精准度的KLPaSST 和 KLPaNNs两项指标上分别取得了 1.52 和 1.32 的成绩，均为同类模型最佳。