我爱计算机视觉 17小时前
一文看尽字节跳动2025重磅AI开源成果:从图像生成到智能体系统
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文系统梳理了字节跳动2025年开源的23项AI技术成果,涵盖图形界面智能体、多模态生成、视频理解、图像编辑等多个前沿领域。这些项目在学术界和工业界都展现出巨大的潜力,开源社区总星标数超5万,彰显了字节跳动在人工智能领域的实力和对社区的贡献。

🤖 UI-TARS-desktop: 一款原生图形界面智能体模型,仅通过感知屏幕截图执行类人操作,在多项GUI智能体基准任务中超越了现有框架,例如在OSWorld基准中,UI-TARS在50步和15步条件下分别获得24.6和22.7分,超过了Claude的22.0和14.9。

🗣️ MegaTTS3: 轻量高效的文本转语音模型,支持中英双语及混合,提供超高质量语音克隆,并支持口音强度调节。该模型仅有4.5亿参数,在Huggingface Demo上可供试用。

🖼️ InfiniteYou: 专注于身份保持图像生成的框架,通过残差连接将身份特征注入DiT主干模型,有效提升身份相似度。它采用多阶段训练策略,在多个评估指标上超越现有方法,达到了SOTA水平。

🎬 X-Dyna: 一种零样本扩散式动画生成方法,可将单张人物图像根据驱动视频动画化,生成逼真且具有上下文感知的动态效果。其核心组件Dynamics-Adapter能够将参考图像的外观上下文注入扩散模型主干的空间注意力机制中。

📝 Vidi: 用于多种视频理解与编辑任务的大型多模态模型,首个版本专注于时间片段检索任务。Vidi在时间片段检索任务中显著超越了当前主流的商业模型,例如GPT-4o和Gemini。

CV君 2025-06-21 13:16 江苏




关注公众号,发现CV技术之美




本文系统梳理了字节跳动2025年开源的23项AI技术成果,涵盖图形界面智能体、多模态生成、视频理解、图像编辑等前沿领域。从刷新10项SOTA的UI-TARS桌面操作模型,到支持中英混合克隆的MegaTTS3语音系统,再到突破身份保持生成的InfiniteYou框架,这些项目不仅在学术论文和顶级会议(如CVPR/ACL 2025)中表现亮眼,更以轻量化设计、高效训练策略和社区友好特性著称。开源社区总星标数超5万,展现了工业界研究的前沿突破与落地潜力。


1.UI-TARS-desktop

UI-TARS,一款原生图形界面智能体(GUI agent)模型,仅通过感知屏幕截图来执行类人操作(如键盘输入和鼠标点击)。不同于依赖专家构造的提示词和流程、使用高度封装商用模型(如 GPT-4o)的主流智能体框架,UI-TARS 是一个端到端模型,在多个任务上表现出色,超越了这些复杂框架。

实验表明,UI-TARS 在超过 10 项 GUI 智能体基准任务中实现了感知、定位与任务执行的 SOTA(当前最佳)性能。具体表现如下:

    在 OSWorld 基准中,UI-TARS 在 50 步和 15 步条件下分别获得 24.6 和 22.7 分,超过 Claude 的 22.0 和 14.9;

    在 AndroidWorld 中,UI-TARS 得分 46.6,远超 GPT-4o 的 34.5。

UI-TARS 包含以下几项关键创新:

    增强感知能力:利用大规模 GUI 截图数据集实现对 UI 元素的上下文感知理解与精准描述;

    统一动作建模:将多平台的交互操作标准化为统一动作空间,并借助大规模动作轨迹实现准确定位与操作;

    系统二级推理(System-2 Reasoning):在多步决策中引入任务分解、反思性思考、关键节点识别等多种推理模式,实现更具计划性的智能行为;

    反思式在线轨迹迭代训练:通过在数百台虚拟机上自动收集、筛选并反思优化交互轨迹,解决数据瓶颈问题,使模型在最少人工干预下不断学习并适应未知任务。

2025年1月23日开源
★star:14.7k


2.DeerFlow

DeerFlow(Deep Exploration and Efficient Research Flow)是一个社区驱动的深度研究框架,它建立在开源社区的杰出工作基础之上。目标是将语言模型与专业工具(如网络搜索、爬虫和 Python 代码执行)相结合,同时回馈使这一切成为可能的社区。

★star:14k


3.MegaTTS3

特点:

    轻量高效:TTS Diffusion Transformer 主干网络仅有 4.5 亿参数。

    超高质量语音克隆:可在 Huggingface Demo 试用该模型。

    双语支持:支持中文和英文,以及中英混合切换。

    可控性强:支持口音强度调节,并将在近期支持细粒度的发音与时长调整。

2025年3月22日开源
★star:5.6k


4.InfiniteYou

InfiniteYou(InfU),是最早利用 DiT 架构实现身份保持图像生成的稳健框架之一。

InfU 解决了当前方法面临的诸多问题,例如身份相似度不足、文本与图像对齐差、生成质量与美学效果较低等。该框架的核心组件是 InfuseNet,它通过残差连接将身份特征注入 DiT 主干模型中,有效提升了身份相似度的同时保持了图像生成能力。

此外,InfU 采用了多阶段训练策略,包括预训练和使用合成的单人多样本(SPMS)数据进行的监督微调(SFT),从而进一步增强了文本与图像的对齐效果、改善了图像质量,并缓解了“人脸粘贴复制”问题。

InfiniteYou 能够生成具有卓越身份相似度、文本图像对齐度、图像质量与美学效果的身份保持图像。

大量实验表明,InfU 在多个评估指标上超越现有方法,达到了当前最优性能(SOTA)。同时,InfU 的即插即用式设计确保其可以灵活兼容其他已有方法,为图像生成领域的研究与应用提供了有价值的支持与推动。

2025年3月开源
★star:2.4k


5.Dolphin

Dolphin 是一种新的多模态文档图像解析模型,采用“先分析、再解析”(analyze-then-parse)的范式。

Dolphin通过两阶段方法应对文档图像解析的挑战,其技术实现如下:

    第一阶段:进行全面的页面级布局分析,按自然阅读顺序生成文档元素序列,确保内容理解与人类阅读方式一致。

    第二阶段:利用异构锚点和任务特定提示,实现文档各类元素的高效并行解析,大幅提升解析精度与速度。

收录于ACL 2025
★star:2k


6.DreamO

DreamO通用图像定制框架,旨在支持多种图像定制任务,并实现多种控制条件的无缝集成。具体而言,DreamO 采用diffusion transformer(DiT)架构,统一处理不同类型的输入。在训练阶段,构建一个包含多种定制任务的大规模训练数据集,并引入了特征路由约束,以精确查询参考图像中的相关信息。

此外,DreamO 还设计一种占位符策略,将特定条件与生成结果中的特定位置相关联,从而实现对生成图像中元素位置的可控性。训练策略方面,DreamO 采用了三阶段的渐进式训练机制:第一阶段利用少量数据完成简单任务,建立一致性基础;第二阶段进行全面训练以增强定制能力;第三阶段进行质量对齐,纠正由低质量数据引入的偏差。

大量实验证明,DreamO 能够高质量地完成多种图像定制任务,并灵活整合不同类型的控制条件,表现出良好的通用性和可控性。

2025年5月8日开源
★star:1.5k


7.UNO

UNO,一个可从单主体定制扩展到多主体定制的通用框架。具有强大的泛化能力,能够在同一模型下统一处理多种任务。

2025年4月3日开源
★star:1.1k


8.LatentSync

LatentSync,一种基于音频条件潜空间扩散模型的端到端唇形同步方法。与以往基于像素空间扩散或两阶段生成的扩散式唇形同步方法不同,LatentSync 无需任何中间运动表示,直接在潜空间中实现音频驱动的唇动生成。

该框架能够充分利用 Stable Diffusion 的强大建模能力,直接捕捉音频与视觉之间的复杂关联,实现高质量的音唇同步效果。

2025年3月14日开源
★star:673


9.HyperLoRA

HyperLoRA,首个基于 LoRA 的零样本个性化人像生成方法,采用端到端训练方式。借助 LoRA 的优势,通过修改基础模型权重来注入身份信息,而非像基于 Adapter 的方法那样引入新的交叉注意力模块,因此表现出更强的非线性能力,从而生成更加细腻且真实的人像图像。

收录于CVPR 2025
★star:341


10.X-Dyna

X-Dyna,一种新的零样本扩散式动画生成方法,可将单张人物图像根据驱动视频中的面部表情与身体动作进行动画化,生成逼真且具有上下文感知的动态效果,涵盖人物主体及其周围环境。

相较于以往仅关注人体姿态控制的方法,X-Dyna 聚焦于动态细节缺失这一关键问题,显著提升了人像视频动画的真实感。其核心组件是 Dynamics-Adapter,这是一个轻量级模块,能够将参考图像的外观上下文有效地注入扩散模型主干的空间注意力机制中,同时保留运动模块合成流畅且精细动态细节的能力。

除了身体姿态控制,X-Dyna 还引入局部控制模块,用于提取与身份无关的面部表情特征,从而实现更精确的表情迁移,增强动画场景的真实感与表现力。

上述模块共同构成了一个统一框架,能够从多样化的人物与场景视频中学习人类物理运动与自然场景动态。

通过全面的定性与定量评估,实验结果表明 X-Dyna 在生成高度逼真、富有表现力的动画方面显著优于现有先进方法。

收录于CVPR 2025
★star:249


11.ATI

Any Trajectory Instruction(ATI) 是一种视频生成方法,可以将你在图像上绘制的任意轨迹转化为逼真的视频效果。

★star:181


12.SuperEdit

新视角:针对编辑指令与原始-编辑图像对之间不匹配导致的噪声监督问题进行了深入研究,是以往工作普遍忽视的根本性问题(如图所示)。

监督修正:利用扩散生成先验引导视觉语言模型,生成更准确对齐的编辑指令,以改善原始-编辑图像对的监督质量。

监督促进:引入基于三元组损失的对比监督,使编辑模型能够同时从正向和负向编辑指令中学习,提升模型辨别与生成能力。

优异表现:所提出方法在多个基准测试中取得显著提升,且无需额外的预训练或视觉语言模型支持。相比 SmartEdit ,在 Real-Edit 基准上实现了 9.19% 的性能提升,同时训练数据减少了 30 倍,模型参数缩小了 13 倍。

★star:133


13.Vidi

Vidi ,用于多种视频理解与编辑任务的大型多模态模型(LMMs)。首个版本专注于时间片段检索任务(temporal retrieval),即从长视频中识别与给定文本查询对应的时间区段,这是智能视频编辑中的关键能力。Vidi 具有强大的时间理解能力,能在小时级长视频中准确检索相关时间段。

为在真实场景下全面评估该能力,还发布了 VUE-TR 基准数据集,具有以下五大创新特性:

    视频时长范围广:从 20 秒到 1 小时以上,远超现有时间/片段检索数据集;

    音频查询支持:引入基于音频的时间检索任务;

    多样查询格式:支持关键词、短语与句子三种长度/格式的查询;

    高质量标注:所有时间片段均由人工精确标注,确保评估可靠性;

    优化的评估指标:采用改进版 IoU(交并比)评估多个时间片段的检索准确性。

令人瞩目的是,Vidi 在时间片段检索任务中显著超越了当前主流的商业模型(如 GPT-4o 和 Gemini),展现了其在视频编辑场景下的卓越能力。

2025年6月6日开源
★star:111


14.DreamFit

DreamFit,引入了专为服装中心人体生成设计的轻量级 Anything-Dressing Encoder。DreamFit 具有三大优势:

    轻量训练:通过自适应注意力和 LoRA 模块,DreamFit 将可训练参数量显著降低至仅 8340 万;

    Anything-Dressing:模型在多种(非)服装类型、创意风格及提示指令下均展现出惊人的泛化能力,稳定生成高质量结果;

    即插即用:DreamFit 设计兼容社区内各种扩散模型控制插件,实现无缝集成,降低使用门槛。

此外,为进一步提升生成质量,DreamFit 利用预训练的大型多模态模型(LMMs)丰富提示词中的细粒度服装描述,缩小训练与推理间的提示差距。

在高分辨率基准和真实场景图像上进行了全面实验,结果显示 DreamFit 超越现有所有方法,彰显其在服装中心人体生成领域的先进能力。

收录于AAAI2025
★star:108


15.Q-Insight

本文提出一种基于强化学习的新模型 Q-Insight,构建于群体相对策略优化(GRPO)之上,能够在仅需少量评分和退化标注的条件下,展现出强大的图像质量视觉推理能力。该方法通过奖励函数,联合优化质量评分回归与退化感知任务,充分利用两者之间的互补关系以提升整体性能。大量实验证明,Q-Insight 在质量评分回归与退化感知任务中显著优于现有先进方法,同时在对比推理任务中展现出强大的零样本泛化能力。

5月30日开源
★star:103


16.ContentV

ContentV,一个通过三大创新加速基于 DiT 的视频生成模型训练的高效框架:

    极简架构:最大限度复用预训练的图像生成模型用于视频合成;

    系统化多阶段训练策略:利用光流匹配(flow matching)提高训练效率;

    高性价比的人类反馈强化学习(RLHF)框架:在无需额外人工标注的情况下提升生成质量。

其中,8B 参数模型(基于 Stable Diffusion 3.5 Large 和 Wan-VAE)在 仅使用 256×64GB NPU 训练 4 周的情况下,在 VBench 基准测试中取得 85.14 的 SOTA(当前最优)成绩。

★star:89


17.ID-Patch

ID-Patch,实现了身份与二维空间位置之间的强关联。从同一张人脸图像中提取面部特征,生成两个关键要素:

    ID Patch:直接放置在条件图像上,用于实现精确的位置控制;

    ID Embedding:与文本嵌入融合,确保生成结果与真实身份高度相似。

实验结果表明,ID-Patch 在多个评估指标上显著优于现有基线方法,包括人脸身份相似度、身份与位置匹配准确率以及生成效率,展现出强大的多身份图像合成能力。

收录于CVPR 2025
★star:60


18.LatentUnfold

image

Latent Unfoldd 零样本主体驱动图像生成框架,基于原始的 Flux 模型,该方法将任务建模为基于网格的图像补全问题,并通过在马赛克布局中重复主体图像,实现了强大的身份保持能力——无需任何额外数据、训练或推理时微调。“free lunch”策略进一步结合了级联注意力机制和元提示技术(meta prompting),有效提升了图像的保真度与多样性。

在多个基准任务和用户偏好评估中,在多项指标上优于现有方法(尽管存在一定权衡)。该框架支持多种图像编辑操作,如Logo 插入、虚拟试衣、主体替换或插入,展现出预训练文本生成图像模型在下游定制任务中实现高质量、低资源图像生成的潜力。

★star:37


19.StyleSSP

image

StyleSSP,一种专注于优化采样起点以应对原始内容布局发生变化和风格图像内容泄漏两个问题的风格迁移方法。StyleSSP 包含两个核心模块:

    频域操控(Frequency Manipulation):为增强内容保持能力,StyleSSP 减弱了 DDIM 潜空间中的低频成分,从而使采样过程更加关注内容图像的空间布局结构;

    反向引导(Negative Guidance via Inversion):为减少风格图像内容的泄漏,StyleSSP 在反向过程引入负向引导,使采样起始点尽可能远离风格图像的语义内容,从而增强风格与内容的区分度。

实验结果表明,StyleSSP 在保持原始内容结构和抑制风格图像内容泄漏方面,显著优于现有无训练风格迁移方法,展现出更强的稳定性和通用性。

收录于CVPR 2025
★star:33


20.Hi3DGen

Hi3DGen 旨在通过法线贴图作为中间表示,从图像生成高保真的三维几何结构。该框架解决了现有方法在从二维输入重现细粒度几何细节方面的不足。

★star:14


21.EchoVideo

EchoVideo,并采用两项关键策略:

    身份图文融合模块(IITF):通过整合文本中的高层语义特征来提取干净的身份表示,有效排除遮挡、姿态和光照变化带来的干扰,避免伪影产生;

    双阶段训练策略:在第二阶段引入随机性策略,适度使用浅层面部信息。该策略在增强图像保真度的同时,防止对浅层特征的过度依赖,促使模型在训练过程中更多地利用高层语义特征,从而建立更稳健的人脸身份表征。

实验表明,EchoVideo 在保持人脸身份一致性和全身完整性方面效果显著,在视频生成的质量、可控性与保真度方面均取得了优异的表现。

2025年2月27日开源
★star:14


22.ImageRef-VL

ImageRef-VL使VLMs具备动态关联对话上下文与图像的能力,解决了传统多模态对话中图像引用缺失的问题。

★star:5


23.DiffLM

DiffLM框架,旨在通过融合真实数据分布,增强大语言模型(LLMs)生成高质量合成数据的能力。DiffLM 首先通过变分自编码器(VAE)将真实数据映射到潜在空间,再通过因果语言建模目标将这些潜在表示注入到 LLM 的解码过程中。随后,扩散过程进一步优化潜在分布,减少采样偏差。

在七个具有结构化格式的真实数据集(包括表格、代码与工具数据)上的评估表明,DiffLM 生成的数据质量极高,在某些下游任务中的表现甚至超过真实数据 2%–7%。

收录于ACL 2025
★star:2

最新 AI 进展报道
请联系:amos@52cv.net

END




欢迎加入「计算机视觉交流群👇备注:CV




阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

字节跳动 AI技术 开源 多模态 视频理解
相关文章