三花AI 04月25日 10:29
阿里开源模块化数字人对话系统;LiveCC 实时视频理解大模型,快速分析视频内容,并生成文字解说;SOTA 唇形同步模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文汇总了近期AI领域的多个重要进展。Tavus发布了先进的唇形同步模型Hummingbird-0,字节跳动开源了支持多角色视频一致性生成的Phantom模型。此外,阿里开源了模块化数字人对话系统OpenAvatarChat,OpenAI推出了免费用户可用的Deep Research轻量版,以及开源的LiveCC实时视频解说大模型。这些创新技术涵盖了视频生成、数字人交互和实时内容理解等多个方面,为AI应用带来了新的可能性。

👄Hummingbird-0:Tavus公司发布了SOTA唇形同步模型Hummingbird-0,目前在FAL平台上提供API作为研究预览使用,演示效果出色,值得期待开源。

🎭Phantom:字节跳动开源了视频角色一致性生成模型Phantom,该模型能够根据参考图像生成保持角色一致性的视频内容,并支持多角色保持,目前已适配Wan 2.1模型。

🗣️OpenAvatarChat:阿里开源了完整的模块化数字人对话系统OpenAvatarChat,可在单台PC上流畅运行,支持文本、音频、视频等多模态交互,平均响应时间仅2.2秒。

🔎Deep Research Lite:OpenAI推出了Deep Research的轻量版,由O4-mini提供支持,并向所有免费用户开放。

📺LiveCC:开源的LiveCC是基于Qwen2-VL-7B开发的实时视频理解大模型,能够像专业解说员一样快速分析视频内容,并同步生成自然流畅的语音或文字解说,适用于体育赛事直播或游戏直播等场景。

原创 小茸茸 2025-04-25 09:35 重庆

Tavus 发布 SOTA 唇形同步模型 Hummingbird-0;字节跳动开源 Phantom:支持多角色的视频一致性生成模型;OpenAI 推出 Deep Research 轻量版,免费用户也能用;开源 LiveCC实时视频解说大模型

Tavus 发布 SOTA 唇形同步模型 Hummingbird-0

Tavus 公司最新发布的 Hummingbird-0[1] 是一款 SOTA 唇形同步模型,目前仅在 FAL[2] 上提供 API 作为研究预览使用。

从官推的演示效果来看效果不错,期待开源~

Hummingbird-0 官方推文: https://x.com/heytavus/status/1915435703833641231
FAL 平台 Hummingbird-0 模型页面: https://fal.ai/models/fal-ai/tavus/hummingbird-lipsync/v0

字节跳动开源 Phantom:支持多角色的视频一致性生成模型

Phantom[3] 是字节跳动开源的一款视频角色一致性生成模型,能够根据参考图像生成保持角色一致性的视频内容,并支持多角色保持。

目前官方已适配 Wan 2.1 模型,有需要的佬们不要错过。

字节跳动 Phantom 官方页面: https://huggingface.co/bytedance-research/Phantom

阿里开源模块化数字人对话系统

阿里开源了OpenAvatarChat完整数字人系统[4]可在单台PC上流畅运行,平均响应时间仅2.2秒,支持文本、音频、视频等多模态交互。

最近有想做实时数字人的可以看看了,用了非常多的开源项目,不过效果还有提升空间,表情略显呆滞,口型同步也需要进一步优化。

OpenAvatarChat开源项目主页: https://github.com/HumanAIGC-Engineering/OpenAvatarChat/blob/main/readme_cn.md

OpenAI 推出 Deep Research 轻量版,免费用户也能用

OpenAI 的 Deep Research[5] 现已推出轻量版,由 O4-mini 提供支持,向所有免费用户开放。

OpenAI Deep Research 官方介绍: https://openai.com/index/introducing-deep-research/

开源 LiveCC:实时视频解说大模型

LiveCC[6] 是基于 Qwen2-VL-7B 开发的实时视频理解大模型,能够像专业解说员一样快速分析视频内容,并同步生成自然流畅的语音或文字解说。

特别适合需要即时反馈的场景,比如体育赛事直播时自动生成战术分析,或是游戏直播中实时解说。

LiveCC 的代码和相关资源已在 GitHub 和 Hugging Face 上公开,需要的不要错过。

LiveCC 实时视频理解官网: https://showlab.github.io/livecc/

如果你喜欢《一觉醒来 AI 界发生了什么》系列的话,请 关注点赞在看收藏分享 五连警告,这对我真的很重要


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

唇形同步 视频生成 数字人 实时解说 AI开源
相关文章