掘金 人工智能 15小时前
李沐团队开源音频模型 Higgs Audio V2,基于千万小时数据训练;生数科技发布长时文生音频系统 FreeAudio丨日报
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本期 RTE 开发者日报聚焦了多项前沿技术和创新产品。阿里开源的 FantasyPortrait 框架在多角色动画生成方面取得突破,能够实现高保真且情感丰富的表现。Boson AI 推出的 Higgs Audio V2 模型在音频数据训练和语音任务处理上表现出色,超越了多项基准测试。清华大学与生数科技合作的 FreeAudio 系统,则实现了基于免训练方法的精准时间可控长时文生音频。谷歌 Gemini 2.5 升级了对话指令驱动的智能图像分割功能,提升了图像处理的灵活性。在产品方面,浏览器端音乐创作工具 MusicGPT 提供原创且版权安全的音乐生成体验;Checklist Genie 利用 AI 简化了待办清单的创建和管理;XREAL One Pro 智能 AR 眼镜则在外观、性能和用户体验上进行了全面升级。此外,OpenAI 公布了 ChatGPT 惊人的日均提示词量,而“AI 教父”Geoffrey Hinton 对模型推理的误解和 AI 的生存性风险进行了深入探讨。

🌟 **FantasyPortrait 框架创新驱动多角色动画生成**:阿里巴巴与北京邮电大学联合发布的 FantasyPortrait 框架,基于扩散变换器(DIT)技术,能够为单角色和多角色场景生成高保真、情感丰富的动画。该框架通过隐式面部表示学习细粒度表情特征,显著提升了对嘴部动作和情感表达的建模能力,并采用掩码式交叉注意机制实现多角色独立控制与协同生成,支持使用多个视频驱动多个角色,同时也能为不同艺术风格的角色生成动画。

🔊 **Higgs Audio V2 赋能高级音频生成**:Boson AI 开源的 Higgs Audio V2 模型,在超过 1000 万小时的音频数据上进行预训练,展现出强大的语言与声学理解能力。该模型在 EmergentTTS-Eval 等基准测试中表现优异,超越了 GPT-4o-mini-tts,并支持多种语言的自然多说话人对话、自动韵律调整、克隆声音旋律哼唱以及语音与背景音乐同步生成,V2 版本更将音频质量提升至 24kHz。

⏱️ **FreeAudio 实现精准时间可控的长时音频合成**:清华大学和生数科技提出的 FreeAudio 系统,利用 LLM 的 Chain-of-Thought 能力,通过免训练方法实现基于自然语言文本与时间提示的长时音频生成。该系统能够将文本与时间提示解析为一系列时间窗口,并为每个窗口生成适配的自然语言描述,从而实现精确的时间控制和上下文融合,解决音效版权风险和制作成本问题,并支持多音轨秒级对齐。

🖼️ **Gemini 2.5 升级对话式智能图像分割**:谷歌 Gemini 2.5 现已支持对话式语义图像分割功能,突破了传统图像分割仅识别固定类别的限制。它能理解复杂语义指令,如关系查询、基于逻辑的指令和抽象概念,并能通过内置文本识别功能识别图像元素。该功能支持多语言提示,将在图像编辑、工作场所安全、保险等领域有广泛应用,并可通过 Gemini API 便捷访问。

🎶 **MusicGPT 打造浏览器端原创音乐创作体验**:MusicGPT 是一款完全基于生成式 AI 驱动的浏览器端音乐创作工具,用户无需担心版权问题即可轻松创作、混音和制作音乐。该产品提供多种音乐氛围选择,支持歌词输入和自定义混音效果,并能即时生成和导出完整的音乐曲目,其功能和工具比竞品更为强大。

📝 **Checklist Genie 简化任务清单管理**:Checklist Genie 是一款利用 AI 技术,通过语音或照片快速生成并分享待办清单的工具,旨在极简化用户创建和管理任务列表的流程。它解决了传统清单制作繁琐耗时的问题,支持智能追踪多周期的日程安排,并具备简洁高效的分享机制,通过集成 AI 自动识别和转换信息能力,显著提升了使用效率。

🕶️ **XREAL One Pro 智能 AR 眼镜带来沉浸式体验**:XREAL 最新款智能 AR 眼镜 XREAL One Pro 上架,搭载全新 X-Prism 光机,外观更小更薄更贴脸。其内置的“X1”空间芯片提升了视场角和显示面积,并提供云台模式和悬停模式。眼镜支持 1200 万像素摄像头进行拍照录像,并可实现 6DoF 悬停,同时配备 Bose 联合调教的音响系统,提供环绕声体验,并支持三档电致变色和自动通透模式,带来更沉浸的视听体验。

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@赵怡岭、@鲍勃

01有话题的技术

1、阿里开源 FantasyPortrait 框架:支持多角色同步演绎,可无缝扩展为音频驱动框架

FantasyPortrait 是一个基于扩散变换器(DIT)的框架,由阿里巴巴高德地图团队与北京邮电大学联合发布。它能够为单角色和多角色场景生成高保真且情感丰富的动画。

FantasyPortrait 摒弃显式几何先验,系统通过隐式面部表示学习细粒度表情特征,显著提升对嘴部动作和情感表达的建模能力。驱动视频的面部动作特征被提取后,通过特征迁移融合技术生成最终动画。其独创的掩码式交叉注意机制实现多角色独立控制与协同生成,有效解决不同角色间的特征干扰问题。该设计支持使用多个单人视频或一个多人视频同时驱动多个角色。

GitHub: github.com/Fantasy-AMA…

项目官网:fantasy-amap.github.io/fantasy-por… (@AIGitHub)

2、开源音频模型 Higgs Audio V2,基于 1000 万小时音频数据训练

Boson AI 正式开源其强大的音频基础模型 Higgs Audio V2。这款模型在超过 1000 万小时的音频数据和多样化文本数据上进行预训练,展现出深厚的语言与声学理解能力。除了一些常规语音任务外,模型支持生成多种语言的自然多说话人对话、叙述过程中自动调整韵律、使用克隆声音进行旋律哼唱以及语音与背景音乐同步生成。

性能亮点:

功能亮点:

Higgs Audio V2 在超过 1000 万小时音频数据上的训练,确保了更佳的音频质量和更逼真的声音。其模型训练依赖于复杂的处理和标注流程,实现了训练数据的自动化生成。

相关链接:www.boson.ai/blog/higgs-…

模型代码:github.com/boson-ai/hi…

3、长时文生音频系统 FreeAudio:基于免训练方法精准控制生成时长

清华大学和生数科技最新科研成果提出了一种基于免训练方法的精准时间可控长时文生音频系统 FreeAudio,可基于自然语言文本与时间提示实现精确的时间控制与长时音频生成,例如 0-10 秒,森林风吹;0-4 秒,鸟儿鸣叫;4-6 秒,木头燃烧;6-16 秒,动物踩在干树叶上的脚步声;10-16 秒,蟋蟀鸣叫;16-19 秒,猫头鹰鸣叫;17-26 秒,溪水流淌

该方法利用 LLM 对时间结构进行规划,将文本与时间提示解析为一系列互不重叠的时间窗口,并为每个窗口生成适配的自然语言描述。随后,FreeAudio 依次生成各时间片段的音频内容,并通过上下文融合与参考引导机制实现最终的长时音频合成。

在时间可控音频生成方面,FreeAudio 首先借助 LLM 的 Chain-of-Thought(CoT)思维链推理规划能力,将文本提示和时间提示解析为一系列不重叠的时间窗口,再将每个时间窗口对应的一组事件重述为适合 T2A 模型生成的文本提示。

FreeAudio 系统未来将在 Vidu 产品端上线。(@生数 ShengShu)

4、谷歌 Gemini 2.5 升级:对话指令驱动的智能图像分割

谷歌的 Gemini 2.5 现已支持对话式语义图像分割功能。它突破传统图像分割仅识别固定类别物体的局限,能理解复杂语义指令,像关系查询、基于逻辑的指令以及抽象概念等,并通过内置文本识别功能识别图像元素。

该功能支持多语言提示,可在图像编辑、工作场所安全、保险等多领域广泛应用,开发者能通过 Gemini API 便捷访问。

官方博客:developers.googleblog.com/en/conversa… (@三花 AI、@喜爱谱 CAIP)

02有亮点的产品

1、浏览器端音乐创作工具 MusicGPT:支持选择多种音乐氛围和自定义混音效果

MusicGPT 是一款创新的浏览器端音乐创作工具,致力于让用户轻松实现歌曲创作、混音与制作。这款产品完全基于下一代生成式 AI 驱动,确保用户创作的音乐 100% 原创且版权安全,无需担心盗用样本或付费插件的问题。

产品亮点:

体验链接: musicgpt.com(@Kawsar_Ai@X)

2、Checklist Genie:利用语音或图片自动生成可操作的清单

Checklist Genie 是一款利用 AI 技术,通过语音或照片快速生成并分享待办清单的工具,核心价值在于极简化用户创建和管理任务列表的流程。目标用户主要为需要高效管理日常任务和例行事务的个人及职场人士,尤其重视便捷性和智能化体验。该产品解决了传统清单制作繁琐、耗时的问题,满足用户即时捕捉灵感和快速组织任务的需求,同时具备跟踪日常、每周、每月例行事务的功能,体现出较强的市场潜力,尤其在提高个人生产力及时间管理方面具备较大机会。

功能上,Checklist Genie 亮点包括利用语音或图片自动生成可操作的清单,智能追踪多周期的日程安排,以及简洁高效的分享机制。

相比传统清单工具,其差异化优势在于集成了 AI 自动识别和转换信息的能力,减少手动输入,提高使用效率。

网站链接:checklistgenie.app(@Z Potentials、@Product Hunt)

3、XREAL One Pro 智能 AR 眼镜上架

日前,XREAL 正式推出了最新款智能 AR 眼镜 XREAL One Pro,首发价格为 4299 元。

外观方面,对比上一代的 XREAL Air 2 系列,XREAL One Pro 搭载了全新设计的 X-Prism 光机,镜片和镜框都要更小更薄,也更贴脸,戴在头上也要更像一副普通的太阳镜。

延续了先前 XREAL One 上的自研「X1」空间芯片,XREAL One Pro 机身配备了一个小系统,视场角从 50° 提升至 57°,显示面积提升 38%。并且,由于自带空间计算能力,XREAL One Pro 眼镜本体提供了不同的空间屏模式:云台模式和悬停模式。

鼻托的部分支持摄像头组件的插拔,让眼镜拥有 1200 万像素的摄像头,能拍照片也能拍视频,还能进一步让眼镜支持 6DoF 的悬停,将现实的画面定在一个地方,用户可以走近画面仔细观察。

XREAL One Pro 还支持三档电致变色,可以调暗 AR 虚拟屏幕以外的环境,更有沉浸感。而开启自动通透模式后,将头朝向屏幕之外的地方,能够自动恢复镜片透明度。

听音方面,XREAL One Pro 配备了和 Bose 联合调教的音响系统,通过眼镜的镜柄实现环绕声,一站式解决视听体验,不用额外的耳机。(@APPSO)

03有态度的观点

1、OpenAI:ChatGPT 平均每天收到 25 亿条提示词

7 月 22 日,据 Axios 报道,OpenAI 透露表示,ChatGPT 平均每天要收到用户发送的 25 亿条提示词,而其中约有 3.3 亿条来自美国用户。

作为对比,Google 母公司 Alphabet 虽没有公开每日数据,但据 Axios 援引消息显示,Google 每年接收到 5 万亿次的查询,每天平均约有 140 亿次搜索,而 OpenAI 使用频率已经逼近 Google 搜索量的五分之一。 值得一提的是,去年 OpenAI CEO Sam Altman 曾表示,用户平均每天向 ChatGPT 发送超 10 亿条提示词,而如今该数据已翻倍。(@APPSO)

2、AI 教父:我们误解了模型推理的不够好

日前,被誉为「AI 教父」的图灵奖得主 Geoffrey Hinton 与 AI 创企 Cohere 联合创始人 Nick Frosst 进行了一次炉边对话,两人围绕 AI 与人类的关系进行了一次深入探讨。

交流中,Hinton 指出人们对模型推理的误解:模型推理错误时,自然会觉得它根本不理解。而 Hinton 认为,模型就如同有学习障碍的人一样——在基础推理上能够答对,复杂问题上可能做得不好。

同时 Hinton 也表示,模型推理在面对复杂问题时会出错,本质上是很多瓶颈限制而导致的的,并且这些瓶颈并非与 AI 本身直接相关:可能是隐私问题,也可能是部署问题,或它所接入的数据问题。

而在 Frosst 看来,AI 的运作机制与人类的思维方式也有很大区别。「尽管 AI 非常有用,但它们的工作原理和人类思维的机制仍有很大差距。」但 Frosst 将 AI 与人脑的工作机制比作飞机与鸟类的飞行方式——路径不同,但效果相似。

另外,Hinton 也在交流中详细分析了 AI 在未来的发展趋势。其指出,「我们每个人都会有非常聪明的 AI 助手,它们知道很多关于我们的事情,我们也不再需要传统的助理。」而这一方向也会引发人类的「生存性风险」。

对此,Hinton 也指出,这一「生存性风险」指的是 AI 接管整个世界,同时,短期的风险同样致命——包括 AI 被用来干预选举、监控人类、帮助研发自动化致命武器或生物武器,甚至发动新形式的网络攻击等。(@APPSO)

更多 Voice Agent 学习笔记:

GPT-4o 之后,Voice 从 Assistant 到 Agent,新机会藏在哪些场景里?|Voice Agent 学习笔记

对话 Wispr Flow 创始人 Tanay:语音输入,如何创造极致的 Voice AI 产品体验

Notion 创始人 Ivan Zhao:传统软件开发是造桥,AI 开发更像酿酒,提供环境让 AI 自行发展

ElevenLabs 语音智能体提示词指南 —— 解锁 AI 语音交互的「灵魂秘籍」丨 Voice Agent 学习笔记

11Labs 增长负责人分享:企业级市场将从消费级或开发者切入丨Voice Agent 学习笔记

实时多模态如何重塑未来交互?我们邀请 Gemini 解锁了 39 个实时互动新可能丨Voice Agent 学习笔记

级联vs端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?

视频丨Google 最新 AI 眼镜原型曝光:轻量 XR+情境感知 AI 打造下一代计算平台

a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场

a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

RTE AI FantasyPortrait Higgs Audio V2 FreeAudio Gemini 2.5 MusicGPT Checklist Genie XREAL One Pro OpenAI Geoffrey Hinton
相关文章