原创 小茸茸 2025-02-12 09:18 重庆
阿里开源 InspireMusic专为音乐生成设计AIGC工具包;FlashVideo双阶段视频生成框架,快速预览与高清增强;小红书开源FireRedASR语音识别模型;苹果放弃 DeepSeek,联手阿里巴巴合作 iPhone AI 功能
阿里开源 InspireMusic:专为音乐生成设计的 AIGC 工具包
InspireMusic[1] 是阿里专为音乐、歌曲和音频生成而设计的 AIGC 工具包。
它支持通过文字描述和音乐特征精确控制生成的音乐风格和结构,并支持生成音乐、歌曲及其他音频内容。
目前模型已经开源,佬友们可以在线使用[2]感受下,不过目前仅支持纯音乐生成,无法像 Suno 那样生成带人声的歌曲。
FlashVideo:双阶段视频生成框架,快速预览与高清增强
FlashVideo[3] 是一个创新的双阶段视频生成框架,它将视频生成过程分为预览阶段和质量增强阶段。
在预览阶段,用户可以以极低的成本和极快的速度预览视频,这大大减少了等待时间并显著提升了商业应用的可行性。这一阶段类似于前端优化的 LQIP(Low Quality Image Placeholders),为用户提供了快速反馈的机制。
在质量增强阶段,FlashVideo 能够将 270P 的低分辨率视频提升至 1080P 的高清画质,确保最终输出的视频质量。
目前,FlashVideo 的代码已经开源。
小红书开源 FireRedASR:支持普通话、方言和英文的语音识别模型
FireRedASR[4] 是小红书开源的语音识别模型,支持识别普通话、方言和英文。它分为两个版本:
FireRedASR-LLM:效果最佳,普通话识别开源领先,利用 LLM 处理语音数据。
FireRedASR-AED:采用 AED 架构,兼顾效率和效果。
简单来说,FireRedASR 提供了两种不同的解决方案,一种追求极致的性能,另一种则在性能和效率之间找到平衡。目前代码和模型已经开源。
Hugging Face 推出 AI Agent 构建教程:从入门到认证
Hugging Face发布的AI Agent 教程[5],详细介绍了从基础概念到实际操作的完整学习路径。
通过本课程,不仅能掌握构建 AI Agent 的核心技能,还能通过测验获得官方认证证书。
感兴趣的佬友们不妨一试。
苹果放弃 DeepSeek,联手阿里巴巴合作 iPhone AI 功能
据 The Information[6]昨晚报道,苹果公司曾测试过 DeepSeek 模型,但最终决定放弃,苹果将联手阿里巴巴,为中国 iPhone 用户提供 AI 功能。
很多人说放弃 DeepSeek 的原因可能是其团队人手不足,经验也欠缺,难以支撑苹果这样的大客户。佬友们怎么看?
❝如果你喜欢《一觉醒来 AI 界发生了什么》系列的话,请 关注、点赞、在看、收藏、分享 五连警告,这对我真的很重要!
Reference
[1]
InspireMusic 官网: https://iris2c.github.io/InspireMusic/
[2]InspireMusic 在线使用: https://huggingface.co/spaces/FunAudioLLM/InspireMusic
[3]FlashVideo 项目官网: https://jshilong.github.io/flashvideo-page/
[4]FireRedASR 官方页面: https://fireredteam.github.io/demos/firered_asr/
[5]Hugging Face AI Agent 教程官网: https://huggingface.co/learn/agents-course
[6]The Information 报道苹果与阿里巴巴合作开发 AI 功能: https://www.theinformation.com/articles/apple-partners-with-alibaba-to-develop-ai-features-for-iphone-users-in-china