小红书开源语音识别模型，支持普通话、方言和英文；从入门到认证 AI Agent 构建教程；苹果联手阿里巴巴合作iPhone AI

原创小茸茸 2025-02-12 09:18 重庆

阿里开源 InspireMusic专为音乐生成设计AIGC工具包；FlashVideo双阶段视频生成框架，快速预览与高清增强；小红书开源FireRedASR语音识别模型；苹果放弃 DeepSeek，联手阿里巴巴合作 iPhone AI 功能

InspireMusic^[1] 是阿里专为音乐、歌曲和音频生成而设计的 AIGC 工具包。

它支持通过文字描述和音乐特征精确控制生成的音乐风格和结构，并支持生成音乐、歌曲及其他音频内容。

目前模型已经开源，佬友们可以在线使用^[2]感受下，不过目前仅支持纯音乐生成，无法像 Suno 那样生成带人声的歌曲。

FlashVideo^[3] 是一个创新的双阶段视频生成框架，它将视频生成过程分为预览阶段和质量增强阶段。

在预览阶段，用户可以以极低的成本和极快的速度预览视频，这大大减少了等待时间并显著提升了商业应用的可行性。这一阶段类似于前端优化的 LQIP（Low Quality Image Placeholders），为用户提供了快速反馈的机制。

在质量增强阶段，FlashVideo 能够将 270P 的低分辨率视频提升至 1080P 的高清画质，确保最终输出的视频质量。

目前，FlashVideo 的代码已经开源。

FireRedASR^[4] 是小红书开源的语音识别模型，支持识别普通话、方言和英文。它分为两个版本：

FireRedASR-LLM：效果最佳，普通话识别开源领先，利用 LLM 处理语音数据。

FireRedASR-AED：采用 AED 架构，兼顾效率和效果。

简单来说，FireRedASR 提供了两种不同的解决方案，一种追求极致的性能，另一种则在性能和效率之间找到平衡。目前代码和模型已经开源。

Hugging Face发布的AI Agent 教程^[5]，详细介绍了从基础概念到实际操作的完整学习路径。

通过本课程，不仅能掌握构建 AI Agent 的核心技能，还能通过测验获得官方认证证书。

感兴趣的佬友们不妨一试。

据 The Information^[6]昨晚报道，苹果公司曾测试过 DeepSeek 模型，但最终决定放弃，苹果将联手阿里巴巴，为中国 iPhone 用户提供 AI 功能。

很多人说放弃 DeepSeek 的原因可能是其团队人手不足，经验也欠缺，难以支撑苹果这样的大客户。佬友们怎么看？

❝
如果你喜欢《一觉醒来 AI 界发生了什么》系列的话，请关注、点赞、在看、收藏、分享五连警告，这对我真的很重要！

Reference

[1]

[2]

[3]

[4]

[5]

[6]

Fish AI Reader