原创 小茸茸 2025-04-09 09:46 重庆
ElevenLabs 发布音频处理 MCP 服务器;MiniMax Audio 发布 Speech-02:支持 30+ 语言 TTS 模型;HiDream-I1 发布:17B 参数开源图像生成模型;谷歌推出 Gemini Live
ElevenLabs 发布音频处理 MCP 服务器
ElevenLabs 官方正式推出 MCP 服务器,为用户提供强大的云端音频处理能力。允许用户使用 MCP 客户端生成语音、克隆声音、转录音频。
蛮酷的,佬们可以看看官方仓库[1]学一下音频类 MCP 怎么做。
ElevenLabs MCP 开源项目: https://github.com/elevenlabs/elevenlabs-mcp
Test-Time Training AI 长视频生成技术
Test-Time Training (TTT)[2] 技术有效解决了 Transformer 因自注意力机制效率低下导致的长视频生成难题。
研究团队以经典动画《猫和老鼠》为测试案例,对比了 Mamba 2、Gated DeltaNet 等多种基线模型,最终能够生成流畅一致的1分钟动画视频!
目前生成视频仍有瑕疵(可能受限于5B参数)不过AI长视频未来可期。
演示视频是完全由 AI 生成的,一刀未剪,已经非常的强了。
Test-Time Training 视频生成项目: https://test-time-training.github.io/video-dit/
MiniMax Audio 发布 Speech-02:支持 30+ 语言 TTS 模型
MiniMax Audio[3] 最新推出了 Speech-02 语音合成模型,单次输入最高支持20万个字符,能够以超高的真实感生成语音,支持超过30种语言,最牛b的地方在于其语言切换时非常流畅。
不过目前只能在官网和api使用,价格为 3.5元/万字符,还是比较贵的。
MiniMax Audio 官网: https://www.minimax.io/audio
HiDream-I1 发布:17B 参数开源图像生成模型
HiDream-I1[4] 是一个全新的 17B 参数开放权重生图模型,在各项基准测试中表现优异,甚至超越了 Flux dev 模型。最棒的是,它基于 MIT 开源协议,这意味着你可以完全自由地将其用于商业用途。
佬们可以关注下这个模型,虽然有点大(毕竟 17B 参数摆在那里),但性能确实不错。
想尝鲜的话,官方还提供了在线演示[5]可以体验。
HiDream-I1 GitHub 项目: https://github.com/HiDream-ai/HiDream-I1
HiDream-I1 在线演示: https://huggingface.co/spaces/blanchon/HiDream-ai-full
谷歌推出 Gemini Live:支持视频交互
谷歌上线了Gemini Live[6] ,能够结合摄像头和屏幕共享功能与 Gemini AI 进行自然的对话交流。
目前该功能已率先在 Pixel 9 和三星 Galaxy S25 系列机型上线(需要订阅服务)。
官方博客还演示了很多使用案例,包括整理建议、教育、购物等等。
Gemini Live 官方功能介绍: https://blog.google/products/gemini/gemini-live-android-tips/
❝如果你喜欢《一觉醒来 AI 界发生了什么》系列的话,请 关注、点赞、在看、收藏、分享 五连警告,这对我真的很重要!