Test-Time Training AI 长视频，生成经典动画《猫和老鼠》测试案例；谷歌 Gemini Live 支持视频交互

三花AI 04月09日

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

本文汇总了近期AI领域的多项重要进展。ElevenLabs发布MCP服务器，提供强大的云端音频处理能力，支持语音生成、声音克隆等功能。Test-Time Training技术在长视频生成方面取得突破，实现了流畅的1分钟动画视频。MiniMax Audio推出了Speech-02语音合成模型，支持30多种语言，并具备流畅的语言切换能力。HiDream-I1发布了17B参数开源图像生成模型，性能优异且支持商业用途。谷歌推出了Gemini Live，支持视频交互，为用户提供更自然的对话交流体验。

📢 ElevenLabs推出了MCP服务器，该服务器为用户提供了强大的云端音频处理能力，支持语音生成、声音克隆和音频转录等功能。用户可以通过MCP客户端进行操作，相关开源项目已在GitHub上发布。

🎬 Test-Time Training (TTT) 技术在长视频生成领域取得了显著进展，解决了Transformer自注意力机制效率低下的问题。研究团队以《猫和老鼠》为测试案例，成功生成了流畅一致的1分钟动画视频，虽然仍有瑕疵，但展现了AI长视频的巨大潜力。

🗣️ MiniMax Audio发布了Speech-02语音合成模型，该模型支持超过30种语言，单次输入最高可达20万字符，并能以超高真实感生成语音。其最大的亮点在于语言切换时的流畅性。目前，该模型仅支持官网和API使用，价格为3.5元/万字符。

🖼️ HiDream-I1发布了17B参数开源图像生成模型，该模型在各项基准测试中表现优异，甚至超越了Flux dev模型。该模型基于MIT开源协议，允许用户自由用于商业用途，并提供了在线演示供用户体验。

📱 谷歌推出了Gemini Live，该功能结合摄像头和屏幕共享功能，使用户能够与Gemini AI进行自然的对话交流。目前，该功能已率先在Pixel 9和三星Galaxy S25系列机型上线，并提供了整理建议、教育、购物等多种使用案例。

原创小茸茸 2025-04-09 09:46 重庆

ElevenLabs 发布音频处理 MCP 服务器；MiniMax Audio 发布 Speech-02：支持 30+ 语言 TTS 模型；HiDream-I1 发布：17B 参数开源图像生成模型；谷歌推出 Gemini Live

ElevenLabs 发布音频处理 MCP 服务器

ElevenLabs 官方正式推出 MCP 服务器，为用户提供强大的云端音频处理能力。允许用户使用 MCP 客户端生成语音、克隆声音、转录音频。

蛮酷的，佬们可以看看官方仓库^[1]学一下音频类 MCP 怎么做。

ElevenLabs MCP 开源项目: https://github.com/elevenlabs/elevenlabs-mcp

Test-Time Training AI 长视频生成技术

Test-Time Training (TTT)^[2] 技术有效解决了 Transformer 因自注意力机制效率低下导致的长视频生成难题。

研究团队以经典动画《猫和老鼠》为测试案例，对比了 Mamba 2、Gated DeltaNet 等多种基线模型，最终能够生成流畅一致的1分钟动画视频！

目前生成视频仍有瑕疵（可能受限于5B参数）不过AI长视频未来可期。

演示视频是完全由 AI 生成的，一刀未剪，已经非常的强了。

Test-Time Training 视频生成项目: https://test-time-training.github.io/video-dit/

MiniMax Audio 发布 Speech-02：支持 30+ 语言 TTS 模型

MiniMax Audio^[3] 最新推出了 Speech-02 语音合成模型，单次输入最高支持20万个字符，能够以超高的真实感生成语音，支持超过30种语言，最牛b的地方在于其语言切换时非常流畅。

不过目前只能在官网和api使用，价格为 3.5元/万字符，还是比较贵的。

MiniMax Audio 官网: https://www.minimax.io/audio

HiDream-I1 发布：17B 参数开源图像生成模型

HiDream-I1^[4] 是一个全新的 17B 参数开放权重生图模型，在各项基准测试中表现优异，甚至超越了 Flux dev 模型。最棒的是，它基于 MIT 开源协议，这意味着你可以完全自由地将其用于商业用途。

佬们可以关注下这个模型，虽然有点大（毕竟 17B 参数摆在那里），但性能确实不错。

想尝鲜的话，官方还提供了在线演示^[5]可以体验。

HiDream-I1 GitHub 项目: https://github.com/HiDream-ai/HiDream-I1
HiDream-I1 在线演示: https://huggingface.co/spaces/blanchon/HiDream-ai-full

谷歌推出 Gemini Live：支持视频交互

谷歌上线了Gemini Live^[6] ，能够结合摄像头和屏幕共享功能与 Gemini AI 进行自然的对话交流。

目前该功能已率先在 Pixel 9 和三星 Galaxy S25 系列机型上线（需要订阅服务）。

官方博客还演示了很多使用案例，包括整理建议、教育、购物等等。

Gemini Live 官方功能介绍: https://blog.google/products/gemini/gemini-live-android-tips/

❝
如果你喜欢《一觉醒来 AI 界发生了什么》系列的话，请关注、点赞、在看、收藏、分享五连警告，这对我真的很重要！

阅读原文

跳转微信打开

ElevenLabs 发布音频处理 MCP 服务器

Test-Time Training AI 长视频生成技术

MiniMax Audio 发布 Speech-02：支持 30+ 语言 TTS 模型

HiDream-I1 发布：17B 参数开源图像生成模型

谷歌推出 Gemini Live：支持视频交互

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签