三花AI 04月09日
Test-Time Training AI 长视频,生成经典动画《猫和老鼠》测试案例;谷歌 Gemini Live 支持视频交互
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文汇总了近期AI领域的多项重要进展。ElevenLabs发布MCP服务器,提供强大的云端音频处理能力,支持语音生成、声音克隆等功能。Test-Time Training技术在长视频生成方面取得突破,实现了流畅的1分钟动画视频。MiniMax Audio推出了Speech-02语音合成模型,支持30多种语言,并具备流畅的语言切换能力。HiDream-I1发布了17B参数开源图像生成模型,性能优异且支持商业用途。谷歌推出了Gemini Live,支持视频交互,为用户提供更自然的对话交流体验。

📢 ElevenLabs推出了MCP服务器,该服务器为用户提供了强大的云端音频处理能力,支持语音生成、声音克隆和音频转录等功能。用户可以通过MCP客户端进行操作,相关开源项目已在GitHub上发布。

🎬 Test-Time Training (TTT) 技术在长视频生成领域取得了显著进展,解决了Transformer自注意力机制效率低下的问题。研究团队以《猫和老鼠》为测试案例,成功生成了流畅一致的1分钟动画视频,虽然仍有瑕疵,但展现了AI长视频的巨大潜力。

🗣️ MiniMax Audio发布了Speech-02语音合成模型,该模型支持超过30种语言,单次输入最高可达20万字符,并能以超高真实感生成语音。其最大的亮点在于语言切换时的流畅性。目前,该模型仅支持官网和API使用,价格为3.5元/万字符。

🖼️ HiDream-I1发布了17B参数开源图像生成模型,该模型在各项基准测试中表现优异,甚至超越了Flux dev模型。该模型基于MIT开源协议,允许用户自由用于商业用途,并提供了在线演示供用户体验。

📱 谷歌推出了Gemini Live,该功能结合摄像头和屏幕共享功能,使用户能够与Gemini AI进行自然的对话交流。目前,该功能已率先在Pixel 9和三星Galaxy S25系列机型上线,并提供了整理建议、教育、购物等多种使用案例。

原创 小茸茸 2025-04-09 09:46 重庆

ElevenLabs 发布音频处理 MCP 服务器;MiniMax Audio 发布 Speech-02:支持 30+ 语言 TTS 模型;HiDream-I1 发布:17B 参数开源图像生成模型;谷歌推出 Gemini Live

ElevenLabs 发布音频处理 MCP 服务器

ElevenLabs 官方正式推出 MCP 服务器,为用户提供强大的云端音频处理能力。允许用户使用 MCP 客户端生成语音、克隆声音、转录音频。

蛮酷的,佬们可以看看官方仓库[1]学一下音频类 MCP 怎么做。

ElevenLabs MCP 开源项目: https://github.com/elevenlabs/elevenlabs-mcp

Test-Time Training AI 长视频生成技术

Test-Time Training (TTT)[2] 技术有效解决了 Transformer 因自注意力机制效率低下导致的长视频生成难题。

研究团队以经典动画《猫和老鼠》为测试案例,对比了 Mamba 2、Gated DeltaNet 等多种基线模型,最终能够生成流畅一致的1分钟动画视频!

目前生成视频仍有瑕疵(可能受限于5B参数)不过AI长视频未来可期。

演示视频是完全由 AI 生成的,一刀未剪,已经非常的强了。

Test-Time Training 视频生成项目: https://test-time-training.github.io/video-dit/

MiniMax Audio 发布 Speech-02:支持 30+ 语言 TTS 模型

MiniMax Audio[3] 最新推出了 Speech-02 语音合成模型,单次输入最高支持20万个字符,能够以超高的真实感生成语音,支持超过30种语言,最牛b的地方在于其语言切换时非常流畅。

不过目前只能在官网和api使用,价格为 3.5元/万字符,还是比较贵的。

MiniMax Audio 官网: https://www.minimax.io/audio

HiDream-I1 发布:17B 参数开源图像生成模型

HiDream-I1[4] 是一个全新的 17B 参数开放权重生图模型,在各项基准测试中表现优异,甚至超越了 Flux dev 模型。最棒的是,它基于 MIT 开源协议,这意味着你可以完全自由地将其用于商业用途。

佬们可以关注下这个模型,虽然有点大(毕竟 17B 参数摆在那里),但性能确实不错。

想尝鲜的话,官方还提供了在线演示[5]可以体验。

HiDream-I1 GitHub 项目: https://github.com/HiDream-ai/HiDream-I1
HiDream-I1 在线演示: https://huggingface.co/spaces/blanchon/HiDream-ai-full

谷歌推出 Gemini Live:支持视频交互

谷歌上线了Gemini Live[6] ,能够结合摄像头和屏幕共享功能与 Gemini AI 进行自然的对话交流。

目前该功能已率先在 Pixel 9 和三星 Galaxy S25 系列机型上线(需要订阅服务)。

官方博客还演示了很多使用案例,包括整理建议、教育、购物等等。

Gemini Live 官方功能介绍: https://blog.google/products/gemini/gemini-live-android-tips/

如果你喜欢《一觉醒来 AI 界发生了什么》系列的话,请 关注点赞在看收藏分享 五连警告,这对我真的很重要

现在加入 AI 日报群,不会漏掉消息嗷

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

ElevenLabs Test-Time Training MiniMax Audio HiDream-I1 Gemini Live
相关文章