MirageLSD 零延迟实时视频模型；Suno AI 4.5+ 人声替换/伴奏翻转/歌单灵感；全能 ChatGPT Agent

三花AI 07月18日 11:24

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

本周AI领域迎来多项重要更新。谷歌Veo 3视频生成API开放付费预览，提供8秒视频生成服务，但价格不菲。OpenAI发布了功能强大的ChatGPT Agent智能代理系统，仅限Pro、Plus和Team用户使用。AWS推出文档驱动的AI IDE Kiro，旨在规范编程流程，目前免费预览。Decart AI发布了号称零延迟的实时视频生成模型MirageLSD。音乐生成AI Suno更新至4.5+版本，新增人声替换、伴奏翻转和歌单灵感功能。此外，v0平台API已上线公开测试版，方便开发者集成，而谷歌搜索AI模式也升级支持Gemini 2.5 Pro，提升了复杂数学问题的推理能力。

🚀 谷歌Veo 3视频生成API已开放付费预览，用户可通过Gemini API和AI Studio调用，每次可生成8秒视频，并提供带音频和不带音频两种版本，但其收费标准较高，每秒收费0.5美元（不含音频）和1美元（含音频）。

💼 OpenAI推出了名为ChatGPT Agent的智能代理系统，该系统配备了视觉浏览器、文本浏览器、终端和直连API等全套工具，能够自主选择最佳路径，执行过滤结果、运行代码、生成幻灯片和电子表格等复杂任务，同时保持任务上下文的完整性，此功能仅面向Pro、Plus和Team用户开放。

💻 AWS推出了一款名为Kiro的AI IDE，其核心创新在于采用了“文档先行”的规范驱动（spec-driven）工作流，而非即兴编程，该产品基于VSCode，兼容现有插件生态，目前搭载Anthropic的Sonnet 3.7和4.0大模型，正处于免费预览阶段，未来将推出付费版本，定价为19美元/月（Pro）和39美元/月（Pro+）。

✨ Decart AI发布了其首个Live-Stream Diffusion（LSD）AI视频模型MirageLSD，号称能够实现无限、实时的视频生成，并宣称延迟低至40ms，尽管实际生成效果仍有提升空间，但其技术报告已公开。

🎶 音乐生成AI领域的领跑者Suno发布了4.5+版本更新，新增了三项实用功能：Vocal Swap（人声替换），允许用户轻松替换歌曲中的人声；Flip Instrumentals（伴奏翻转），用户可对伴奏进行重新编排或翻转以创造新风格；Spark a Song from Any Playlist（从播放列表获取灵感），用户可从任何播放列表中快速生成新的歌曲创意。

🔗 v0平台API现已上线公开测试版，开发者可以通过官方SDK将v0平台的功能无缝集成到自己的系统中，从而扩展其应用能力。

🧠 谷歌搜索的AI模式现已全面支持Gemini 2.5 Pro，得益于其强大的推理能力，能够更有效地解决非常复杂的数学问题，提升了搜索的智能化水平。

原创小茸茸 2025-07-18 10:32 重庆

谷歌 Veo 3 视频生成 API 开放付费预览；AWS Kiro：文档先行的 AI IDE；v0 平台 API 公开测试版上线；谷歌搜索 AI 模式现在支持 Gemini 2.5 Pro