三花AI 07月18日 11:24
MirageLSD 零延迟实时视频模型;Suno AI 4.5+ 人声替换/伴奏翻转/歌单灵感;全能 ChatGPT Agent
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本周AI领域迎来多项重要更新。谷歌Veo 3视频生成API开放付费预览,提供8秒视频生成服务,但价格不菲。OpenAI发布了功能强大的ChatGPT Agent智能代理系统,仅限Pro、Plus和Team用户使用。AWS推出文档驱动的AI IDE Kiro,旨在规范编程流程,目前免费预览。Decart AI发布了号称零延迟的实时视频生成模型MirageLSD。音乐生成AI Suno更新至4.5+版本,新增人声替换、伴奏翻转和歌单灵感功能。此外,v0平台API已上线公开测试版,方便开发者集成,而谷歌搜索AI模式也升级支持Gemini 2.5 Pro,提升了复杂数学问题的推理能力。

🚀 谷歌Veo 3视频生成API已开放付费预览,用户可通过Gemini API和AI Studio调用,每次可生成8秒视频,并提供带音频和不带音频两种版本,但其收费标准较高,每秒收费0.5美元(不含音频)和1美元(含音频)。

💼 OpenAI推出了名为ChatGPT Agent的智能代理系统,该系统配备了视觉浏览器、文本浏览器、终端和直连API等全套工具,能够自主选择最佳路径,执行过滤结果、运行代码、生成幻灯片和电子表格等复杂任务,同时保持任务上下文的完整性,此功能仅面向Pro、Plus和Team用户开放。

💻 AWS推出了一款名为Kiro的AI IDE,其核心创新在于采用了“文档先行”的规范驱动(spec-driven)工作流,而非即兴编程,该产品基于VSCode,兼容现有插件生态,目前搭载Anthropic的Sonnet 3.7和4.0大模型,正处于免费预览阶段,未来将推出付费版本,定价为19美元/月(Pro)和39美元/月(Pro+)。

✨ Decart AI发布了其首个Live-Stream Diffusion(LSD)AI视频模型MirageLSD,号称能够实现无限、实时的视频生成,并宣称延迟低至40ms,尽管实际生成效果仍有提升空间,但其技术报告已公开。

🎶 音乐生成AI领域的领跑者Suno发布了4.5+版本更新,新增了三项实用功能:Vocal Swap(人声替换),允许用户轻松替换歌曲中的人声;Flip Instrumentals(伴奏翻转),用户可对伴奏进行重新编排或翻转以创造新风格;Spark a Song from Any Playlist(从播放列表获取灵感),用户可从任何播放列表中快速生成新的歌曲创意。

🔗 v0平台API现已上线公开测试版,开发者可以通过官方SDK将v0平台的功能无缝集成到自己的系统中,从而扩展其应用能力。

🧠 谷歌搜索的AI模式现已全面支持Gemini 2.5 Pro,得益于其强大的推理能力,能够更有效地解决非常复杂的数学问题,提升了搜索的智能化水平。

原创 小茸茸 2025-07-18 10:32 重庆

谷歌 Veo 3 视频生成 API 开放付费预览;AWS Kiro:文档先行的 AI IDE;v0 平台 API 公开测试版上线;谷歌搜索 AI 模式现在支持 Gemini 2.5 Pro

谷歌 Veo 3 视频生成 API 开放付费预览

谷歌 Veo 3[1] 现已推出付费预览 API,该 API 目前可在 Gemini API 和 AI Studio 中付费使用。每次调用可生成 8 秒时长的视频内容,提供带音频和不带音频两种版本选择。

不过价格非常贵啊 - 带音频版本每秒收费 0.5。

谷歌 Veo 3 官方公告: https://x.com/GoogleDeepMind/status/1945886603328778556

OpenAI 发布全能 ChatGPT Agent

OpenAI 重磅推出 ChatGPT agent 智能代理系统,这是一个通用 agentic 系统,配备了完整的工具套件,包括视觉浏览器、文本浏览器、终端和直连API,能够动态选择最佳路径,包括过滤结果、运行代码,甚至生成幻灯片和电子表格,同时在各个步骤中保持完整的任务上下文。

只有 Pro、Plus 和 Team 用户才可以使用,完整介绍可以看官方推文。

AWS Kiro:文档先行的 AI IDE

AWS 最新推出的 Kiro[2] 是一款 AI IDE(类似 Cursor),其最大创新点在于采用 spec-driven(规范驱动)工作流 - 强调文档先行,而非即兴编程。

作为基于 VSCode 的套壳产品,Kiro 完美兼容现有插件生态。目前搭载的是 Anthropic 的 Sonnet 3.7 和 4.0 大模型。

目前还在预览阶段,完全免费但需要排队 Waitlist。不过官方已经画好大饼了:未来定价分为两档 - Kiro Pro 19 刀/月给 1000 次交互,Pro+ 39 刀/月给 3000 次交互

Kiro 官网: https://kiro.dev/

Decart AI 发布 MirageLSD:号称零延迟的实时视频生成模型

MirageLSD 是 Decart AI 发布的首个 Live-Stream Diffusion(实时流式扩散,简称 LSD)AI 视频模型,能够实现无限、实时的视频生成。

官方宣称延迟低至 40ms(不过没说明具体硬件配置),实际生成效果嘛...只能说还有进步空间。你可以在官方技术报告[3]查看完整技术细节。

Decart AI 官方 MirageLSD 技术报告: https://about.decart.ai/publications/mirage

Suno AI 4.5+ 更新:人声替换/伴奏翻转/歌单灵感三大功能

音乐生成AI领跑者Suno[4]刚刚发布了 4.5+ 版本更新,带来了三项功能:

人声替换(Vocal Swap):用户可以轻松替换歌曲中的人声部分,为歌曲注入新的声音风格。

伴奏翻转(Flip Instrumentals):用户可以对伴奏进行重新编排或翻转,创造出全新的音乐风格。

从播放列表获取灵感(Spark a Song from Any Playlist):用户可以从任何播放列表中获取灵感,快速生成新的歌曲创意。

话说 Suno 好像好久都没有更新底模了。

Suno官方Twitter更新公告: https://x.com/SunoMusic/status/1945884363805061537

v0 平台 API 公开测试版上线

v0 平台 API[5] 现已推出公开测试版!现在你可以通过官方 SDK 将 v0 的功能无缝集成到自己的系统中。

v0 平台 API 测试版公告: https://vercel.com/changelog/v0-platform-api-now-in-beta

谷歌搜索 AI 模式现在支持 Gemini 2.5 Pro

谷歌DeepMind官方公告[6]显示,谷歌搜索的AI模式现已支持 Gemini 2.5 Pro,因为支持推理了,可以用来解决非常复杂的数学问题。

谷歌DeepMind官方公告: https://x.com/GoogleDeepMind/status/1945515683451736246


如果你喜欢《一觉醒来 AI 界发生了什么》系列的话,请 关注点赞在看收藏分享 五连警告,这对我真的很重要

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI 视频生成 智能代理 AI IDE 音乐生成
相关文章