OpenAudio S1：支持多语言情感控制的专业级 TTS 模型

掘金人工智能 06月05日 11:54

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

本文汇总了近期发布的多款AI工具，涵盖文本转语音、视频风格重塑、单图生成运镜视频以及编程助手等领域。OpenAudio S1 是一款支持多语言、情感控制的专业级文本转语音模型，价格亲民。LumaAI 的 Modify Video 功能可一键重塑视频风格与内容。Stability AI 的 Virtual Camera v1.1 允许用户通过单张图片生成运镜视频。Cursor 发布 v1.0 版本，全面开放 Background Agent，并新增多项功能，提升编程效率。

🗣️ OpenAudio S1 是一款由 OpenAudio 团队开发的文本转语音（TTS）模型，具备专业配音演员的音质。该模型支持英语、中文、日语、德语、法语等多语言，并提供丰富的情感和语气控制。其价格极具竞争力，仅为每百万字节15美元。

🎬 LumaAI 推出了 Modify Video 功能，该功能可以智能地重塑视频的风格设定、角色形象和场景布局。从官方演示视频来看，效果出色，为视频编辑提供了新的可能性。

🎥 Stability AI 发布了 Virtual Camera v1.1 版本，允许用户通过单张图片生成各种专业运镜视频。该模型也支持多视角输入，以实现更好的视频生成效果，用户可在Hugging Face平台体验。

💻 Cursor 发布了 v1.0 版本，全面开放 Background Agent 给所有用户，提供远程编程助手功能。新功能包括 BugBot，可自动审查 GitHub PR 并修复问题；Jupyter Notebook 支持通过 Agent 直接编辑多代码单元格；实验性的记忆功能可保存对话上下文；简化了 MCP 服务器的一键安装并支持 OAuth 认证；聊天窗口支持渲染图表和表格；以及全新的仪表盘，提供更详细的用量统计分析。

OpenAudio S1：支持多语言情感控制的专业级 TTS 模型

OpenAudio S1 是由 OpenAudio 团队开发的文本转语音（TTS）模型，它能像专业配音演员一样生成语音。

该模型支持丰富的情感和语气精细控制，涵盖英语、中文、日语、德语、法语等多种语言。价格非常良心，仅为每百万字节 15 美元（约合每小时 0.8 美元）。

佬们可以在官方博客[1]查看技术报告，或者在FishAudio[2]上直接在线体验。

三花的小视频宝也支持这个模型！

LumaAI 发布 Modify Video：一键重塑视频风格与内容

LumaAI 发布 Modify Video 功能，从官方演示视频来看[3]，效果非常的好。

该功能能够智能重塑视频中的风格设定、角色形象和场景布局。

Stability AI 发布 Virtual Camera v1.1：单图生成运镜视频

Stable Diffusion 开发团队 SAI(Stability AI) 正式推出Virtual Camera v1.1 [4] 版本，佬们可以在 Hugging Face 平台[5]上体验这个自由相机轨迹生成模型。

该模型支持通过单张图片生成多种专业运镜视频的能力，也支持输入多视角实现更好的视频生成。

Curosr 发布 v1.0 版本

Cursor 1.0 全面开放了 Background Agent 让所有用户都能使用远程编程助手，新增的 BugBot 可自动审查 GitHub PR 并快速修复问题，Jupyter Notebook 现已支持通过 Agent 直接编辑多代码单元格，实验性的记忆功能能保存对话上下文供后续参考，同时简化了 MCP 服务器的一键安装并支持 OAuth 认证，聊天窗口现在能直接渲染图表和表格，全新的仪表盘还提供了更详细的用量统计分析。

OpenAudio S1：支持多语言情感控制的专业级 TTS 模型

LumaAI 发布 Modify Video：一键重塑视频风格与内容

Stability AI 发布 Virtual Camera v1.1：单图生成运镜视频

Curosr 发布 v1.0 版本

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签