掘金 人工智能 07月16日 18:38
OpenArt Story 一键生成完整叙事短视频
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文聚焦近期AI领域的重要进展,包括Mistral AI开源的多语言语音转录模型Voxtral,其准确率超越了OpenAI Whisper v3;谷歌Gemini Embedding模型API的全面开放,提供了极具竞争力的价格;PUSA V1.0模型以低成本实现了高性能视频生成,并支持多种视频生成方式;OpenArt Story功能则实现了通过文本一键生成完整叙事短视频。

🎤 Voxtral 模型:Mistral AI 开源的 Voxtral 模型提供 24B 和 3B 两个参数版本,前者专为生产环境优化,后者适合本地和端侧设备部署。官方基准测试显示,Voxtral 的转录准确率超越了 OpenAI Whisper v3 Large 和 Gemini Flash 2.5 等主流方案。

💰 Gemini Embedding 模型 API:谷歌 Gemini Embedding 模型现已全面开放,开发者可通过 Gemini API 和 Vertex AI 使用。该模型价格极具竞争力,每 100 万输入 token 仅需 0.15 美元。

🎬 PUSA V1.0 模型:该模型通过使用 VTA 微调 SOTA 模型 Wan2.1-T2V-14B,仅需少量数据集、较低的训练成本和较少的推理步骤,就超越了 Wan-I2V-14B 模型的性能。PUSA 模型支持首尾帧生成、视频扩展、文生视频等多种功能,并且代码和模型已开源。

✍️ OpenArt Story 功能:OpenArt 推出的新功能,用户可以将想法、脚本等转化为包含动作、音乐和完整叙事线的 1 分钟视频。该功能整合了黑森林、可灵、海螺、pixverse、fal、openai 和谷歌等技术支持。

Mistral 开源 Voxtral:多语言语音转录模型,准确率超 Whisper v3

Voxtral 是 Mistral AI 最新开源的多语言语音转录模型,提供 24B 和 3B 两个参数版本。24B 版本专为生产环境优化,而轻量级的 3B 版本则非常适合本地和端侧设备部署。

根据其官方基准测试,其转录准确率显著超越 OpenAI Whisper v3 Large 和 Gemini Flash 2.5 等主流方案。

完整的技术细节和性能对比可查阅官方博客[1]。

谷歌 Gemini 嵌入模型 API 全面开放,每百万 token 仅 0.15 美元

谷歌 Gemini Embedding 模型现已正式在 Gemini API 和 Vertex AI 中向开发者全面开放。价格方面极具竞争力,每 100 万输入 token 仅需 0.15 美元,这个定价可以说是非常便宜了。

完整公告详情[2]请参阅谷歌官方博客。

PUSA V1.0:低成本高性能视频生成模型

PUSA V1.0 通过使用 VTA 微调 SOTA 模型 Wan2.1-T2V-14B,仅需 1/2500 的数据集、1/200 的训练成本和 1/5 的推理步骤,就超越了 Wan-I2V-14B 模型的性能。

更厉害的是,Wan-I2V 只能进行图像到视频的生成,而 PUSA 模型还支持包括首尾帧生成、视频扩展、文生视频等功能

代码和模型都已经开源啦,完整介绍可以看PUSA 项目官网[3]~

OpenArt Story 一键生成完整叙事短视频

OpenArt 推出了一个名为 OpenArt Story 的新功能,用户可以将任何想法、脚本、节奏或角色转化为 1 分钟视频,这个视频包含动作、音乐和完整的叙事线,不仅仅是简短的片段,而是一个完整的故事。

其背后的技术支持来自黑森林、可灵、海螺、pixverse、fal、openai 和谷歌。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Voxtral Gemini Embedding PUSA V1.0 OpenArt Story AI
相关文章