本文聚焦近期AI领域的三大重要进展:Mistral AI开源多语言语音转录模型Voxtral,其准确率超越Whisper v3;谷歌Gemini嵌入模型API全面开放,价格极具竞争力;以及PUSA V1.0,一款低成本高性能视频生成模型。此外,OpenArt推出了新功能OpenArt Story,可将用户想法转化为完整叙事短视频。这些进展展示了AI技术在语音处理、文本理解和视频创作方面的快速发展。
🗣️ Mistral AI 开源 Voxtral:这是一个多语言语音转录模型,提供24B和3B两个参数版本。其中,24B版本专为生产环境优化,3B版本则更适合本地和端侧设备部署。官方基准测试显示,Voxtral的转录准确率超越了OpenAI Whisper v3 Large和Gemini Flash 2.5等主流方案。
💰 谷歌 Gemini 嵌入模型 API:现已在 Gemini API 和 Vertex AI 中全面开放。其定价极具竞争力,每百万输入token仅需0.15美元,为开发者提供了经济高效的文本嵌入解决方案。
🎬 PUSA V1.0:这是一个低成本高性能视频生成模型。它通过微调SOTA模型Wan2.1-T2V-14B,仅用1/2500的数据集、1/200的训练成本和1/5的推理步骤,就超越了Wan-I2V-14B模型的性能。PUSA模型还支持首尾帧生成、视频扩展、文生视频等功能,且代码和模型已开源。
🎥 OpenArt Story:该功能允许用户将想法、脚本、节奏或角色转化为1分钟视频,包含动作、音乐和完整的叙事线。这项功能利用了黑森林、可灵、海螺、pixverse、fal、openai 和谷歌等技术。
原创 小茸茸 2025-07-16 10:05 重庆
Mistral 开源 Voxtral:多语言语音转录模型,准确率超 Whisper v3;谷歌 Gemini 嵌入模型 API 全面开放,每百万 token 仅 0.15 美元;PUSA V1.0:低成本高性能视频生成模型

Mistral 开源 Voxtral:多语言语音转录模型,准确率超 Whisper v3
Voxtral 是 Mistral AI 最新开源的多语言语音转录模型,提供 24B 和 3B 两个参数版本。24B 版本专为生产环境优化,而轻量级的 3B 版本则非常适合本地和端侧设备部署。根据其官方基准测试,其转录准确率显著超越 OpenAI Whisper v3 Large 和 Gemini Flash 2.5 等主流方案。完整的技术细节和性能对比可查阅官方博客[1]。Mistral Voxtral 技术博客: https://mistral.ai/news/voxtral
谷歌 Gemini 嵌入模型 API 全面开放,每百万 token 仅 0.15 美元
谷歌 Gemini Embedding 模型现已正式在 Gemini API 和 Vertex AI 中向开发者全面开放。价格方面极具竞争力,每 100 万输入 token 仅需 0.15 美元,这个定价可以说是非常便宜了。完整公告详情[2]请参阅谷歌官方博客。谷歌开发者博客 Gemini Embedding 公告: https://developers.googleblog.com/en/gemini-embedding-available-gemini-api/
PUSA V1.0:低成本高性能视频生成模型
PUSA V1.0 通过使用 VTA 微调 SOTA 模型 Wan2.1-T2V-14B,仅需 1/2500 的数据集、1/200 的训练成本和 1/5 的推理步骤,就超越了 Wan-I2V-14B 模型的性能。更厉害的是,Wan-I2V 只能进行图像到视频的生成,而 PUSA 模型还支持包括首尾帧生成、视频扩展、文生视频等功能代码和模型都已经开源啦,完整介绍可以看PUSA 项目官网[3]~PUSA 项目官网: https://yaofang-liu.github.io/Pusa_Web/
OpenArt Story 一键生成完整叙事短视频
OpenArt 推出了一个名为 OpenArt Story 的新功能,用户可以将任何想法、脚本、节奏或角色转化为 1 分钟视频,这个视频包含动作、音乐和完整的叙事线,不仅仅是简短的片段,而是一个完整的故事。其背后的技术支持来自黑森林、可灵、海螺、pixverse、fal、openai 和谷歌。
❝如果你喜欢《一觉醒来 AI 界发生了什么》系列的话,请 关注、点赞、在看、收藏、分享 五连警告,这对我真的很重要!






阅读原文
跳转微信打开