Mistral AI開源語音模型Voxtral

AI & Big Data 21小时前

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

法国 AI 新创公司 Mistral AI 开源了其语音模型 Voxtral，包括适用于生产规模的 Voxtral Small 1.0 和可部署在本地的 Voxtral Mini 1.0。Voxtral 采用 Apache 2.0 授权，并提供 API 访问。该模型在转录准确性和原生语义理解方面表现出色，价格低于竞争对手。Voxtral 支持多种语言，具备问题与摘要功能，并集成了文本理解能力，性能超越了 Whisper large-v3 等模型，并与 GPT-4o mini 和 Gemini 2.5 Flash 竞争。用户可以通过下载模型或 API 访问服务进行使用。

🗣️ Mistral AI 开源了 Voxtral 语音模型，提供两种版本：Voxtral Small 1.0（240 亿参数，适用于生产规模）和 Voxtral Mini 1.0（30 亿参数，可本地部署）。

🌍 Voxtral 模型支持 32K 个 Token 的上下文长度，可处理长达 30 分钟的音频转录或 40 分钟的音频理解；内置问题与摘要功能，支持英语、西班牙语、法语、葡萄牙语、印地语、德语、荷兰语和意大利语等多种语言。

🏆 在语音转录性能上，Voxtral 全面超越了 Whisper large-v3，并在所有任务上击败了 GPT-4o mini Transcribe 与 Gemini 2.5 Flash，于英文短格式及 Mozilla Common Voice 上超越 ElevenLabs Scribe。

💡 Voxtral 的理解能力可与 GPT-4o-mini 及 Gemini 2.5 Flash 竞争，用户可通过 API 访问其付费服务，价格为每分钟 0.001 美元，也可通过 Le Chat 试用。

法國AI新創Mistral AI周二（7/15）首度開源旗下語音模型Voxtral，包括適用於生產規模、具備240億個參數的Voxtral Small 1.0，以及可部署在本地及邊緣、擁有30億個參數的Voxtral Mini 1.0，它們採用Apache 2.0授權，也可利用API存取，還提供了一個針對轉錄優化的API端點。

Mistral AI是在2023年由3位法國AI研究人員Arthur Mensch、Guillaume Lample及Timothée Lacroix所創立，其中，Mensch曾任職於Google DeepMind，Lample與Lacroix則曾替Meta效力，2024年底估值為58億歐元，為歐洲成長最快的AI獨角獸之一。Mistral AI採用開源與閉源的混合策略，已開源基礎語言模型Mistral 7B、混合專家模型Mixtral 8x7B及對話微調版本Mistral 7B Instruct，但Mistral Small/Medium/Large則是閉源的，僅透過API供應。另有開放測試的聊天機器人Le Chat。

Mistral AI指出，目前市場上的語音模型可能是高單字錯誤率、或語義理解有限的開源ASR（Automatic Speech Recognition，自動語音識別）系統，或者是結合轉錄及語言理解、但成本更高的私有API，Voxtral以開放的方式提供最先進的準確性及原生語義理解，但價格不到競爭對手的一半。

最新的兩款Voxtral模型都支援32K個Token的脈絡長度，可處理長達30分鐘的音訊轉錄或是理解40分鐘的音訊；內建問題與摘要功能，無需連結單獨的ASR及語言模型；支援英文、西班牙文、法文、葡萄牙文、印地文、德文、荷蘭文與義大利文等；可直接自語音調用函數；保留MistralSmall 3.1的文本理解，擁有強大文字能力。

在語音轉錄上，Voxtral的性能全面超越當前領先的開源語音轉錄模型Whisper large-v3，也在所有任務上都擊敗GPT-4o mini Transcribe與Gemini 2.5 Flash，於英文短格式及Mozilla Common Voice上超越ElevenLabs Scribe，亦展現其多語文能力。

而Voxtral Small的理解能力則可與GPT-4o-mini及Gemini 2.5 Flash競爭。

使用者或開發人員可自行下載Voxtral Small與Voxtral Mini，或是透過API存取其付費服務，每分鐘為0.001美元，也能藉由Le Chat先行試用。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签