法國AI新創Mistral AI周二(7/15)首度開源旗下語音模型Voxtral,包括適用於生產規模、具備240億個參數的Voxtral Small 1.0,以及可部署在本地及邊緣、擁有30億個參數的Voxtral Mini 1.0,它們採用Apache 2.0授權,也可利用API存取,還提供了一個針對轉錄優化的API端點。
Mistral AI是在2023年由3位法國AI研究人員Arthur Mensch、Guillaume Lample及Timothée Lacroix所創立,其中,Mensch曾任職於Google DeepMind,Lample與Lacroix則曾替Meta效力,2024年底估值為58億歐元,為歐洲成長最快的AI獨角獸之一。Mistral AI採用開源與閉源的混合策略,已開源基礎語言模型Mistral 7B、混合專家模型Mixtral 8x7B及對話微調版本Mistral 7B Instruct,但Mistral Small/Medium/Large則是閉源的,僅透過API供應。另有開放測試的聊天機器人Le Chat。
Mistral AI指出,目前市場上的語音模型可能是高單字錯誤率、或語義理解有限的開源ASR(Automatic Speech Recognition,自動語音識別)系統,或者是結合轉錄及語言理解、但成本更高的私有API,Voxtral以開放的方式提供最先進的準確性及原生語義理解,但價格不到競爭對手的一半。
最新的兩款Voxtral模型都支援32K個Token的脈絡長度,可處理長達30分鐘的音訊轉錄或是理解40分鐘的音訊;內建問題與摘要功能,無需連結單獨的ASR及語言模型;支援英文、西班牙文、法文、葡萄牙文、印地文、德文、荷蘭文與義大利文等;可直接自語音調用函數;保留MistralSmall 3.1的文本理解,擁有強大文字能力。
在語音轉錄上,Voxtral的性能全面超越當前領先的開源語音轉錄模型Whisper large-v3,也在所有任務上都擊敗GPT-4o mini Transcribe與Gemini 2.5 Flash,於英文短格式及Mozilla Common Voice上超越ElevenLabs Scribe,亦展現其多語文能力。
而Voxtral Small的理解能力則可與GPT-4o-mini及Gemini 2.5 Flash競爭。
使用者或開發人員可自行下載Voxtral Small與Voxtral Mini,或是透過API存取其付費服務,每分鐘為0.001美元,也能藉由Le Chat先行試用。