法國AI新創Mistral AI周二(6/10)釋出該公司首個推理模型家族Magistral,包括具備240億個參數的開源版Magistral Small,以及專供企業使用的Magistral Medium。
Mistral AI指出,最好的人類思維並非線性的,它貫穿於邏輯、洞察、不確定及發現之中,推理語言模型可強化AI的複雜思維及深入理解,從而改善解決問題所需的精確、逐步考慮與分析能力。簡單地說,相較於通用模型,Magistral推理模型針對多步驟邏輯進行了微調,提高可解釋性,並以使用者的語言提供可追溯的思考過程。
目前市場上標榜自己是推理模型或針對推理改善的模型,包括DeepSeek-R1、DeepSeek-V3、OpenAI o3及Gemini 2.5 Pro等,Mistral AI以Magistral Medium與Mistral Medium 3、DeepSeek-R1、DeepSeek-V3,以及Majority Voting@4、Majority Voting@64作比較,發現它不管是在AIME2024、AIME2025、GPQA Diamond、LiveCodeBench或Aider-Polyglot等基準測試上都有傑出的表現,僅稍微落後DeepSeek-R1。
Mistral AI於自家聊天機器人Le Chat中,針對Magistral Medium模型進行了速度上的最佳化,只要啟用設定中的Think mode及Flash Answers,其回應速度將是競爭產品的10倍快。
使用者現在可透過Hugging Face免費存取Magistral Small,或是藉由Le Chat及API試用Magistral Medium預覽版。此外,Mistral AI也已經或即將於Amazon SageMaker、IBM WatsonX、Azure AI 及Google Cloud Marketplace上部署了Magistral Medium。
本周蘋果才發表了一個有關推理AI模型的研究報告,指出許多標榜長鏈思考及自我反省能力的推理模型,只能處理簡單問題,遇見複雜問題就會破功,而且多半無法將推理能力延伸到訓練資料以外。