阿里巴巴釋出具備325億個參數的QwQ-32B-Preview模型

AI & Big Data 2024年11月29日

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

阿里巴巴的Qwen团队发布了名为QwQ-32B-Preview的325亿参数大语言模型，该模型在数学推理和代码生成方面表现出色，在AIME、MATH-500等测试中超越了OpenAI的o1-preview。QwQ-32B-Preview强调推理能力，通过深入思考和自我质疑来提升解决问题的能力。虽然在一些测试中取得了领先成绩，但该模型也存在一些问题，例如语言切换、逻辑循环、偏见等。此外，由于模型是中国制造，因此内置了符合中国政策的审查机制，例如不会回应关于天安门事件的提问。

🤔QwQ-32B-Preview是一个拥有325亿参数、32768个Token上下文长度的大语言模型，其核心优势在于强大的推理能力，尤其在数学和代码生成方面表现突出。

🚀在数学能力测试中，QwQ-32B-Preview在AIME和MATH-500上分别取得了50和90的成绩，超过了OpenAI的o1-preview。在代码生成测试LiveCodeBench上也有出色的表现，展现了其强大的逻辑推理和问题解决能力。

⚠️QwQ-32B-Preview也存在一些局限性，例如在回答中可能切换语言、处理复杂逻辑时容易陷入循环、可能产生不恰当或有偏见的回答，以及在非数学和代码领域仍有提升空间。

🇨🇳由于模型由中国团队开发，因此内置了符合中国政策的审查机制，例如不会回答与天安门事件相关的问题，并认为台湾是中国不可分割的一部分。

💡该模型的发布表明中国在大型语言模型领域持续发力，并在特定领域取得了突破性进展，但也引发了关于AI伦理和内容审查等方面的讨论。

阿里巴巴的Qwen Team本周釋出了QwQ-32B-Preview，這是一個具備325億個參數，脈絡長度為32,768個Token，強調推論能力的實驗性研究模型，在AIME及MATH-500等數學能力基準測試上的表現，勝過了OpenAI的o1-preview，在程式生成及解決程式設計問題的LiveCodeBench測試上亦有出色的表現。開發人員已可透過Hugging Face存取該模型。Qwen團隊指出，藉由深入探索及無數試驗，發現當模型有足夠的時間思考、質疑及反射時，它對數學與程式碼的理解就會深化，這種細致的反思與自我質疑的過程，令模型能夠取得解決複雜問題的突破性進展，並在許多測試上取得卓越的成績，像是評測高階科學問題解決能力的GPQA，涵蓋算數、代數、幾何與概率等中學數學的AIME，包含500個測試樣本的MATH-500，以及實際生成程式碼的LiveCodeBench。QwQ-32B-Preview在AIME與MATH-500的測試成績分別達到50與90，超越OpenAI o1-preview的44.6及85.5，而它在GPQA及LiveCodeBench的成績則是65.2及50，低於o1-preview的72.3及53.6。不過，QwQ-32B-Preview模型目前仍有許多問題，包括它可能會在回答中使用不同的語言，影響表達的連異性；在處理複雜的邏輯問題時，偶爾會落入無盡的循環；可能產生不恰當或具偏見的回答；除了數學及程式碼之外，它在其它領域仍有進步空間。此外，根據TechCrunch的報導，由於這是中國製的模型，因此已自行內建各種符合該國政策的審核機制，例如它不會回應針對天安門事件的詢問，還說臺灣是中國不可分割的一部分。先前TechCrunch也曾發現，由中國快手所建置的影片生成模型Kling，也會拒絕生成有關中國國家主席習近平的影片。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签