AI & Big Data 2024年11月29日
阿里巴巴釋出具備325億個參數的QwQ-32B-Preview模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

阿里巴巴的Qwen团队发布了名为QwQ-32B-Preview的325亿参数大语言模型,该模型在数学推理和代码生成方面表现出色,在AIME、MATH-500等测试中超越了OpenAI的o1-preview。QwQ-32B-Preview强调推理能力,通过深入思考和自我质疑来提升解决问题的能力。虽然在一些测试中取得了领先成绩,但该模型也存在一些问题,例如语言切换、逻辑循环、偏见等。此外,由于模型是中国制造,因此内置了符合中国政策的审查机制,例如不会回应关于天安门事件的提问。

🤔QwQ-32B-Preview是一个拥有325亿参数、32768个Token上下文长度的大语言模型,其核心优势在于强大的推理能力,尤其在数学和代码生成方面表现突出。

🚀在数学能力测试中,QwQ-32B-Preview在AIME和MATH-500上分别取得了50和90的成绩,超过了OpenAI的o1-preview。在代码生成测试LiveCodeBench上也有出色的表现,展现了其强大的逻辑推理和问题解决能力。

⚠️QwQ-32B-Preview也存在一些局限性,例如在回答中可能切换语言、处理复杂逻辑时容易陷入循环、可能产生不恰当或有偏见的回答,以及在非数学和代码领域仍有提升空间。

🇨🇳由于模型由中国团队开发,因此内置了符合中国政策的审查机制,例如不会回答与天安门事件相关的问题,并认为台湾是中国不可分割的一部分。

💡该模型的发布表明中国在大型语言模型领域持续发力,并在特定领域取得了突破性进展,但也引发了关于AI伦理和内容审查等方面的讨论。

阿里巴巴的Qwen Team本周釋出了QwQ-32B-Preview,這是一個具備325億個參數,脈絡長度為32,768個Token,強調推論能力的實驗性研究模型,在AIME及MATH-500等數學能力基準測試上的表現,勝過了OpenAI的o1-preview,在程式生成及解決程式設計問題的LiveCodeBench測試上亦有出色的表現。開發人員已可透過Hugging Face存取該模型。Qwen團隊指出,藉由深入探索及無數試驗,發現當模型有足夠的時間思考、質疑及反射時,它對數學與程式碼的理解就會深化,這種細致的反思與自我質疑的過程,令模型能夠取得解決複雜問題的突破性進展,並在許多測試上取得卓越的成績,像是評測高階科學問題解決能力的GPQA,涵蓋算數、代數、幾何與概率等中學數學的AIME,包含500個測試樣本的MATH-500,以及實際生成程式碼的LiveCodeBench。QwQ-32B-Preview在AIME與MATH-500的測試成績分別達到50與90,超越OpenAI o1-preview的44.6及85.5,而它在GPQA及LiveCodeBench的成績則是65.2及50,低於o1-preview的72.3及53.6。不過,QwQ-32B-Preview模型目前仍有許多問題,包括它可能會在回答中使用不同的語言,影響表達的連異性;在處理複雜的邏輯問題時,偶爾會落入無盡的循環;可能產生不恰當或具偏見的回答;除了數學及程式碼之外,它在其它領域仍有進步空間。此外,根據TechCrunch的報導,由於這是中國製的模型,因此已自行內建各種符合該國政策的審核機制,例如它不會回應針對天安門事件的詢問,還說臺灣是中國不可分割的一部分。先前TechCrunch也曾發現,由中國快手所建置的影片生成模型Kling,也會拒絕生成有關中國國家主席習近平的影片。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

QwQ-32B-Preview 大语言模型 AI推理 代码生成 阿里巴巴
相关文章