IT之家 2024年11月28日
阿里通义千问 QwQ 登场:开源 AI 推理新王,MATH 测试超 OpenAI o1 模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

阿里通义千问发布了名为QwQ-32B-Preview的实验性研究模型,该模型在数学和编程领域,尤其是在需要深度推理的复杂问题上展现出卓越的AI推理能力。它在一些基准测试中表现出色,例如在AIME和MATH基准测试中优于OpenAI的推理模型,并在GPQA基准测试中展现出研究生水平的科学推理能力。值得注意的是,该模型以Apache 2.0许可证开源,可用于商业应用,但也存在一些局限性,例如语言切换问题、推理循环、安全性考虑和能力差异等。阿里通义千问团队希望通过持续优化,提升QwQ模型的综合能力,使其更好地服务于用户。

🤔 **数学和编程领域表现卓越:** QwQ-32B-Preview在数学和编程领域,尤其是在需要深度推理的复杂问题上,展现出强大的AI推理能力,在多个基准测试中超越了OpenAI的模型。

🚀 **开源且可商用:** 该模型采用Apache 2.0许可证开源,这意味着它可以被用于商业应用,降低了开发者和企业的应用门槛。

⚠️ **模型存在局限性:** QwQ-32B-Preview模型尚处于发展阶段,存在一些局限性,例如语言切换问题、推理循环、安全性问题和能力差异等,需要谨慎使用。

📊 **基准测试结果突出:** 在GPQA、AIME、MATH-500和LiveCodeBench等基准测试中,QwQ-32B-Preview均取得了不错的成绩,展现了其在科学推理、数学问题解决和代码生成等方面的潜力。

💡 **阿里通义千问的愿景:** 阿里通义千问团队希望通过QwQ模型,探索人类思考和理解未知的能力,并持续优化模型,提升其综合能力。

IT之家 11 月 28 日消息,阿里通义千问今天(11 月 28 日)发布《QwQ: 思忖未知之界》博文,推出了 QwQ-32B-Preview 实验性研究模型,在数学和编程领域,尤其在需要深度推理的复杂问题上,具备卓越的 AI 推理能力。

它是少数能与 OpenAI 的 o1 匹敌的模型之一,并且是第一个能以宽松许可证下载的模型。QwQ-32B-Preview 在 Apache 2.0 许可证下“公开”可用,这意味着它可以用于商业应用。

QwQ 愿景 

阿里通义千问团队表示“思考、质疑、理解,是人类探索未知的永恒追求”,而 QwQ 犹如一位怀抱无尽好奇的学徒,以思考和疑问照亮前路。

模型局限性

阿里通义千问团队首先表明 QwQ 模型具备局限性,仍在学习如何行走于理性之路,它的思绪偶尔飘散,答案或许未尽完善,智慧仍在积淀。

IT之家附上原文中对该模型的局限性介绍如下:

模型表现

QwQ-32B-Preview 包含 325 亿个参数,能够处理最长 32000 个 tokens 的提示词;在 AIME 和 MATH 基准测试中,它的表现优于 OpenAI 的两个推理模型 o1-preview 和 o1-mini。

GPQA

该基准是一个通过小学级别问题评估高阶科学解题能力的评测集,旨在考察科学问题解决能力。QwQ-32B-Preview 评分为 65.2%,展示了研究生水平的科学推理能力。

AIME

该基准涵盖算术、代数、计数、几何、数论、概率等中学数学主题的综合评测,测试数学问题解决能力。QwQ-32B-Preview 评分为 50.0%,证明了强大的数学问题解决技能。

MATH-500

该基准包含 500 个测试样本的 MATH 评测集,全面考察数学解题能力。QwQ-32B-Preview 成绩为 90.6%,体现了在各类数学主题上的全面理解。

LiveCodeBench

该基准评估真实编程场景中代码生成和问题解决能力的高难度评测集。QwQ-32B-Preview 成绩为 50.0%,验证了在实际编程场景中的出色表现。

参考

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

阿里通义千问 QwQ-32B-Preview AI推理 大型语言模型 开源
相关文章