通义Qwen3非思考模型上新多项能力达到Gemini2.5、GPT-4o水平

Cnbeta 07月30日 08:12

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

阿里巴巴通义千问团队发布了最新开源模型Qwen3-30B-A3B-Instruct-2507。该模型在激活3B参数的情况下，性能已能比肩Gemini 2.5-Flash和GPT-4o等闭源模型，并在多语言、用户偏好对齐及长文本处理方面取得了显著进步。模型在数学推理、代码生成、科学问题解答、人类偏好对齐和函数调用等多个关键基准测试中表现优异，部分指标甚至超越了GPT-4o。此次发布进一步巩固了通义千问系列模型在开源社区的领先地位，为全球开发者提供了强大的AI能力。

🚀 **性能比肩顶尖闭源模型**：Qwen3-30B-A3B-Instruct-2507模型在仅激活3B参数的条件下，其核心能力在多项基准测试中已达到或超越Gemini 2.5-Flash和GPT-4o等领先的闭源模型，特别是在数学推理、代码生成、研究生级科学问题解答等方面表现突出，展现了高效且强大的AI能力。

💡 **多维度能力显著提升**：该模型在通用能力上全面强化了指令遵循、逻辑推理、数学、科学、编程及工具使用，并在多语言的长尾知识覆盖上取得了显著进步。在主观和开放式任务中，模型更能紧密对齐用户偏好，生成更高质量、更有帮助的文本，长文本理解能力也提升至256K。

🌐 **广泛开源与社区贡献**：Qwen3-30B-A3B-Instruct-2507模型已在魔搭社区（ModelScope）和HuggingFace平台全面开源，延续了通义千问团队在架构创新上的优势，大幅降低了计算成本。阿里巴巴达摩院迄今已开源超200个模型，全球下载量破3亿，衍生模型数超10万，为AI技术普及和发展做出了巨大贡献。

📊 **关键基准测试表现亮眼**：官方数据显示，该模型在AIME25（数学推理）得分61.3，LiveCodeBenchv6（代码生成）得分43.2，GPQA（研究生级物理和天文学）得分70.4，Arena-Hard v2（人类偏好对齐）得分69，BFCL-v3（函数调用）得分65.1，这些数据充分证明了其在关键技术领域的先进性。

7月30日，阿里巴巴通义千问团队宣布推出Qwen3系列模型的最新版本 ——Qwen3-30B-A3B-Instruct-2507。这一非思考模式（non-thinking mode）的开源模型仅需激活3B参数，即可在多项核心能力上达到与Gemini 2.5-Flash（non-thinking）、GPT-4o等闭源模型相当的性能水平，同时在多语言覆盖、用户偏好对齐和长文本处理等领域实现突破性提升。

目前，该模型已在魔搭社区（ModelScope）和HuggingFace平台全面开源。

作为Qwen3-30B-A3B模型中的新版本，Qwen3-30B-A3B-Instruct-2507延续了通义千问团队在架构创新上的优势，在大幅降低计算成本的同时，实现了与千亿级闭源模型的性能对标。官方数据显示，该模型在数学推理（AIME25测试得分61.3）、代码生成（LiveCodeBenchv6得分43.2）、研究生级物理和天文学问题（GPQA测试得分70.4）、人类偏好对齐（Arena-Hard v2得分69）、函数调用能力（BFCL-v3得分65.1）等关键基准测试中表现突出，部分指标甚至超越GPT-4o等。

在通用能力层面，模型全面强化了指令遵循、逻辑推理、数学、科学、编程及工具使用等多方面。在多语言的长尾知识覆盖方面，模型进步显著；在主观和开放任务中，新模型与进一步紧密对齐了用户偏好，可以生成更高质量的文本，为用户提供更有帮助的回答；长文本理解能力提升至256K。

通义千问是阿里巴巴达摩院自主研发的大语言模型系列，自2023年发布以来，已开源超200个模型，全球下载量突破3亿次，衍生模型数超10万个。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签