阿里通义千问更新 Qwen3-30B 非思考模型：AI 性能媲美 GPT-4o，推理、代码、数学等能力全面跃升

IT之家 07月30日 07:04

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

阿里通义千问近期在X平台发布了Qwen3-30B-A3B-Instruct-2507模型，该模型在激活3B参数的情况下，性能已接近GPT-4o和Qwen3-235B-A22B Non-Thinking。新模型主要在指令跟随、逻辑推理、文本理解、数学、科学、编程和工具使用等方面进行了显著提升。其参数总量为305亿，激活参数为33亿，支持262144个tokens的上下文长度，并且专为非思考模式设计，输出不再包含思考块。官方表示，该模型在多种语言的长尾知识覆盖方面有大幅增加，并能在主观和开放式任务中提供更符合用户偏好、更有帮助的回答和更高质量的文本生成。

💡 Qwen3-30B-A3B-Instruct-2507模型发布：阿里通义千问推出了Qwen3-30B-A3B-Instruct-2507这一更新模型，旨在提升通用能力。该模型在激活3B参数时，性能已能与GPT-4o和Qwen3-235B-A22B Non-Thinking相媲美。

🚀 性能提升亮点：新模型在多个关键领域展现了显著的进步，包括但不限于指令跟随、逻辑推理、文本理解、数学、科学知识、编程能力以及工具使用等方面，使其在处理复杂任务时更加得心应手。

⚙️ 技术规格与特点：该模型拥有305亿的参数总量，但实际激活的参数仅为33亿，大大提高了效率。其网络层数为48层，包含128个专家，其中8个专家被激活，并且原生支持高达262144个tokens的上下文长度，能够处理更长的文本输入。

🚫 非思考模式设计：Qwen3-30B-A3B-Instruct-2507模型专门设计为“非思考模式”，这意味着其在输出内容时不会生成“”模块，并且不再需要用户手动设置`enable_thinking=False`，简化了使用流程。

🌍 多语言与用户偏好优化：该模型显著增强了多种语言的长尾知识覆盖，并在主观和开放式任务中，能够更准确地理解用户意图，提供更贴合用户偏好的回答，从而提升了文本生成的质量和帮助性。

IT之家 7 月 30 日消息，阿里通义千问今天（7 月 30 日）在 X 平台发布推文，宣布推出 Qwen3-30B-A3B 非思考模式的更新版本，命名为 Qwen3-30B-A3B-Instruct-2507。

新模型主要提升指令跟随、逻辑推理、文本理解、数学、科学、编程和工具使用等通用能力，官方表示在激活 3B 参数的情况下，性能接近 GPT-4o 和 Qwen3-235B-A22B Non-Thinking。

IT之家援引官方博文内容，Qwen3-30B-A3B-Instruct-2507 模型的参数总量为 305 亿，但激活参数为 33 亿，非嵌入层数量为 299 亿，网络层数为 48 层，专家数为 128 个，激活专家数为 8 个，上下文长度原生支持 262144 个 tokens。

该模型仅支持非思考模式，在输出中不会生成 <think></think> 块。同时，不再需要指定 enable_thinking=False。官方表示新模型大幅增加了多种语言的长尾知识覆盖，且在主观和开放式任务中与用户偏好更加一致，能够提供更有帮助的回答和更高质量的文本生成。

	Deepseek-V3-0324	GPT-4o-0327	Gemini-2.5-Flash 非思考	Qwen3-235B-A22B 非思考	Qwen3-30B-A3B 非思考	Qwen3-30B-A3B-Instruct-2507
知识
MMLU-Pro	81.2	79.8	81.1	75.2	69.1	78.4
MMLU-Redux	90.4	91.3	90.6	89.2	84.1	89.3
GPQA	68.4	66.9	78.3	62.9	54.8	70.4
SuperGPQA	57.3	51.0	54.6	48.2	42.2	53.4
推理
AIME25	46.6	26.7	61.6	24.7	21.6	61.3
HMMT25	27.5	7.9	45.8	10.0	12.0	43.0
ZebraLogic	83.4	52.6	57.9	37.7	33.2	90.0
LiveBench 20241125	66.9	63.7	69.1	62.5	59.4	69.0
编程
LiveCodeBench v6 (25.02-25.05)	45.2	35.8	40.1	32.9	29.0	43.2
MultiPL-E	82.2	82.7	77.7	79.3	74.6	83.8
Aider-Polyglot	55.1	45.3	44.0	59.6	24.4	35.6
对齐
IFEval	82.3	83.9	84.3	83.2	83.7	84.7
Arena-Hard v2*	45.6	61.9	58.3	52.0	24.8	69.0
创意写作 v3	81.6	84.9	84.6	80.4	68.1	86.0
WritingBench	74.5	75.5	80.5	77.0	72.2	85.5
代理
BFCL-v3	64.7	66.5	66.1	68.0	58.6	65.1
TAU1-Retail	49.6	60.3#	65.2	65.2	38.3	59.1
TAU1-Airline	32.0	42.8#	48.0	32.0	18.0	40.0
TAU2-Retail	71.1	66.7#	64.3	64.9	31.6	57.0
TAU2-Airline	36.0	42.0#	42.5	36.0	18.0	38.0
TAU2-Telecom	34.0	29.8#	16.9	24.6	18.4	12.3
多语言
MultiIF	66.5	70.4	69.4	70.2	70.8	67.9
MMLU-ProX	75.8	76.2	78.3	73.2	65.1	72.0
INCLUDE	80.1	82.1	83.8	75.6	67.8	71.9
PolyMATH	32.2	25.5	41.9	27.0	23.3	43.1

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签