掘金 人工智能 前天 15:28
Qwen3强势来袭:推理力爆表、语言超百种、智能体协作领先,引领AI开源大模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Qwen3是通义千问最新一代开源模型,包含全尺寸稠密模型和混合专家模型,参数量从0.6B到235B不等。它支持思考和非思考模式的无缝切换,显著增强了推理能力,在数学、代码生成和常识逻辑推理方面表现出色。Qwen3还擅长智能体能力,可以精确集成外部工具,在复杂的基于代理的任务中表现领先。此外,该模型支持100多种语言和方言,具有强大的多语言理解和生成能力。通义App和网页版已全面上线Qwen3,用户可以体验其在逻辑推理、编程和翻译等领域的卓越能力。

🚀Qwen3系列模型包含多种规格,从0.6B到235B,覆盖全尺寸稠密模型和混合专家模型,满足不同应用场景的需求。

🤔Qwen3创新性地支持思考模式和非思考模式的切换,思考模式适用于复杂推理,非思考模式适用于快速对话,确保在各种场景下的最佳性能。

🧰Qwen3在智能体能力方面表现出色,能够精确集成外部工具,并在复杂的基于代理的任务中领先,极大地拓展了其应用范围。

🌐Qwen3支持超过100种语言和方言,具备强大的多语言理解、推理、指令跟随和生成能力,为全球用户提供便利。

1.Qwen3

最新版本Qwen3有以下特点:

Models LayersHeads (Q / KV)Tie EmbeddingContext Length
Qwen3-0.6B2816 / 8Yes 32K
Qwen3-1.7B 2816 / 8Yes 32K
Qwen3-4B3632 / 8 Yes 32K
Qwen3-8B 3632 / 8 No128K
Qwen3-14B 4040 / 8 No128K
Qwen3-32B6464 / 8 No128K
Models LayersHeads (Q / KV)Experts (Total/ Activated)Context Length
Qwen3-30B-A3B4832 / 4128 / 8 128K 
Qwen3-235B-A22B9464 / 4128 / 8 128K 

Qwen3-235B-A22B 在代码、数学、通用能力等基准测试中,与一众顶级模型相比,表现出极具竞争力的结果。

小型 MoE 模型 Qwen3-30B-A3B 的激活参数数量是 QwQ-32B10%,表现更胜一筹, Qwen3-4B 这样的小模型也能匹敌 Qwen2.5-72B-Instruct 的性能。

经过后训练的模型,例如 Qwen3-30B-A3B,以及它们的预训练基座模型(如 Qwen3-30B-A3B-Base),现已在 Hugging Face、ModelScope 等平台上开放使用。

1.1 多种思考模式

Qwen3 模型支持两种思考模式:

    思考模式:在这种模式下,模型会逐步推理,经过深思熟虑后给出最终答案。这种方法非常适合需要深入思考的复杂问题。

    非思考模式:在此模式中,模型提供快速、近乎即时的响应,适用于那些对速度要求高于深度的简单问题。

这种灵活性使用户能够根据具体任务控制模型进行 “思考” 的程度。例如,复杂的问题可以通过扩展推理步骤来解决,而简单的问题则可以直接快速作答,无需延迟。

这两种模式的结合大大增强了模型实现稳定且高效的 “思考预算” 控制能力。

Qwen3 展现出可扩展且平滑的性能提升,这与分配的计算推理预算直接相关。这样的设计让用户能够更轻松地为不同任务配置特定的预算,在成本效益和推理质量之间实现更优的平衡。

1.2 119 种语言

Qwen3 模型支持 119 种语言和方言。这一广泛的多语言能力为国际应用开辟了新的可能性,让全球用户都能受益于这些模型的强大功能。

1.3 Agent 能力

如今,Agent 已经是大模型领域重点关注的能力之一,尤其是最近 MCP 模型上下文协议的引入更是大大增强了 Agent 的适用性和灵活性,大大拓宽了应用场景。

此次,Qwen3 模型的 Agent 和 代码能力得到增强,包括加强了对 MCP 的支持。可以看下面一个示例(提取 QwenLM 库的 markdown 内容,然后绘制显示项目 stars 数量的条形图),展示了 Qwen3 如何思考并与环境进行交互:

[video(video-2V3cO1jJ-1745908156203)(type-csdn)(url-live.csdn.net/v/embed/475… 模型的 Agent -mcp)]

首先来个简单的推理测试题,Qwen3-235B-A22B 不出意料地能轻松应对。

1.4 qwen3 训练

预训练数据量达 36 万亿 token,后训练实现混合推理

在预训练方面,Qwen3 的数据集相比 Qwen2.5 有了显著扩展。Qwen2.5 是在 18 万亿个 token 上进行预训练的,而 Qwen3 使用的数据量几乎是其两倍,达到了约 36 万亿个 token,涵盖了 119 种语言和方言。

为了构建庞大的数据集,开发团队不仅从网络上收集数据,还从 PDF 文档中提取信息。他们使用 Qwen2.5-VL 从这些文档中提取文本,并用 Qwen2.5 改进提取内容的质量。

另外,为了增加数学和代码数据的数量,开发团队利用 Qwen2.5-Math 和 Qwen2.5-Coder 这两个数学和代码领域的专家模型合成数据,合成了包括教科书、问答对以及代码片段等多种形式的数据。

具体而言,预训练过程分为了以下三个阶段:

得益于模型架构的改进、训练数据的增加以及更有效的训练方法,Qwen3 Dense 基础模型的整体性能与参数更多的 Qwen2.5 基础模型相当,例如 Qwen3-1.7B/4B/8B/14B/32B-Base 分别与 Qwen2.5-3B/7B/14B/32B/72B-Base 表现相当。

特别是在 STEM、编码和推理等领域,Qwen3 Dense 基础模型的表现甚至超过了更大规模的 Qwen2.5 模型。可以看到,Qwen3 MoE 基础模型在仅使用 10% 激活参数的情况下达到了与 Qwen2.5 Dense 基础模型相似的性能,由此带来了训练和推理成本的显著节省。

与此同时,Qwen3 在后训练阶段同样进行了优化。

为了开发能够同时具备思考推理和快速响应能力的混合模型,开发团队实施了一个四阶段的训练流程,包括:(1)长思维链冷启动,(2)长思维链强化学习,(3)思维模式融合,以及(4)通用强化学习。

1.5 部署资源

2.Qwen3快速开始

2.1 思考模式

以下是如何在不同框架中使用 Qwen3 的简单指南。提供了一个在 Hugging Face transformers 中使用 Qwen3-30B-A3B 的标准示例:

from modelscope import AutoModelForCausalLM, AutoTokenizermodel_name = "Qwen/Qwen3-30B-A3B"# load the tokenizer and the modeltokenizer = AutoTokenizer.from_pretrained(model_name)model = AutoModelForCausalLM.from_pretrained(    model_name,    torch_dtype="auto",    device_map="auto")# prepare the model inputprompt = "Give me a short introduction to large language model."messages = [    {"role": "user", "content": prompt}]text = tokenizer.apply_chat_template(    messages,    tokenize=False,    add_generation_prompt=True,    enable_thinking=True # Switch between thinking and non-thinking modes. Default is True.)model_inputs = tokenizer([text], return_tensors="pt").to(model.device)# conduct text completiongenerated_ids = model.generate(    **model_inputs,    max_new_tokens=32768)output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist() # parsing thinking contenttry:    # rindex finding 151668 (</think>)    index = len(output_ids) - output_ids[::-1].index(151668)except ValueError:    index = 0thinking_content = tokenizer.decode(output_ids[:index], skip_special_tokens=True).strip("\n")content = tokenizer.decode(output_ids[index:], skip_special_tokens=True).strip("\n")print("thinking content:", thinking_content)print("content:", content)

要禁用思考模式,只需对参数 enable_thinking 进行如下修改:

text = tokenizer.apply_chat_template(    messages,    tokenize=False,    add_generation_prompt=True,    enable_thinking=False  # True is the default value for enable_thinking.)

对于部署,您可以使用 sglang>=0.4.6.post1 或 vllm>=0.8.4 来创建一个与 OpenAI API 兼容的 API endpoint:

SGLang:

    python -m sglang.launch_server --model-path Qwen/Qwen3-30B-A3B --reasoning-parser qwen3

vLLM:

    vllm serve Qwen/Qwen3-30B-A3B --enable-reasoning --reasoning-parser deepseek_r1

要禁用思考模式,您可以移除参数 --reasoning-parser(以及 --enable-reasoning)。

如果用于本地开发,您可以通过运行简单的命令 ollama run qwen3:30b-a3b 来使用 ollama 与模型进行交互。您也可以使用 LMStudio 或者 llama.cpp 以及 ktransformers 等代码库进行本地开发。

2.2 多轮对话

提供了一种软切换机制,允许用户在 enable_thinking=True 时动态控制模型的行为。具体来说,您可以在用户提示或系统消息中添加 /think 和 /no_think 来逐轮切换模型的思考模式。在多轮对话中,模型会遵循最近的指令。

以下是一个多轮对话的示例:

from transformers import AutoModelForCausalLM, AutoTokenizerclassQwenChatbot:    def __init__(self, model_):        self.tokenizer = AutoTokenizer.from_pretrained(model_name)        self.model = AutoModelForCausalLM.from_pretrained(model_name)        self.history = []    def generate_response(self, user_input):        messages = self.history + [{"role": "user", "content": user_input}]        text = self.tokenizer.apply_chat_template(            messages,            tokenize=False,            add_generation_prompt=True        )        inputs = self.tokenizer(text, return_tensors="pt")        response_ids = self.model.generate(**inputs, max_new_tokens=32768)[0][len(inputs.input_ids[0]):].tolist()        response = self.tokenizer.decode(response_ids, skip_special_tokens=True)        # Update history        self.history.append({"role": "user", "content": user_input})        self.history.append({"role": "assistant", "content": response})        return response# Example Usageif __name__ == "__main__":    chatbot = QwenChatbot()    # First input (without /think or /no_think tags, thinking mode is enabled by default)    user_input_1 = "How many r's in strawberries?"    print(f"User: {user_input_1}")    response_1 = chatbot.generate_response(user_input_1)    print(f"Bot: {response_1}")    print("----------------------")    # Second input with /no_think    user_input_2 = "Then, how many r's in blueberries? /no_think"    print(f"User: {user_input_2}")    response_2 = chatbot.generate_response(user_input_2)    print(f"Bot: {response_2}")     print("----------------------")    # Third input with /think    user_input_3 = "Really? /think"    print(f"User: {user_input_3}")    response_3 = chatbot.generate_response(user_input_3)    print(f"Bot: {response_3}")

2.3 Agent

Qwen3 在工具调用能力方面表现出色。推荐使用 Qwen-Agent 来充分发挥 Qwen3 的 Agent 能力。Qwen-Agent 内部封装了工具调用模板和工具调用解析器,大大降低了代码复杂性。

要定义可用的工具,您可以使用 MCP 配置文件,使用 Qwen-Agent 内置的工具,或者自行集成其他工具。

from qwen_agent.agents import Assistant# Define LLMllm_cfg = {    'model': 'Qwen3-30B-A3B',    # Use the endpoint provided by Alibaba Model Studio:    # 'model_type': 'qwen_dashscope',    # 'api_key': os.getenv('DASHSCOPE_API_KEY'),    # Use a custom endpoint compatible with OpenAI API:    'model_server': 'http://localhost:8000/v1',  # api_base    'api_key': 'EMPTY',    # Other parameters:    # 'generate_cfg': {    #         # Add: When the response content is `<think>this is the thought</think>this is the answer;    #         # Do not add: When the response has been separated by reasoning_content and content.    #         'thought_in_content': True,    #     },}# Define Toolstools = [    {'mcpServers': {  # You can specify the MCP configuration file            'time': {                'command': 'uvx',                'args': ['mcp-server-time', '--local-timezone=Asia/Shanghai']            },            "fetch": {                "command": "uvx",                "args": ["mcp-server-fetch"]            }        }    },  'code_interpreter',  # Built-in tools]# Define Agentbot = Assistant(llm=llm_cfg, function_list=tools)# Streaming generationmessages = [{'role': 'user', 'content': 'https://qwenlm.github.io/blog/ Introduce the latest developments of Qwen'}]for responses in bot.run(messages=messages):    passprint(responses)

3.Qwen3上线应用

通义App与通义网页版(tongyi.com)全面上线阿里新一代通义千问开源模型Qwen3(简称千问3)。

千问3系列推出两款重磅模型:Qwen3-235B-A22B采用混合专家(MoE)架构,性能达到国产及全球开源模型的新高度;Qwen3-32B为高性能稠密模型,具备低成本部署、高效稳定等优势,成为企业首选。两款模型均已上线通义App和网页版“千问大模型”智能体,用户可在主对话页面体验其在逻辑推理、编程、翻译等领域的卓越能力。升级后的通义App以超级智能体为核心,支持问答、聊天、图片理解与生成、写作、翻译等多项智能功能,并持续强化代码生成、数学推理、拍照讲题等专业技能,打造实用、贴心的个人AI助手。

### Qwen3 相对于其他开源模型的优势#### 1. **性能与效率**- **混合推理模式**:Qwen3 是国内首个“混合推理模型”,结合了“快思考”(快速响应)和“慢思考”(深度推理)两种模式:  - **快思考**:用于简单任务,低算力消耗,秒级响应。  - **慢思考**:用于复杂问题,多步骤推理,节省整体算力消耗。- **参数优化**:旗舰模型 **Qwen3-235B-A22B** 拥有 2350 亿总参数,但在推理时仅激活 220 亿参数,显存占用仅为性能相近模型的 **三分之一**,部署成本大幅降低(仅需4张H20 GPU)。- **小模型性能**:即使是较小的模型(如 Qwen3-4B),也能媲美甚至超越更大规模的上一代模型(如 Qwen2.5-72B-Instruct)。#### 2. **基准测试表现**- **超越竞品**:  - 在数学评测(AIME25)中得分为 **81.5**,刷新开源模型记录。  - 在代码能力评测(LiveCodeBench)中突破 **70 分**,超过 Grok-3。  - 在人类偏好对齐评测(ArenaHard)中得分为 **95.6**,超越 OpenAI-o1 和 DeepSeek-R1。  - 在 Agent 能力评测(BFCL)中得分为 **70.8**,超越 Gemini 2.5-Pro 和 OpenAI-o1。- **参数效率**:Qwen3 的 MoE 模型(如 Qwen3-30B-A3B)仅激活 30 亿参数,但性能接近 GPT-4o,并能匹敌 Qwen2.5-72B-Instruct。#### 3. **部署成本与灵活性**- **低成本部署**:Qwen3 的满血版(235B 参数)仅需 4 张 H20 GPU,显存占用仅为性能相近模型的三分之一。- **多尺寸选择**:提供从 0.6B 到 235B 的多种模型(包括 MoE 和 Dense 架构),适应不同场景需求(如资源受限环境、本地部署等)。#### 4. **多语言与多模态支持**- **119 种语言支持**:首次支持 119 种语言,覆盖全球主流语言及方言。- **多模态能力**:增强对文本、图像、音频、视频的统一处理能力,支持视觉推理(如解析数学公式、表格)、实时语音生成和视频流处理。#### 5. **开源生态与协议**- **宽松开源协议**:采用 Apache 2.0 协议,允许个人和企业自由使用、修改和商业化,相比 Meta Llama 的复杂许可更友好。- **全球下载量领先**:阿里通义已开源 200+ 模型,累计下载量超 3 亿次,衍生模型数超 10 万个,超越 Llama 成为全球最大开源模型生态。---### Qwen3 相比 Qwen2.5 的主要改进#### 1. **训练数据与上下文长度**- **数据量翻倍**:Qwen3 的预训练数据从 Qwen2.5 的 **18 万亿 token** 扩展到 **36 万亿 token**,涵盖更多高质量多模态数据(如教科书、代码片段、问答对等)。- **长上下文支持**:Qwen3 支持高达 **128K 上下文长度**,可处理更复杂的长文本任务(如文档分析、多轮对话)。#### 2. **模型架构优化**- **Attention 层改进**:Qwen3 和 Qwen3MoE 的 Attention 层对查询(q)和键(k)进行了归一化处理,提升计算稳定性。- **滑动窗口缓存**:默认支持滑动窗口缓存,减少重复计算,提升推理效率。- **Flash-Attention 集成**:Qwen3MoE 模型集成 Flash-Attention 模块,加速注意力机制的计算。#### 3. **性能提升**- **Dense 模型性能**:Qwen3 的 Dense 模型(如 Qwen3-32B)在 STEM、编程和推理任务中,性能超越同规模甚至更大规模的 Qwen2.5 模型。- **MoE 模型效率**:Qwen3MoE 模型(如 Qwen3-30B-A3B)仅激活 10% 的参数量(如 30B vs Qwen2.5-32B),但性能更优,显著降低训练和推理成本。#### 4. **推理与训练方法改进**- **四阶段训练流程**:Qwen3 采用四阶段训练方法(长推理链冷启动、强化学习、思维模式融合、通用强化学习),开发兼具推理和快速响应能力的混合模型。- **数学与编码能力增强**:通过合成数学和代码数据(利用 Qwen2.5-Math/Coder 等模型),进一步提升 STEM 领域的表现。#### 5. **工具调用与 Agent 支持**- **原生 MCP 协议支持**:Qwen3 原生支持 MCP 协议,结合 Qwen-Agent 框架,简化工具调用流程,降低编码复杂性。- **Agent 能力提升**:在 BFCL 评测中,Qwen3 的 Agent 得分(70.8)远超竞品,大幅降低智能体调用工具的门槛。---### 总结Qwen3 在性能、成本、多语言/多模态能力、开源生态等方面全面超越竞品(如 Llama 4、DeepSeek-R1),并针对 Qwen2.5 进行了多项关键改进(如数据量扩展、模型架构优化、推理效率提升)。其“混合推理”模式和低成本部署能力,使其成为当前最强开源模型之一,尤其适合大规模应用和资源受限场景。

4.通义灵码

Qwen3 模型支持两种思考模式:

    思考模式:在这种模式下,模型会逐步推理,经过深思熟虑后给出最终答案。这种方法非常适合需要深入思考的复杂问题。

    非思考模式:在此模式中,模型提供快速、近乎即时的响应,适用于那些对速度要求高于深度的简单问题。

这种灵活性使用户能够根据具体任务控制模型进行 “思考” 的程度。例如,复杂的问题可以通过扩展推理步骤来解决,而简单的问题则可以直接快速作答,无需延迟。至关重要的是,这两种模式的结合大大增强了模型实现稳定且高效的 “思考预算” 控制能力。

Qwen3 为即将到来的智能体 Agent 和大模型应用爆发提供了更好的支持。在评估模型 Agent 能力的 BFCL 评测中,Qwen3 创下 70.8 的新高,超越 Gemini2.5-Pro、OpenAI-o1 等顶尖模型,这将大幅降低 Agent 调用工具的门槛。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Qwen3 通义千问 开源模型 混合专家模型 多语言支持
相关文章