【内含 OpenAI API 调用教程】超强逻辑推理能力，vLLM + Qwen-30B-A3B 登场！

Qwen3 项目是由阿里 Qwen 团队于 2025 年发布，相关技术报告为「Qwen3: Think Deeper, Act Faster」。

Qwen3 是 Qwen 系列中最新一代大型语言模型，提供全面的密集模型和混合专家 (MoE) 模型。 Qwen3 基于丰富的训练经验，在推理、指令遵循、代理能力和多语言支持方面取得了突破性进展。Qwen3 支持在思考模式（用于复杂逻辑推理、数学和编码）和非思考模式（用于高效通用对话）之间无缝切换，确保在各种场景下的最佳性能；有显著增强的推理能力，在数学、代码生成和常识逻辑推理方面超越了之前的 QwQ 和 Qwen2.5 指令模型。同时，Qwen3 支持 100 多种语言和方言，具有强大的多语言理解、推理、指令跟随和生成能力。

教程链接：go.openbayes.com/tU7Gi

使用云平台: OpenBayes

<openbayes.com/console/sig…>

首先点击「公共教程」，在公共教程中找到「使用vLLM+ Open-webUl 部署 Qwen3-30B-A3B 」，单击打开。

页面跳转后，点击右上角「克隆」，将该教程克隆至自己的容器中。

平台会默认选配好原教程所使用的算力资源、镜像版本，不需要再进行手动选择。目前平台计费方式已经更新，大家可以按照需求选择「按量付费」或「包日/周/月」。点击「继续执行」，等待分配资源。

一、web 前端界面

数据和代码都已经同步完成了，大约等待 5 分钟后，启动访问地址

来到这个界面就可以与模型进行对话了。我们默认提供 A3B 模型，可在这里输入对话内容。

二、OpenAI API 调用

1.获取基础配置

1. 获取基础配置

# 必要参数配置BASE_URL = "<API 地址>/v1"  # 生产环境MODEL_NAME = "Qwen3-30B-A3B"  # 默认模型名称API_KEY = "Empty"  # 未设置API_KEY

获取 API 地址

2. 不同调用方式

2.1 原生 Python 调用

import openai# 创建 OpenAI 客户端实例client = openai.OpenAI(    api_key=API_KEY,  # 请替换为你的实际 API Key    base_url=BASE_URL  # 替换为你的实际 base_url)# 发送聊天消息response = client.chat.completions.create(    model=MODEL_NAME,    messages=[        {"role": "user", "content": "你好！"}    ],    temperature=0.7, )# 输出回复内容print(response.choices[0].message.content)# 方法2：requests库（更灵活）import requestsheaders = {    "Authorization": f"Bearer {API_KEY}",    "Content-Type": "application/json"}data = {    "model": MODEL_NAME,    "messages": [{"role": "user", "content": "你好！"}]}response = requests.post(f"{BASE_URL}/chat/completions", headers=headers, json=data)

2.2 开发工具集成

如 VScode 安装官方CLINE插件

2.3 curl 调用

curl <BASE_URL>/v1/chat/completions \  -H "Content-Type: application/json" \  -d '{    "model": <MODEL_NAME>,    "messages": [{"role": "user", "content": "你好！"}]  }'

四、切换模型

本教程默认使用 Qwen3-30B-A3B 模型，如需切换为 Qwen3-32B，请按以下步骤操作：

1. 关闭当前模型服务

在终端运行以下命令，找到 vllm 进程并关闭：

ps aux | grep vllm

找到进程号（PID），然后执行：

kill [PID]

2. 启动新模型

例如，启动 Qwen3-32B：

vllm serve /input2/Qwen3-32B \  --tensor_parallel_size 1 \  --host 0.0.0.0 \  --port 8080 \  --gpu-memory-utilization 0.95 \  --max-num-seqs 16 \  --served-model-name Qwen3-32B \  --enable-reasoning \  --reasoning-parser deepseek_r1

修改说明：

/input0/Qwen3-30B-A3B

Qwen3-32B

--served-model-name