Qwen3 项目是由阿里 Qwen 团队于 2025 年发布,相关技术报告为 「Qwen3: Think Deeper, Act Faster」。
Qwen3 是 Qwen 系列中最新一代大型语言模型,提供全面的密集模型和混合专家 (MoE) 模型。 Qwen3 基于丰富的训练经验,在推理、指令遵循、代理能力和多语言支持方面取得了突破性进展。Qwen3 支持在思考模式(用于复杂逻辑推理、数学和编码)和 非思考模式(用于高效通用对话)之间无缝切换,确保在各种场景下的最佳性能;有显著增强的推理能力,在数学、代码生成和常识逻辑推理方面超越了之前的 QwQ 和 Qwen2.5 指令模型。同时,Qwen3 支持 100 多种语言和方言,具有强大的多语言理解、推理、指令跟随和生成能力。
使用云平台: OpenBayes
首先点击「公共教程」,在公共教程中找到「使用vLLM+ Open-webUl 部署 Qwen3-30B-A3B 」,单击打开。
页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。
平台会默认选配好原教程所使用的算力资源、镜像版本,不需要再进行手动选择。目前平台计费方式已经更新,大家可以按照需求选择「按量付费」或「包日/周/月」。点击「继续执行」,等待分配资源。
一、web 前端界面
数据和代码都已经同步完成了,大约等待 5 分钟后,启动访问地址
来到这个界面就可以与模型进行对话了。我们默认提供 A3B 模型,可在这里输入对话内容。
二、OpenAI API 调用
1.获取基础配置
1. 获取基础配置
# 必要参数配置BASE_URL = "<API 地址>/v1" # 生产环境MODEL_NAME = "Qwen3-30B-A3B" # 默认模型名称API_KEY = "Empty" # 未设置API_KEY
获取 API 地址
2. 不同调用方式
2.1 原生 Python 调用
import openai# 创建 OpenAI 客户端实例client = openai.OpenAI( api_key=API_KEY, # 请替换为你的实际 API Key base_url=BASE_URL # 替换为你的实际 base_url)# 发送聊天消息response = client.chat.completions.create( model=MODEL_NAME, messages=[ {"role": "user", "content": "你好!"} ], temperature=0.7, )# 输出回复内容print(response.choices[0].message.content)# 方法2:requests库(更灵活)import requestsheaders = { "Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"}data = { "model": MODEL_NAME, "messages": [{"role": "user", "content": "你好!"}]}response = requests.post(f"{BASE_URL}/chat/completions", headers=headers, json=data)
2.2 开发工具集成
如 VScode 安装官方CLINE
插件
2.3 curl 调用
curl <BASE_URL>/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": <MODEL_NAME>, "messages": [{"role": "user", "content": "你好!"}] }'
四、切换模型
本教程默认使用 Qwen3-30B-A3B 模型,如需切换为 Qwen3-32B,请按以下步骤操作:
1. 关闭当前模型服务
在终端运行以下命令,找到 vllm
进程并关闭:
ps aux | grep vllm
找到进程号(PID),然后执行:
kill [PID]
2. 启动新模型
例如,启动 Qwen3-32B:
vllm serve /input2/Qwen3-32B \ --tensor_parallel_size 1 \ --host 0.0.0.0 \ --port 8080 \ --gpu-memory-utilization 0.95 \ --max-num-seqs 16 \ --served-model-name Qwen3-32B \ --enable-reasoning \ --reasoning-parser deepseek_r1
修改说明:
/input0/Qwen3-30B-A3B
→ 替换为你的目标模型路径(如 Qwen3-32B
)。--served-model-name
→ 修改为对应模型名称(如 Qwen3-32B
)。完成后,新模型即可使用!