阿里通义千问 Qwen3 系列模型有望今日发布，支持 256K 上下文长度

IT之家 04月28日 20:23

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

阿里通义千问团队或将发布Qwen3系列模型，引发关注。新模型曾在ModelScope短暂亮相，后又下线，包括Qwen3-4B-Base、Qwen3-1.7B、Qwen3-0.6B及Qwen3-30B-A3B-Base四款。所有模型均采用Apache License 2.0开源协议。Qwen3系列模型在参数规模、架构设计和上下文长度等方面均有所突破，涵盖了轻量化应用和MoE架构，以及高达256K的上下文长度。这标志着阿里在人工智能模型领域的持续投入和开源策略的深化。

🚀 Qwen3系列模型包含Qwen3-4B-Base、Qwen3-1.7B、Qwen3-0.6B及Qwen3-30B-A3B-Base四款，均采用Apache License 2.0开源协议。

💡 Qwen3-4B、Qwen3-1.7B和Qwen3-0.6B以参数规模直接命名，推测为单架构稠密模型，主打轻量化应用场景。

⚙️ Qwen3-30B-A3B-Base为MoE架构基础模型，总参数300亿，动态调用30亿参数处理任务。

📏 Qwen3支持高达256K的上下文长度，涵盖推理与非推理任务。

IT之家 4 月 28 日消息，阿里通义千问开源负责人林俊旸在 X 上发文暗示，Qwen3 模型有望今日发布。

值得一提的是，Qwen3 系列模型合集已在阿里巴巴旗下 AI 模型开源社区 ModelScope（魔搭）短暂亮相后又下线，包括 Qwen3-4B-Base、Qwen3-1.7B、Qwen3-0.6B 及 Qwen3-30B-A3B-Base 四款模型。所有模型均采用 Apache License 2.0 开源协议。尽管官方尚未发布正式公告，但结合命名规则与前代技术逻辑，可推测其技术路径与定位方向。

此次发布的模型中，Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B 以参数规模直接命名，分别对应 40 亿、17 亿和 6 亿参数。此类无后缀的命名方式或表明其为单架构稠密模型，未采用混合专家（MoE）设计，推测主打轻量化应用场景。而 Qwen3-30B-A3B-Base 为 MoE 架构基础模型，总参数 300 亿（30B）中动态调用 30 亿（3B）参数处理任务。

另据据 AIbase 报道，Qwen3 支持高达 256K 的上下文长度，涵盖推理与非推理任务。

据IT之家了解，自 2023 年 8 月起，阿里云相继开源 Qwen、Qwen1.5、Qwen2、Qwen2.5 等 4 代模型，囊括了 0.5B、1.5B、3B、7B、14B、32B、72B、110B 等全尺寸，大语言、多模态、数学和代码等全模态。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签