2 月 6 日晚间消息,今日,李飞飞等斯坦福大学和华盛顿大学研究人员以不到 50 美元的云计算费用训练了一个名叫 s1 的人工智能推理模型,该模型在数学和编码能力测试中的表现与 OpenAl 的 o1 和 Depsek 的 R1 等尖端推理模型类似,引发广泛关注。
不过很快,该 s1 模型被指“并非从零开始训练”,其基座模型为“阿里通义千问(Qwen)模型”。对此,新浪科技向阿里云方面求证,阿里云方面确认了这一消息,并回应称:“他们以阿里通义千问 Qwen2.5-32B-Instruct 开源模型为底座,在 16 块 H100 GPU 上监督微调 26 分钟,训练出新模型 s1-32B,取得了与 OpenAI 的 o1 和 DeepSeek 的 R1 等尖端推理模型数学及编码能力相当的效果,甚至在竞赛数学问题上的表现比 o1-preview 高出 27%。”
阿里云方面表示,更早之前,DeepSeek 官方曾透露,将 DeepSeek-R1 的推理能力蒸馏 6 个模型开源给社区,其中 4 个模型来自 Qwen:基于 Qwen-32B 蒸馏的模型,在多项能力上实现了对标 OpenAI o1-mini 的效果。一时间,在开源社区备受追捧的通义千问 Qwen 模型,因这一轮推理模型技术新浪潮而浮出水面:Qwen 模型性能强劲,开源尺寸多样化,并且拥有全球最大的衍生模型群,已经取代 Llama 成为开源社区事实上最重要的标杆基座模型。
据了解,从 2023 年 8 月起,阿里云通义千问相继开源 Qwen、Qwen1.5、Qwen2、Qwen2.5 等 4 代模型,囊括大语言模型、多模态模型、数学模型和代码模型等数十款,数次登上 HuggingFace 的 Open LLM Leaderboard、Chatbot Arena 大模型盲测榜单、司南 OpenCompass 等多个国内外权威大模型榜单,性能全球领先,屡次斩获“全球开源冠军”。
目前,海内外开源社区中 Qwen 的衍生模型数量已突破 9 万,超越 Llama 系列衍生模型,通义千问 Qwen 成长为世界最大的生成式语言模型族群。全球 AI 模型开发者都用 Qwen,也可以更好地进行不同技术的差异化比较,从而进一步推动了 Qwen 的火热,让 Qwen 成为开源社区事实上最重要的标杆基座模型。