小模型吊打大模型，MoE 架构效率惊人

掘金人工智能 04月29日 11:37

小模型吊打大模型，MoE 架构效率惊人

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

本文介绍了近期AI领域的多项重要更新。阿里通义发布了Qwen3系列大模型，包括MoE模型和密集模型，在多个基准测试中表现出色，并提供两种智能模式选择。Qafind实验室推出了ChatDLM，一款极速扩散语言模型，具有超高处理速度和长上下文窗口。FASHN v1.5虚拟试穿模型也进行了升级，支持更高分辨率输出和宽高比限制。此外，OpenAI为ChatGPT推出了原生购物功能，用户可在对话中查找、比价并完成购买，以及其他改进。

🚀 阿里通义发布Qwen3系列大模型：包括MoE模型和密集模型，旗舰模型Qwen3-235B-A22B在代码、数学、通用能力等基准测试中表现出色，小型MoE模型Qwen3-30B-A3B性能更优，Qwen3-4B小模型也能匹敌Qwen2.5-72B-Instruct。Qwen3提供思考模式和非思考模式两种智能模式。

⚡️ Qafind实验室推出ChatDLM：一款极速扩散语言模型，在A100 GPU上可达到2,800 tokens/秒的处理速度，拥有131,072 tokens上下文窗口，处理长文本能力出色。

👗 FASHN v1.5虚拟试穿模型更新：支持更高分辨率输出，并解除了宽高比限制，用户可以在官网使用或通过FAL调用API。

🛍️ OpenAI为ChatGPT推出原生购物功能：用户可以直接在对话中查找、比价并完成购买，所有推荐商品均为算法独立选择。此外，信息来源引用得到改进，WhatsApp用户可直接发送消息至1-800-ChatGPT调用GPT服务。

阿里通义 Qwen3 重磅发布：小模型吊打大模型，MoE 架构效率惊人

阿里通义 Qwen3 系列大模型[1]正式推出，本次开源了 2 个 MoE 模型和 6 个密集模型。旗舰模型 Qwen3-235B-A22B 在代码、数学、通用能力等基准测试中表现出色，与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型不相上下。

小型 MoE 模型 Qwen3-30B-A3B 仅需激活 QwQ-32B 10% 的参数就能实现更优表现；

Qwen3-4B 这样的小模型能匹敌 Qwen2.5-72B-Instruct 的性能

Qwen3 提供两种智能模式选择：

思考模式：像老教授一样深思熟虑，逐步推理后给出答案，专治各种复杂疑难杂症非思考模式：秒回小能手，适合那些「快给我答案别废话」的简单问题

Qwen3 还特别强化了 Agent 和代码能力，同时加强了对 MCP 的支持。

现在已经在 Qwen Chat[2] 上免费使用啦！

不过，我看了下阿里百炼的 API 接入还没出，可能还要再等等。

Qafind 实验室发布 ChatDLM：2800 tokens/秒的极速扩散语言模型

Qafind 实验室推出 ChatDLM，官方号称世界上最快的扩散语言模型，在 A100 GPU 上可达到 2,800 tokens/秒（约DeepSeek 7B 的 30倍），拥有 131,072 tokens上下文窗口，可以处理非常长的文本。

佬们可以在官网使用，晚些时候将会开源，关注我为你持续跟进！

FASHN v1.5 发布：虚拟试穿模型

FASHN v1.5[3] 虚拟试穿模型重磅更新！本次升级支持了更高分辨率输出，并解除了宽高比限制，可以在官网使用，也可以通过 FAL 调用 API[4] 使用

OpenAI 为 ChatGPT 推出原生购物功能

OpenAI[5] 宣布 ChatGPT 搜索重大改进，即将推出购物功能。

现在用户可以直接在对话中查找、比价并完成购买。官方特别强调，所有推荐商品都是算法独立选择，绝非广告植入，我信了，你们呢

本次更新还包含其他改进：

信息来源引用改进；WhatsApp 用户可直接发送消息至 1-800-ChatGPT (+1-800-242-8478) 来调用 GPT 服务。

阿里通义 Qwen3 重磅发布：小模型吊打大模型，MoE 架构效率惊人

Qafind 实验室发布 ChatDLM：2800 tokens/秒的极速扩散语言模型

FASHN v1.5 发布：虚拟试穿模型

OpenAI 为 ChatGPT 推出原生购物功能

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签