TechCrunch 2025-04-06 12:55 北京
但非真正“推理”模型
Meta 已经发布了一系列新的 AI 模型 ,Llama 4,属于其 Llama 家族——而且还是在一个星期六。
总共有四个新模型:Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth。Meta 表示,所有模型都是在“大量未标记的文本、图像和视频数据”上进行训练的,以赋予它们“广泛的视觉理解”。
来自中国人工智能实验室 DeepSeek 的开源模型的成功, 使 Llama 的开发进入了加速阶段,这些模型的表现与 Meta 之前的旗舰 Llama 模型相当或更好。Meta 据说已经紧急成立战情室,以解读 DeepSeek 如何降低运行和部署像 R1 和 V3 这样的模型的成本。
Scout 和 Maverick 可以在 Llama.com 和 Meta 的合作伙伴处公开获取,而 Behemoth 仍在训练中。Meta 表示,其跨应用程序(包括 WhatsApp、Messenger 和 Instagram)的 AI 助手 Meta AI 已在 40 个国家进行了更新,以使用 Llama 4。目前,多模态功能仅限于美国的英语用户。
一些开发者可能会对 Llama 4 的许可证提出异议。
在欧盟“注册”或有“主要营业地点”的用户和公司被禁止使用或分发这些模型 ,这可能是该地区的人工智能和数据隐私法律所施加的治理要求的结果。(过去,Meta 曾批评这些法律过于繁重。)此外,与之前的 Llama 发布一样,拥有超过 7 亿月活跃用户的公司必须向 Meta 申请特别许可,Meta 可以自行决定是否授予该许可。
“这些 Llama 4 模型标志着 Llama 生态系统新时代的开始,”Meta 在博客文章中写道 。“这只是 Llama 4 系列的开始。”
Meta 表示,Llama 4 是其首批采用专家混合(MoE)架构的模型,这种架构在训练和回答查询时更具计算效率。MoE 架构基本上将数据处理任务分解为子任务,然后将其委派给更小的、专门的“专家”模型。
例如,Maverick 拥有 4000 亿个总参数,但只有 170 亿个活跃参数,分布在 128 个“专家”中。(参数大致对应于模型的解决问题能力。)Scout 拥有 170 亿个活跃参数,16 个专家和 1090 亿个总参数。
根据 Meta 的内部测试,该公司表示,Maverick 最适合用于“通用助手和聊天”的场景,如创意写作,在某些编码、推理、多语言、长上下文和图像基准测试中超越了 OpenAI 的 GPT-4o 和 Google 的 Gemini 2.0。然而,Maverick 在能力上仍不及一些更强大的新模型,如 Google 的 Gemini 2.5 Pro、Anthropic 的 Claude 3.7 Sonnet 和 OpenAI 的 GPT-4.5。
Scout 的优势在于文档摘要和对大型代码库的推理等任务。独特的是,它具有非常大的上下文窗口:1000 万个标记。(“标记”表示原始文本的片段——例如,单词“fantastic”被拆分为“fan”、“tas”和“tic。”)用简单的英语来说,Scout 可以处理图像和多达数百万个单词,使其能够处理和处理极长的文档。
根据 Meta 的计算,Scout 可以在单个 Nvidia H100 GPU 上运行,而 Maverick 则需要 Nvidia H100 DGX 系统或同等设备。
Meta 尚未发布的 Behemoth 将需要更强大的硬件。根据该公司的说法,Behemoth 拥有 2880 亿个活跃参数、16 个专家和近 2 万亿个总参数。Meta 的内部基准测试显示,Behemoth 在多个评估中超越了 GPT-4.5、Claude 3.7 Sonnet 和 Gemini 2.0 Pro(但不包括 2.5 Pro),这些评估测量了 STEM 技能,如数学问题解决能力。
值得注意的是,Llama 4 的所有模型都不是像 OpenAI 的 o1 和 o3-mini 那样的真正“推理”模型。推理模型会对其答案进行事实核查,并通常更可靠地回答问题,但因此交付答案的时间比传统的“非推理”模型要长。
图片来源:Meta
本文翻译自:https://techcrunch.com/2025/04/05/meta-releases-llama-4-a-new-crop-of-flagship-ai-models/
编译:ChatGPT