开源 AI 模型挑战闭源里程碑？Meta Llama 3.1-405B 多项跑分超越 OpenAI GPT-4o

IT之家 2024年07月23日

Meta 发布的 4050 亿参数的 Llama 3.1 模型在多个关键 AI 基准测试中超越了 OpenAI 的 GPT-4o，成为首个在性能上超越闭源 LLM 模型的开源模型。Llama 3.1 在 GSM8K、Hellaswag、boolq、MMLU-humanities 等测试中表现出色，但 HumanEval 和 MMLU-social sciences 方面仍落后于 GPT-4o。值得注意的是，这些数据来自 Llama 3.1 的基本模型，未来通过优化调整，其潜力将进一步释放。

📑 **Llama 3.1 在多个关键 AI 基准测试中超越 GPT-4o**：该模型在 GSM8K、Hellaswag、boolq、MMLU-humanities、MMLU-other、MMLU-stem 和 winograd 等测试中均优于 GPT-4o，显示出其在语言理解和推理方面的强大能力。

📢 **Llama 3.1 在某些测试中仍落后于 GPT-4o**：在 HumanEval 和 MMLU-social sciences 方面，Llama 3.1 的表现不及 GPT-4o，表明其在代码生成和社会科学方面的能力还有提升空间。

📣 **Llama 3.1 的潜力尚未完全释放**：这些测试结果来自 Llama 3.1 的基本模型，通过后续的优化调整，该模型在所有基准测试中的性能预计将进一步提升。

📤 **开源 AI 模型的崛起**：Llama 3.1 的突破标志着开源 AI 模型的崛起，为 AI 技术的民主化和应用创新带来了新的可能性。

📥 **未来展望**：随着开源 AI 模型的不断发展，未来将有更多更强大的模型出现，推动 AI 技术的快速进步。

IT之家 7 月 23 日消息，网友在 LocalLLaMA 子 Reddit 板块中发帖，分享了 4050 亿参数的 Meta Llama 3.1 信息，从该 AI 模型在几个关键 AI 基准测试的结果来看，其性能超越目前的领先者（OpenAI 的 GPT-4o）。

这是开源人工智能社区的一个重要里程碑，标志着开源模型可能首次击败目前最先进的闭源 LLM 模型。

如基准测试所示，Meta Llama 3.1 在 GSM8K、Hellaswag、boolq、MMLU-humanities、MMLU-other、MMLU-stem 和 winograd 等多项测试中均优于 GPT-4o，但是，它在 HumanEval 和 MMLU-social sciences 方面却落后于 GPT-4o。

值得注意的是，这些数据来自 Llama 3.1 的基本模型，意味着后续通过调整优化，可以进一步释放该模型的潜力，在上述基准测试中迈上更高的台阶。

IT之家注：上图为机翻字幕，存在错误

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签