PaperAgent 2024年07月24日
Meta正式发布Llama-3.1,超大杯405B!千呼万唤始出来!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Meta发布了Llama-3.1系列模型,包括8B、70B、405B三个尺寸。该模型使用优化后的Transformer架构,并经过监督式微调和基于人类反馈的强化学习训练,以符合人类对有用性和安全性的偏好。Llama-3.1支持多种语言,包括英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语,并支持多语言文本输入和输出以及代码。模型的上下文长度为128k,知识截止日期为2023年12月。评测结果显示,Llama-3.1-405B的表现超越了GPT-4和GPT-4 Omni,与Claude 3.5 Sonnet效果相当。

🚀 Llama-3.1 是一个自回归语言模型,使用优化的变换器架构。它经过监督式微调(SFT)和基于人类反馈的强化学习(RLHF)训练,以满足人类对有用性和安全性的偏好。

🌐 Llama-3.1 提供 8B、70B 和 405B 三种尺寸的模型,支持多种语言,包括英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。它还支持多语言文本输入和输出,以及代码。

💪 Llama-3.1-405B 的性能表现出色,在推理、编码、数学和工具使用等方面都表现优异,甚至超越了 GPT-4 和 GPT-4 Omni,与 Claude 3.5 Sonnet 的效果相当。

💻 Llama-3.1-405B 的运行需要较大的资源,FP16 需要 8*H200 GPUs(1053G),FP8 需要 8*H100 GPUs (526G),FP4 需要 263G。

📚 Llama-3.1 的知识截止日期为 2023 年 12 月,它使用公开可用的在线数据进行预训练,并使用公开可用的指令数据集和超过 2500 万个合成生成的示例进行微调。

原创 PaperAgent 2024-07-24 00:50 湖北

Llama-3.1-405B FP4大概需要260G可run

MetaLlama-3.1再经历过泄露、再泄露事件,酝酿了几天,终于在2024.7.23最后十几分钟发布了,包括8B、70B、405B三个尺寸:

Llama-3.1系列模型特点

Llama-3.1-405B模型效果评测,整体效果是超过GPT-4与GPT-4 Omni,效果媲美Claude 3.5 Sonnet。

Llama-3.1垂直场景的效果展示:推理、编码、数学、工具使用(Tool Use)。

 此次发布,大家最关系当属405B,这是此前Llama-3中未发布的尺寸,那么这么大参数模型,需要多大的机器能run起来尼?

下载地址:https://hf-mirror.com/collections/meta-llama/llama-31-669fc079a0c406a149a5738f

推荐阅读


欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Llama-3.1 大模型 语言模型 AI Meta
相关文章