IT之家 前天 12:38
英伟达 Blackwell GPU 刷新 AI 推理速度世界纪录,实现 1000 TPS / User 里程碑
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

英伟达Blackwell GPU在4000亿参数的Meta Llama 4 Maverick模型上打破LLM推理速度世界纪录。通过配置8块Blackwell GPU的DGX B200节点,AI基准测试机构首次实现每用户每秒生成1000个token(TPS)的性能里程碑。英伟达团队通过TensorRT-LLM软件栈深度优化,采用EAGLE-3技术训练推测解码草稿模型,性能提升4倍。整套服务器系统峰值吞吐配置下可达每秒72,000 token。该突破基于EAGLE3软件架构,专为大型语言模型推理加速设计。

🚀英伟达Blackwell GPU在Meta Llama 4 Maverick模型上,实现了每用户每秒1000个token的LLM推理速度,创下世界纪录。

💡英伟达通过TensorRT-LLM软件栈进行深度优化,并采用EAGLE-3技术训练推测解码草稿模型,使性能较优化前提升4倍,显著提升推理效率。

⚙️EAGLE3软件架构专为大型语言模型推理加速设计,与GPU硬件架构协同工作,从而完全适配Llama 4 Maverick级别的超大规模语言模型。

🎯测试结果表明,Blackwell架构在保持响应准确性的同时,大幅提高了性能。使用FP8数据格式的准确性与人工分析BF16相当。

IT之家 5 月 24 日消息,当地时间周四,英伟达宣布其 Blackwell GPU 在 4000 亿参数的 Meta Llama 4 Maverick 模型上成功打破了 LLM 推理速度世界纪录。

据介绍,AI 基准测试机构 Artificial Analysis 通过配置 8 块 Blackwell GPU 的 DGX B200 节点,首次实现每用户每秒生成 1000 个 token(TPS)的性能里程碑。

英伟达表示,技术团队通过 TensorRT-LLM 软件栈实施深度优化,并采用 EAGLE-3 技术训练推测解码草稿模型,使其性能较优化前基准提升 4 倍。整套服务器系统在峰值吞吐配置下可达每秒 72,000 token。

英伟达解释称:“推测解码是通过小型快速草稿模型预测 token 序列,再由大型目标 LLM 并行验证的加速技术。其优势在于单次迭代可能生成多个 token,代价是额外的草稿模型计算开销。”

为实现该突破,工程师团队采用基于 EAGLE3 的软件架构。该架构专为大型语言模型推理加速设计,与 GPU 硬件架构形成协同效应。IT之家注意到,测试结果显示 Blackwell 架构已完全适配 Llama 4 Maverick 级别的超大规模语言模型。

英伟达还表示,他们在保持响应准确性的同时大幅提高了性能。在许多指标上,使用 FP8 数据格式的准确性与人工分析 BF16 相当。

参考资料:

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

英伟达 Blackwell GPU LLM推理 Llama 4 Maverick EAGLE-3
相关文章