03月20日
从DeepSeek看软硬件协同优化,兼谈推理LPU IP设计|清华大学博士后曾书霖主讲预告
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

DeepSeek通过软硬件协同的全栈优化策略,在有限硬件资源下实现了卓越的性能提升。例如,利用FlashMLA技术优化多头潜在注意力,充分释放GPU算力。通过底层编程语言PTX直接调配硬件资源,实现寄存器分配和线程调度的细粒度优化。在软件层面,采用FP8混合精度训练、KV Cache缓存优化和并行计算等技术,提升系统整体效率。智猩猩公开课将邀请清华大学博士后曾书霖解读DeepSeek的软硬件协同优化,并分享基于FPGA的大模型软硬件协同工作,以及面向智能终端的推理LPU IP设计。

🚀DeepSeek采用软硬件协同的全栈优化策略,在有限的硬件资源下实现了极致的性能提升,为AI Infra的未来技术发展提供了新的思考方向。

💡DeepSeek通过FlashMLA技术针对多头潜在注意力进行优化,能够充分释放GPU算力,并通过底层编程语言PTX直接对硬件资源进行调配,实现了寄存器分配、线程调度的细粒度优化。

🧠在软件层面,DeepSeek通过FP8混合精度训练、KV Cache缓存优化、并行计算等技术,进一步提升了系统的整体效率。

👨‍🏫智猩猩公开课邀请清华大学博士后曾书霖主讲,分享DeepSeek在软硬件协同优化方面的创新和思考,以及基于FPGA的大模型软硬件协同工作和面向智能终端的推理LPU IP设计。

智猩猩公开课 2025-03-17 22:26 北京

DeepSeek通过软硬件协同的的全栈优化策略,在有限的硬件资源下实现了极致的性能提升。比如利用FlashM

DeepSeek通过软硬件协同的的全栈优化策略,在有限的硬件资源下实现了极致的性能提升。


比如利用FlashMLA技术针对多头潜在注意力进行优化,能够充分释放GPU算力。此外,DeepSeek还通过底层编程语言PTX直接对硬件资源进行调配,实现了寄存器分配、线程调度的细粒度优化。在软件层面,DeepSeek通过FP8混合精度训练、KV Cache缓存优化、并行计算等技术,进一步提升了系统的整体效率。


DeepSeek的成功,充分证明了软硬件协同优化的巨大潜力,也为AI Infra的未来技术发展提供了新的思考方向和借鉴思路。


3月18日19点智猩猩「DeepSeek大解读」系列公开课第5期将开讲,由清华大学电子工程系博士后曾书霖主讲,主题为《DeepSeek对软硬件协同优化的启示与思考》。


曾书霖博士主要从事软硬协同优化研究和AI加速器设计,实现了全球首个多模态大模型推理LPU IP,并首次在单卡FPGA上实现7B大模型和文生视频的端到端推理,获得了FPGA 2025最佳论文。


本次公开课,曾书霖博士首先会分享DeepSeek在软硬件协同优化方面的创新和思考,之后会围绕大语言模型推理 IP FlightLLM、视频生成大模型推理 IP FlightVGM,阐述团队基于FPGA的大模型软硬件协同工作。最后,曾书霖博士还将深入讲解面向智能终端的推理LPU IP设计。



第5期信息


 主 题 

《DeepSeek对软硬件协同优化的启示与思考》 

 提 纲 



1、从DeepSeek看软硬件协同优化

2、基于FPGA的大模型软硬件协同

3、面向智能终端的推理LPU IP设计


 主 讲 人 


曾书霖,清华大学电子工程系博士、博士后,博士期间主要从事软硬协同优化研究和AI加速器设计,发表高水平国际会议/期刊论文20余篇。实现全球首个多模态大模型推理LPU IP,首次在单卡FPGA上实现7B大模型和文生视频的端到端推理,获FPGA 2025最佳论文。


 直 播 时 间 


3月18日19:00-20:00


直播预约


本期公开课将以视频直播形式在智猩猩GenAI视频号进行,大家可以点击下方视频号卡片,提前预约。




如何报名与入群


针对此次公开课,也会组建交流群。希望入群与更多同仁探讨的,可以扫描下方二维码添加小助手“小石头”,私信发送“DeepSeek05”。


END

点击下方名片 即刻关注我们

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek 软硬件协同 AI Infra FlashMLA FPGA
相关文章