DeepSeek通過軟硬件協同的的全棧優化策略,在有限的硬件資源下實現了極致的性能提升。
比如利用FlashMLA技術針對多頭潛在注意力進行優化,能夠充分釋放GPU算力。此外,DeepSeek還通過底層編程語言PTX直接對硬件資源進行調配,實現了寄存器分配、線程調度的細粒度優化。在軟件層面,DeepSeek通過FP8混合精度訓練、KV Cache緩存優化、并行計算等技術,進一步提升了系統的整體效率。
DeepSeek的成功,充分證明了軟硬件協同優化的巨大潛力,也為AI Infra的未來技術發展提供了新的思考方向和借鑒思路。
3月18日19點,智猩猩「DeepSeek大解讀」系列公開課第5期將開講,由清華大學電子工程系博士后曾書霖主講,主題為《DeepSeek對軟硬件協同優化的啟示與思考》。
曾書霖博士主要從事軟硬協同優化研究和AI加速器設計,實現了全球首個多模態大模型推理LPU IP,并首次在單卡FPGA上實現7B大模型和文生視頻的端到端推理,獲得了FPGA 2025最佳論文。
本次公開課,曾書霖博士首先會分享DeepSeek在軟硬件協同優化方面的創新和思考,之后會圍繞大語言模型推理 IP FlightLLM、視頻生成大模型推理 IP FlightVGM,闡述團隊基于FPGA的大模型軟硬件協同工作。最后,曾書霖博士還將深入講解面向智能終端的推理LPU IP設計。

公開課內容
主題:DeepSeek對軟硬件協同優化的啟示與思考
提綱:
1、從DeepSeek看軟硬件協同優化
2、基于FPGA的大模型軟硬件協同
3、面向智能終端的推理LPU IP設計
主講人
曾書霖,清華大學電子工程系博士、博士后,博士期間主要從事軟硬協同優化研究和AI加速器設計,發表高水平國際會議/期刊論文20余篇。實現全球首個多模態大模型推理LPU IP,首次在單卡FPGA上實現7B大模型和文生視頻的端到端推理,獲FPGA 2025最佳論文。
直播時間
3月18日19:00-20:00