華為即將發布AI固態硬盤,配合統一緩存管理軟件,將鍵值緩存數據從GPU高帶寬內存中轉移到SSD存儲,避免重復計算以提升AI處理速度。該方案采用分層緩存架構,整合GPU內存、CPU內存和SSD存儲。華為還將運用XtremeLink技術和SpeedFlex印刷電路板技術。此舉旨在解決GPU服務器內存墻問題,幫助中國構建新的AI生態系統。
英偉達通過Dynamo引擎實現分層KV緩存,將大語言模型的鍵值對存儲從GPU高帶寬內存擴展至CPU內存、直連SSD和網絡存儲。該技術解決了GPU內存不足時向量數據被驅逐需重新計算的問題,通過多層存儲架構提升推理效率。Dynamo支持vLLM等推理引擎,具備分離服務、智能路由等四大功能。目前已有Cloudian、DDN、戴爾、HPE、NetApp、Pure Storage等多家存儲廠商宣布支持該技術。