高通發布兩款全新AI加速器芯片AI200和AI250,正式進軍蓬勃發展的數據中心市場,直接挑戰GPU巨頭英偉達的AI市場主導地位。這家此前專注于移動和無線設備芯片的半導體公司表示,新芯片將通過全新內存架構提供機架級性能,以更低成本實現增強的AI推理能力。AI200將于2026年商用,AI250于2027年推出。
d-Matrix在AI基礎設施峰會上發布JetStream IO加速卡,這款定制PCI卡可提供400Gbps帶寬和2微秒延遲。該產品基于FPGA技術,可與去年發布的Corsair推理加速平臺配合使用,支持在服務器內部和多節點間擴展。CEO表示,隨著行業重點從大模型訓練轉向商業化推理,該產品旨在解決內存計算瓶頸后的IO瓶頸問題。JetStream采用標準以太網協議,可直接部署到現有數據中心。
AI推理初創公司Baseten完成1.5億美元D輪融資,估值達21.5億美元。該輪融資由BOND領投,谷歌母公司Alphabet旗下CapitalG等多家知名機構參投。Baseten提供AI推理加速平臺,聲稱性能比競品快50%,支持本地部署和云端托管。平臺采用拓撲感知并行技術優化硬件使用,通過算子融合和量化工具提升模型性能,并提供完整的開發者工具鏈和監控功能。
GridGain軟件通過集群服務器實現內存共享,使內存密集型應用能在單獨內存不足的服務器上運行。該技術在AI推理領域日益重要,因為所需令牌數量不斷增長。軟件提供跨x86服務器集群的分布式內存空間,具備大規模并行架構。GridGain聲稱其引擎可用于任何數據驅動的分析或事件處理項目,提供超低延遲的分布式多模型數據存儲和計算引擎,實時為AI推理引擎提供企業數據。
網絡巨頭HPE Aruba推出了適用于零售的網絡產品組合,其中包括最現代的連接技術例如Wi-Fi 7、私有5G和邊緣計算。該產品組合可以將接入點、全新的蜂窩橋、緊湊型交換機與HPE旗艦網絡管理和AI平臺HPE Aruba Networking Central捆綁在一起。
AI推理領域的重要性日益凸顯,市場重心從AI訓練轉向推理。Groq LPU推理卡解決了性能和成本問題,使AI推理大規模部署成為可能
在英偉達,負責引導研究朝著應用、而非純學術項目前進的,是斯坦福大學計算機科學與電氣工程兼職教授,公司首席科學家、高級研究副總裁以及GPU、網絡與CPU芯片設計師Bill Dally。
深度學習深刻改變了計算機應用程序的功能與形態,為了加速深度學習模型的推理,NVIDIA 英偉達推出了高性能深度學習推理優化器TensorRT。