Nvidia發布Azure云超級計算機、Magnum IO和Arm服務器架構參考平臺
GPU制造商Nvidia今天宣布了三項超級計算機相關創新,旨在擴展設計以便在更多數據中心內支持人工智能工作負載。
特別是Nvidia引入了基于Arm的服務器參考架構、可擴展的微軟Azure云可訪問超級計算機、面向數據科學家和人工智能的Magnum IO軟件套件。Nvidia的GPU已經成為人工智能的首選處理器,因為Nvidia的GPU提供了支持圖形和游戲的高度并行處理,被證明是機器學習的理想選擇。
針對人工智能的Arm服務器架構參考平臺
Nvidia首席執行官黃仁勛今天在SC19超級計算大會上發布了基于Arm的服務器架構參考平臺。這個由硬件和軟件構建塊組成的參考設計平臺,將使高性能計算開發行業能夠利用更為廣泛的CPU架構。
該平臺將使超級計算中心、超大規模云運營商和企業把Nvidia基于CUDA軟件的圖形計算芯片與最新基于Arm的服務器平臺相結合。
黃仁勛表示:“高性能計算領域正在復興。機器學習和人工智能技術的突破,正在重新定義著各種科學方法,并為新架構提供了機會。將Nvidia GPU帶入Arm體系中,將為創新者打開一扇大門,為創建從超大規模云到百億億次超級計算乃至更多新應用提供了系統。”
為了構建這個參考平臺,Nvidia與Arm及其生態系統合作伙伴(包括Ampere Computing、Fujitsu和Marvell)展開了合作,以及與HPE及其子公司Cray的深度合作。
基于微軟Azure云的Nvidia超級計算機
Nvidia還宣布開始支持微軟Azure云NDv2超大型實例,該實例使用多達800個Nvidia Tensor Core GPU,連接到一個Mellanox InfiniBand后端網絡上。
Nvidia表示,這讓客戶第一次可以在辦公桌上就能按需租用整個人工智能超級計算機。
Nvidia副總裁兼加速計算總經理Ian Buck表示:“到目前為止,仍然只有全球最大型的企業組織能夠使用面向人工智能和高性能計算的超級計算機。這款新產品實現了人工智能大眾化,讓人們使用一款基本工具就能解決一些最為嚴峻的挑戰。”
這款新產品非常適合人工智能和機器學習工作負載,其性能優勢遠遠超過傳統基于CPU的計算。
微軟和Nvidia的工程師使用64個NDv2實例在集群的預發布版本上訓練BERT(一種流行的自然語言會話AI模型),時間僅僅花費了三個小時,而且一部分是通過Nvidia CUDA核心技術和Mellanox互連實現的。
面向數據科學家和人工智能研究人員的Magnum IO
Magnum IO是一款軟件套件,旨在幫助數據科學家、人工智能和高性能計算研究人員能夠在數分鐘而不是數小時內處理大量的數據。
該軟件套件和工具與傳統模型相比,當處理海量數據集能夠為多服務器、多GPU計算節點提供高達20倍的數據傳輸速度,因此非常適合進行大規模的復雜財務分析、氣候建模和其他高性能計算工作負載。
黃仁勛表示:“處理大量收集來的數據或者模擬數據是像人工智能這樣的數據科學的核心。”
Nvidia通過與計算、網絡和存儲領域的眾多行業領導者緊密合作開發了Magnum IO,包括DataDirect Networks、Excelero、IBM、Mellanox和WekaIOLtd。
Magnum IO的核心是GPUDirect,該架構允許數據繞過CPU并使用GPU、存儲和網絡設備提供的“開放高速公路”來處理數據,發布之初該架構兼容眾多采用點對點和遠程訪問直接內存的通信互連。
黃仁勛表示:“極端計算需要極端的I/O。Magnum IO通過將Nvidia GPU加速——具有革命性的計算基數——引入I/O和存儲來實現這一點。現在,人工智能研究人員和數據科學家不用等待漫長的數據處理,可以把精力放在完成自己的工作上。”
最新推出的元素是GPUDirect Storage,它讓研究人員可以在訪問存儲時繞過CPU,快速處理數據文件以進行仿真、分析或可視化。
Nvidia Magnum IO現已上市,但不包含GPUDirect Storage,GPUDirect Storage僅面向某些選定的早期客戶,計劃于2020年上半年全面上市。
本文章選自《AI啟示錄》雜志,閱讀更多雜志內容,請掃描下方二維碼
