英偉達「三芯」策略初步奏效 | ISC 2022

語言: CN / TW / HK

相比幾年前談論的重點只有GPU,在擁有CPU和DPU之後,英偉達作為系統公司能夠談論的話題更加豐富。

在剛剛過去的Computex和時隔兩年重新迴歸線下的ISC 2022(國際超級計算機大會),英偉達都展示了諸多其GPU、CPU、DPU的最新合作成果,這在很大程度上表明瞭英偉達的“三芯”策略已經初見成效。

另外,英偉達在混合量子計算中的成果,也體現了其在高效能運算領域的前瞻性佈局。

當然,英偉達CEO黃仁勳也在與媒體的交流中再次強調,“英偉達是一家系統公司,提供從硬體到系統軟體的全棧方案,客戶可以按照其需求選擇我們的產品。加速計算的世界與CPU截然不同,我們的產品和方案非常獨特。”

英偉達的“三芯”到底如何加速那些世界上最快的加速系統?

獨特的CPU+GPU組合

GPU作為英偉達發明的產品,也是英偉達的標籤,在今年GTC 22上,雷峰網 (公眾號:雷峰網) 介紹了英偉達最新一代Hopper架構GPU H100釋出,相比兩年前的Ampere架構A100 GPU,實現了數量級的效能提升。

黃仁勳表示,20個 H100 GPU 便可承託相當於全球網際網路的流量,使其能夠幫助客戶推出先進的推薦系統以及實時執行資料推理的大型語言模型。

不過,相比GPU,英偉達的Grace CPU更能吸引外界的關注。市場上已經有很多優秀的CPU產品,英偉達在這樣的背景下推出CPU讓人感到意外,也讓人好奇Grace CPU的不同之處。

當被問及Grace CPU有何獨特之處時,黃仁勳說,“Grace旨在比其它CPU更好地解決與資料處理有關的問題,能夠更高效處理大量資料,並且與我們的GPU緊密結合,更好地完成解決AI任務。”

英偉達的Grace CPU超級晶片集成了兩個基於Arm的CPU,有多達144個高效能Arm Neoverse核心,並且帶有可伸縮向量擴充套件和1 TB/s的記憶體子系統,支援最新的PCIe Gen5協議,可實現與GPU之間最高效能連線,同時還能連線NVIDIA ConnectX-7智慧網絡卡以及NVIDIA BlueField-3 DPU。

由此看來,英偉達在設計Grace CPU之處就已經非常明確要將其所有硬體產品之間很好地互聯。這也容易理解,隨著摩爾定律的放緩,異構計算成為了未來趨勢,作為提供高效能運算產品的公司,英偉達有這樣的佈局也十分合理。

ISC 2022上,英偉達CPU+GPU的產品組合獲得了認可,美國和歐洲的領先超級計算中心都將率先採用這兩款超級晶片。

美國阿拉莫斯國家實驗室 (LANL)今日宣佈,其新一代系統Venado將成為美國首個採用NVIDIA Grace CPU技術的系統。 Venado是使用HPE Cray EX超級計算機構建而成的異構系統,將同時配備Grace CPU和Grace Hopper,這一系統建成後的AI效能預計將超過10 exaflops(10的18次方,百億億次)。

另一個率先採用英偉達Grace CPU和GPU的系統是瑞士國家計算中心的新系統Alps,基於HPE Cray EX超級計算機構建,這是一個通用系統,向瑞士及其他國家的研究者開放。

英偉達還宣佈,源訊、戴爾科技,技嘉科技、慧與、浪潮、聯想和超微宣佈計劃部署基於Grace CPU和Grace Hopper超級晶片的伺服器。

DPU帶來的大幅效能提升

DPU是一個新概念,在英偉達帶動下成為備受關注的產品,湧現了大量初創公司以及資本的投入

DPU的核心價值是將通訊和計算負載從CPU解除安裝,進而獲得巨大的效能提升。不過DPU能夠帶來的具體的效能提升,仍然需要實踐證明,英偉達藉著ISC 2022給出了一些案例。

洛斯阿拉莫斯國家實驗室(LANL)的傑出高階科學Poole 正與英偉達進行一項為期多年的廣泛合作,旨在將計算多物理應用的效能提高30倍。這其中包括使用 BlueField 及其NVIDIA DOCA軟體框架在計算儲存、模式匹配等。

LANL 已經感受到網路計算的強大功能,加速快閃記憶體盒(ABoF)將固態儲存與DPU和InfiniBand加速器相結合,可為 Linux 檔案系統的關鍵效能部分提供加速。它的效能高達同類儲存系統的30倍,並將成為 LANL 基礎架構中的關鍵元件。

俄亥俄州立大學的研究人員展示了 DPU 如何將一個HPC熱門程式設計模型的執行速度提高 21%。他們通過解除安裝訊息傳遞介面(MPI)的關鍵部分,加速了P3DFFT,這是一個用於眾多大規模HPC模擬的數學庫。

對於運行藥物研發或飛機設計等HPC模擬應用的超級計算機,DPU也能夠帶來高達兩位數的效能加速。

歐洲的多個研究團隊正利用BlueField DPU 加速 MPI 和其他 HPC 工作負載。英格蘭北部的達勒姆大學正在開發一款軟體,用於在 16 個節點的 Dell PowerEdge 叢集上使用 BlueField DPU 以實現 MPI 作業的負載均衡。劍橋大學、倫敦和慕尼黑等的研究人員也在使用 DPU。

DPU也在用於加速分子動力學研究,還能用於氣候學、天體物理學、大資料、AI 和更多方面的研究。這些研究人員也在考慮如何使用新一代的BlueField-3 DPU 的核心功能。

三芯策略初步奏效,佈局量子計算

高效能運算系統對於算力有著更高要求,也有獨特需求,在英偉達擁有了GPU、CPU和DPU之後,它能夠實現更多的硬體組合,再配合上層的軟體系統,能夠更好滿足前沿應用和更高計算的需求。

通過ISC 2022的眾多成果展示,也能看到英偉達的三芯策略已經初見成效,不同的產品和產品組合已經在HPC、AI等應用中實現效能的顯著提升。

不止於此,英偉達還在佈局前沿的量子計算。

量子計算有兩大優勢,一個是可以為海量資料的平行計算(效能)帶來指數級別的提升,這種強大的功能,可以運用在包括金融、資料的搜尋處理等領域。另一個是量子計算編譯在電子原子上,在模擬方面會表現的非常自然,例如新材料的發現,生物醫藥的藥物合成。

不過,量子計算的實現還有很多挑戰。 隨著量子系統的發展,下一個重大飛躍是朝混合系統邁進:量子計算機和經典計算機協同工作。

因此,擺在面前的一個重要任務就是將傳統系統和量子系統橋接到混合量子計算機中。GPU適合與量子計算協同工作,能大幅降低經典計算機和量子計算機之間的通訊延遲,解決當今混合量子作業面臨的主要瓶頸。

據悉,已經有數十家量子組織已經在使用 NVIDIA cuQuantum 軟體開發套件,在GPU上加速其量子電路模擬,能夠在主要的量子軟體框架上實現加速計算。比如,AWS展示了cuQuantum如何在量子機器學習工作負載上實現高達900倍的加速。

在經典計算的層面,英偉達不斷通過豐富硬體產品和軟體生態保持爭力,面向未來的量子計算,英偉達也做好了準備。

雷峰網原創文章,未經授權禁止轉載。詳情見 轉載須知

「其他文章」