超算需求倒逼“架構”變革,華為分散式儲存加註HPDA賽道

語言: CN / TW / HK

資料儲存作為科技強國的關鍵基礎設施,在當前大型超算中心、新型油氣勘探、基因測序、自動駕駛、氣象預測、宇宙探索等領域發揮著重要作用,同時也是高效能運算(HPC)領域資料應用和資料分析的重要支撐平臺。

華為在“重投”數字基礎設施的同時,也將這一領域視為數字賽道發展的重要方向。

9月24日,在華為全聯接大會的第二天下午,華為常務董事、ICT產品與解決方案總裁汪濤釋出了多款數字基礎設施相關技術,其中包括了業界首個面向高效能資料分析(HPDA)的分散式儲存OceanStor Pacific。在華為看來,高效能資料分析的大時代正在來臨。

“HPDA是超算領域正在發生的一個重要趨勢,智慧世界的加速到來,讓AI、大資料技術也正在加速和HPC超算技術產生深度融合。”華為海量儲存領域總裁王怡東在採訪中對記者表示,資料密集型應用的爆發正在讓高效能運算系統從以算力為中心逐步轉變為以資料為中心。

根據華為官方微博顯示,在今年7月國際超算大會最新一期IO500排行榜中,基於華為AI基礎軟硬體的“鵬城雲腦II”超級計算機再次重新整理世界紀錄,蟬聯全系統輸入輸出和10節點規模系統兩項世界冠軍。而在2021年國際超算大會(ISC)公佈的最新的TOP500榜單中,其中有342套系統採用了AI相關的加速技術,TOP10無一例外都採用了AI相關的算力。

隨著AI和大資料的技術發展,越來越多HPC應用藉助AI和大資料技術深度挖掘資料背後的價值,使得資料分析量急速增加。

根據全球HPC市場研究機構Hyperion Research預測,2019年到2024年基於AI和大資料的HPC儲存的複合年增長率超過17%,遠遠超過伺服器6.9%的複合年增長率,到2024年,HPC市場將有超過40%來自資料密集型超算。

“多樣化算力會帶來多樣化業務負載,這就好比一個跑100M的短跑運動員頂多可以多跑一下200M和400M,但是基本沒辦法兼顧10000M長跑專案。為了解決這個問題,業界通常採用不同型別的儲存來應對。”王怡東對記者表示,新的超算架構要求打破記憶體牆、協議牆的雙重限制,多樣算力直接按需載入到儲存系統,華為為了減少算力之間資料搬移,提高分散式算力並行處理效率,將重點放在了儲存的架構創新上。

經過了多次技術迭代,王怡東對記者表示,華為在最新方案上採用了“融合非結構化資料索引”的創新技術架構,也就是說,華為分散式儲存可以原生支援檔案、物件以及大資料協議。所謂原生協議支援,就好比一個人的母語就有三種,可以隨意在不同的語境中切換,實現溝通交流效率的最優。而傳統意義上,一般儲存的"母語"只有一種,只能通過閘道器這種翻譯來實現協議之間的對話。必然會帶來語義或者效能上的損失。因此,通過架構創新可以實現分析效率的提升。

同時,這種技術不僅能被使用在政府超算領域。在HC大會現場,汪濤表示,目前,除了超算中心領域,華為OceanStor Pacific已在能源勘探、氣象預測以及基因檢測等多個商用超算領域成功落地。

比如,在全球SKA天文望遠鏡陣列中,上海天文臺與華為合作,搭建了世界首臺SKA區域中心原型機核心業務儲存系統。而在油氣勘探領域,華為與中石油東方物探也已完成了單體資料量最大的油氣地震勘探資料處理專案。

“數字基礎設施既面臨新挑戰,也迎來屬於海量儲存的大時代。”王怡東對記者表示,到2025年,新增資料量是180ZB,其中超過80%是非結構化儲存,而其中僅僅2%的資料被儲存,僅僅10%的資料被分析,隨著應用場景的逐步開啟,高效能資料分析將會迎來更大的發展空間。