是什麼,讓“雲”無處不在,無所不及 ?

語言: CN / TW / HK

//  

5G時代來臨,萬物智聯已經走入大眾生活,對計算結構提出了全新要求。隨著終端算力上移、雲端算力下沉,在邊緣形成算力融合,邊緣計算逐漸深入多種應用場景,成為不可或缺的網路基礎設施與支撐數字經濟高質量發展的重要驅動力量。

在2022中國數字服務大會【邊緣服務專題論壇】上,阿里雲博士後研究員兼技術專家付哲,以《邊緣雲技術創新 讓“雲”無處不在》為主題,分享了阿里雲在邊緣計算與邊緣雲的技術演進路線、商業場景實踐與學術探索。

資料生產消費方式鉅變

邊緣計算髮展價值凸顯

隨著通訊技術的發展,通訊的主體從以人為中心,逐漸向以物為中心遷移,資訊流轉也使得資料的生產消費方式發生鉅變。資料的生產消費方式由 集中生產、分散消費, 轉變為 分散生產、泛在消費, 這意味著技術上也需要進行應用的重構和產業的協同。

近年來,雲端計算和5G技術的結合,催生出一大批需要大量流量、超低時延、海量連結的新型應用與場景,例如4K/8K的超高清視訊,工業控制與車聯網,環境監測、智慧家庭等等。

但是,傳統的集中式的雲的模式,已經逐漸難以滿足這些應用對網路頻寬流量、網路傳輸時延以及連線規模等等方面的需求。

邊緣計算髮展趨勢

在當前背景下,為了滿足5G應用對增強移動寬頻,海量終端互聯以及高可靠低時延連線的需求,邊緣計算和邊緣雲的價值日益凸顯。

有機構報告預測, 5G時代,80%的資料和計算將發生在邊緣 。邊緣雲通過將流量在邊緣進行收斂,可以實現對大流量的本地化處理和分發,避免海量流量對骨幹網路的衝擊,同時也有效降低流量的遠端傳輸成本。

同時,依託分散式架構,邊緣雲可以實現對海量終端高併發的分散式處理,有效提升計算效率。此外,邊緣雲通過就近部署,也能夠滿足海量終端低延時處理的場景化需求。

解讀邊緣雲技術架構

拓展雲服務能力邊界

相較於中心雲或物聯網,邊緣雲是一個新的概念。

根據著名資訊科技研究分析公司Gartner的解讀,邊緣計算是相對傳統集中通用計算而言,將工作負載部署在邊緣的一種計算方式,其採用分散式的計算架構,在儘可能靠近資料來源或者使用者的地方,進行計算和儲存,僅將必要的結果送到雲中心。

邊緣雲與傳統的雲或者IoT是互補的定位,沒有相互取代的關係,可以將邊緣雲看作是雲的延伸,為客戶提供 低延遲、本地化、自治、安全隱私 的服務能力。

從使用者的終端到雲端,Gartner將這中間的部分,分為了兩類邊緣:

Gartner:邊緣分層結構

  • 第一個是 Near Edge 通常是非標準伺服器或裝置,在距離端側最近的地方,例如在工廠內部,包括ARM、X86等各種型別的裝置。

  • 另一類是 Far Edge 通常是標準的IDC,或者MEC,例如傳統的CDN節點等等。

這兩類邊緣都可以包含於廣義的邊緣雲的概念中。 就近、分散式、場景化與差異化 ,是邊緣雲有別於中心雲的關鍵字。

阿里雲在雲端計算基礎設施服務方面,基於統一的飛天底座,提供了一雲多芯、一雲多型的雲端計算架構, 從中心向邊緣輻射,讓算力無處不在。

邊緣雲定義與形態[1]

  • 中心region 通常位於一線核心區域,作為全產品大體量的公共雲形態,應對各種通用的彈性、高密、大併發、高可用場景,比如大家熟悉的網際網路計算場景、大資料、AI 模型訓練、高效能運算等場景。 中心 Region 通常離終端使用者較遠,時延一般在 100 ms以內。

  • 物聯網IoT 現場計算節點 位於使用者機房及業務現場,離使用者最近,提供軟硬一體的計算方案, 時延在 5 ms 以內。

  • 中心和現場之間的本地 Region,以及邊緣雲節點 ,他們到使用者的時延通常 在 5 ms 到 20 ms 之間。 這兩者的區別是,本地 Region 位於數字經濟活躍區域,以中心雲小型化輸出的方式,提供比邊緣雲節點更大規模的計算服務,重點支援這些區域的企業數字化轉型的場景。

邊緣雲是由大規模地域分散的邊緣節點,相互協同組成的一朵 可遠端管控,安全可信,標準易用 的分散式雲。[1]

邊緣雲單節點規模較小,在百這一數量級,節點廣泛覆蓋離使用者更近的熱點區域,支援邊緣裝置管理、智慧終端上雲、檢視流化、渲染、CDN、以及5G + 邊緣雲網融合等等邊緣場景,為使用者提供 更近、更低時延,且與中心體驗一致 的雲服務。

阿里雲作為國內最早定義和研發邊緣雲的廠商之一,早在2018年聯合中國電子標準化研究院發表了業內首份 《邊緣雲端計算技術及標準化白皮書》 [1],對邊緣雲的概念、架構和應用場景作了明確定義。

邊緣雲典型應用座標圖

時延和頻寬作為邊緣雲最能帶來價值的兩個優勢點,為各行各業的創新應用場景提供了基礎。

根據對時延和頻寬的需求,將邊緣雲的典型應用列在如上的座標圖中。初期,邊緣雲上已經跑著諸如視訊監控、智慧工廠、VR、雲遊戲等應用。 隨著邊緣雲技術和應用本身的發展,中長期邊緣雲還將支援智慧交通、自動駕駛、遠端醫療等等創新應用。

展望邊緣雲技術演進趨勢

探索雲服務創新應用場景

邊緣節點服務ENS

邊緣節點服務ENS,是基於運營商邊緣節點和網路構建的IaaS層服務, 提供 融合、開放、聯動、彈性” 的分散式算力資源,包括虛擬機器、裸金屬、容器等多種形態,能夠有效幫助使用者業務下沉至運營商側邊緣,降低計算時延和成本。

ENS基礎設施佈局

目前,ENS在國內擁有 2800+節點 ,實現中國大陸31個省份三大運營商全部覆蓋,偏遠地區也能就近接入。

同時,ENS提供全國分散式資源的分鐘級交付,使用者能夠按量付費,彈性擴縮容。依託邊緣雲的優勢,ENS還提供了優質的邊緣網路,並且能夠支援邊邊加速、雲邊加速。

此外,ENS還提供了多種業務場景方案的整體交付能力,例如提供成熟的內容分發、視訊上雲等解決方案,有助於客戶業務轉型升級。

檢視計算VEC

託於 邊緣雲底座,阿里雲提供了檢視計算服務。 檢視計算是面向檢視裝置,例如攝像頭、車載終端、消費電子等等,為這些裝置的上雲場景提供連線、AI計算、雲端儲存的PaaS服務,能夠大大降低網路延時,提升檢視類資料處理效率。

基於邊緣雲構建VEC系統架構

基於檢視計算服務和阿里雲自研的接入協議,客戶的檢視裝置能夠一鍵上雲,並且就近接入到邊緣節點,實現 直播、錄製、截圖、轉碼 等基礎視訊處理能力。

同時,阿里雲也集成了阿里達摩院的 170多項 豐富的視覺 AI運算元能力 ,包括交通擁堵、安全帽監測等等,支援高速上雲、智慧工地等場景。

檢視計算服務基於邊緣雲,能夠實現視訊流的邊緣就近處理與儲存, 能夠為客戶優化流量與儲存成本 。此外,平臺還提供視覺化的流程編排能力,給使用者提供易用的體驗。

協同儲存EOS

針對邊緣大容量儲存場景,阿里雲推出了獨立的服務——邊緣協同儲存。

正如前文所述,終端上雲場景往往具有 位置分散、資料規模大、價值密度低 的特點,同時還有一點就是頻寬反轉,上行頻寬遠大於下行。長期的資料回雲會造成較大的頻寬壓力以及儲存成本,同時最重要的一點,無法保證就近、低延遲。

邊緣協同儲存,是將邊緣雲多個分散式節點的物件儲存資源進行統一管理和排程,提供 位置無感、體驗一致、大容量、高性價比 的物件儲存能力。

基於邊緣雲構建EOS系統架構

為了實現這些優勢,在架構設計上,邊緣協同儲存採用了典型的 雲邊協同管控 方案,中心的元資料邏輯Bucket與邊緣的物理Bucket動態對映,保證資料的一致性。同時採用優化過的讀寫排程策略及演算法,在保障效能及穩定性前提下的實現資源最優使用。另外,邊緣節點實現了一部分的 自治管控 ,可以進一步降低訪問延時,同時提升服務的穩定性。

全球實時傳輸網GRTN

第三個典型應用是基於中心雲和邊緣雲節點,構建的一張 超低時延、全分散式下沉的通訊級流媒體傳輸網路GRTN

傳統的流媒體傳輸,依賴的是基於CDN構建的樹狀網路。

從一個攝像頭採集到的畫面,到使用者通過手機觀看,需要經過L1、L2、直播中心、L2、L1等多級節點,鏈路相對比較固定, 延時、成本、擴充套件性 都有很大的優化的空間。

GRTN設計概覽[2]

GRTN採用了一種樹狀和對等網結合的動態網路,GRTN的各節點之間不再有層級關係,而是相互對等,最終形成的就是一個網狀結構的系統。

此外,流媒體大腦作為GRTN的核心元件,負責路徑探測、路徑計算、流媒體編排等。選路中心會週期性收集內部鏈路探測的結果,並利用KSP演算法來進行拓撲計算。

另一方面,節點之間的鏈路探測資料,並不能完全決定實際的最優路徑,例如在多人視訊會議的場景,加入的參會人員的數量、分佈甚至先後,都會影響最終的路徑決策。

因此流媒體大腦還需要對流媒體的具體資訊進行感知,同時還需要結合各節點的容量規劃、成本、質量等等因素,共同編排出最優的傳輸路徑。

GRTN優化結果展示[2]

通過基於實際線上業務進行了測試,相比傳統的CDN樹狀結構,GRTN的傳輸時延由400ms左右提升至180ms左右,時延減半。

此外, 在使用者體驗上,98%的播放不會出現停滯的現象,95%的播放可以在1s內開始。 該工作的相關成果已被 SIGCOMM2022 接收 ,感興趣的讀者可以進一步查閱論文。[2]

邊緣AI

利用邊緣節點廣分佈且靠近資料來源產生地的特點,能夠進行特定的資料處理和識別優化,提供 低延時、省頻寬、低功耗、安全的AI服務

基於邊緣雲構建邊緣AI系統架構

整體架構採用了 雲-邊-端三層協同 的方案。

在終端側,手機、iot等裝置算力較弱,且功耗有限,因此很難執行比較複雜的AI模型,更適合做資料的採集、壓縮、以及預過濾性質的工作。

邊緣雲提供了GPU、FPGA等硬體加速的能力,但是相較於中心雲,規模和算力還是比較有限的,因此不太適合在邊緣雲進行大規模的模型訓練以及資料的持久化儲存,更適合對時延要求較高的推理部分。 而模型的訓練、結果的持久化儲存,可以放在中心雲進行。

因此, 在雲-邊-端三者協同的邊緣AI場景, 過將AI運算元從終端裝置上移到邊緣雲,將AI算力從中心下沉到邊緣雲,共同提供 低時延、高效能的AI服務。

除此之外,為了方便演算法科學家將運算元模型部署到邊緣雲,阿里雲同時開發了 邊緣運算元託管平臺 ,能夠結合邊緣雲分散式的特點,一站式、自動化地完成 AI 服務在邊緣節點的部署,將 AI 模型的推理過程轉化為通用的 Restful API 介面形式,供終端使用者呼叫。

阿里雲在2020年釋出於IEEE EDGE會議的一篇論文中的實驗表明,邊緣AI在部分場景,可以大幅度提 升推理效能,目標檢測效能最多可以提升 50倍 [3]

雲渲染

雲渲染,或者雲遊戲,是最近非常炙熱的方向。

阿里雲基於邊緣雲的全分散式異構計算資源和網路頻寬資源, 針對遊戲、AR/VR等視訊渲染場景,提供就近、低延時、位置無感的雲上渲染服務。

基於邊緣雲的雲遊戲系統架構

以雲遊戲為例,使用者的遊戲終端僅僅包括顯示部分和操作部分,使用者將控制指令傳送到邊緣雲節點,在邊緣雲節點渲染出實時遊戲畫面後,遊戲的視訊流和音訊流回傳到使用者遊戲終端。

這樣的話,使用者不需要強大的遊戲裝置,僅僅通過手機、電視、甚至家中的智慧音箱,就能暢玩目前最新、最火的遊戲。

基於邊緣雲的雲遊戲服務優化結果展示[4]

雲遊戲中,時延是最能影響使用者體驗的因素。由於邊緣雲相比中心雲能提供時延更低、質量更好、成本也更便宜的網路能力,因此,基於邊緣雲的雲遊戲服務的時延,要明顯好於基於中心雲的雲遊戲服務。

阿里雲在IMC 2021與幾所高校合作發表的論文,測量了以雲遊戲為代表的邊緣雲典型應用的效能和優勢,可以通過該論文了解研究的詳細結果。[4]

直擊邊緣雲研究挑戰

精準把握業務優化方向

邊緣雲協同挑戰

資源排程,特別是雲端計算中的資源排程,已經是一個相對成熟、研究成果也較為豐富的領域了。但是,邊緣雲的誕生為這個成熟的場景帶來了新的問題和新的機會。

邊緣雲中,協同是一個重要概念

以下將展開介紹與排程相關的三種協同:

首先是 地理位置的協同

傳統的雲資源排程往往是單個巨大的雲資料中心,排程的時候一般不會關注離終端使用者的距離、以及網路時延。而邊緣雲的資源排程,單節點的規模更小,通常只有幾百臺甚至更少的伺服器。

但是邊緣雲節點或者邊緣雲機房的數量又是非常大的,例如阿里雲在國內有2800個節點,相比較而言,中心雲的region大概只有十幾二十個。

因此, 面對這種分散式廣覆蓋的小型節點,並且地理位置有感的資源排程場景,傳統的雲資源排程方法難以取得比較好的排程結果 ,需要研究更適合這種場景的排程方法。

第二,邊緣雲考慮的 資源維度更多

除了時延之外,受限於單節點規模較小的特點,在做排程的時候還需要同時考慮磁碟大小、網路頻寬、甚至節點的IP數量、NAT閘道器的承載能力,等等。

這些不同維度的資源有可能是相互依賴、甚至是互斥的。因此,如何做到以及做好多維資源的協同排程,也是邊緣雲面臨的挑戰之一。

第三,是 產品形態的協同排程

傳統的雲資源排程,虛擬機器、容器、函式等等不同形態的產品所依賴的底層資源是分池的,他們之間的排程互不影響。

但是 在邊緣雲場景,是統一的融合排程,也就是說,在一臺伺服器上可能同時執行客戶A的虛擬機器、客戶B的容器、以及客戶C的函式服務。

因此,如何能夠在保證效能不相互影響的前提下,結合邊緣雲產品的特點,通過排程充分提升資源利用率,也是一個比較大的挑戰。

異構資源管理

第二個大的研究挑戰,來自於異構資源管理方面。

前文介紹的雲渲染雲遊戲場景,目前部分業務是由新型異構硬體承載的。

比如ARM伺服器,或者手機ARM晶片組成的陣列伺服器,等等。這些新型硬體對於雲端計算廠商來說,缺少一套 標準化的納管、測試、評價標準 阿里雲期待跟各大高校、科研單位合作,共建一套邊緣雲異構硬體評價系統與標準。

此外,基於這些新型異構硬體,也需要進行 虛擬化層面適配 ,例如,如何在手機ARM晶片陣列伺服器上,構建出功能完整的容器平臺,提供更靈活、擴充套件性更強的服務能力。

再者,部分異構硬體通常含有專用的硬體加速單元,這些硬體加速單元能否通過 軟硬體協同優化 ,更充分地被上層業務所使用,加速諸如編解碼、AI等等場景,也是阿里雲感興趣的研究方向之一。

雲遊戲/VR時延優化

最後,在雲遊戲、VR/AR、元宇宙等近期比較熱門的應用服務中,阿里雲同樣有大量研究機會點。

如針對雲遊戲或者VR相關場景的編解碼、傳輸等方面,可以通過 融合邊緣雲特性進行專門的優化。

此外,目前大部分雲遊戲直接將遊戲放在邊緣執行,只做到了“遊戲雲端化”,雖然在短期內實現了豐富雲遊戲服務,但是並沒有充分發揮雲的優勢。

未來階段,是否能夠誕生真正的原生就執行在雲上的遊戲,這些遊戲為雲而生,彈性自如,能夠充分利用雲的優勢,給使用者帶來更極致的雲遊戲體驗 ,也是阿里雲期待和大家一起探討和解答的問題。

參考文獻

[ 1]《邊緣雲端計算技術及標準化白皮書》2018, 阿里雲端計算有限公司,中國電子標準化研究院

[2] Li , J, et al. "LiveNet: A Low-Latency Video Transport Network for Large-Scale Live Streaming." ACM SIGCOMM (2022).

[3] Fu, Zhe, et al. "Astraea: Deploy AI Services at the Edge in Elegant Ways." 2020 IEEE International Conference on Edge Computing (EDGE). IEEE, 2020.

[4] Xu M, Fu Z, Ma X, et al. From cloud to edge: a first look at public edge platforms[C]//Proceedings of the 21st ACM Internet Measurement Conference. 2021: 37-53.

END