阿里雲易立:雲原生如何破解企業降本提效難題?

語言: CN / TW / HK

簡介: 2020年以來,新冠疫情改變了全球經濟的執行與人們的生活。數字化的生產與生活方式成為後疫情時代的新常態。今天,雲端計算已經成為全社會的數字經濟基礎設施,而云原生技術正在深刻地改變企業上雲和用雲的方式。如何利用雲原生技術幫助企業實現降本增效是很多IT負責人關注的話題。

image.png

作者 | 易立
來源 | 阿里開發者公眾號

2020年以來,新冠疫情改變了全球經濟的執行與人們的生活。數字化的生產與生活方式成為後疫情時代的新常態。今天,雲端計算已經成為全社會的數字經濟基礎設施,而云原生技術正在深刻地改變企業上雲和用雲的方式。如何利用雲原生技術幫助企業實現降本增效是很多IT負責人關注的話題。
阿里巴巴一直是雲原生領域的的探索者和實踐者。阿里集團的雲原生之路有幾條主線:

  1. 第一個階段是應用架構的網際網路化。2007年起,隨著網際網路流量大爆發,阿里開始構建網際網路規模分散式應用架構,自研微服務、訊息、分散式資料庫等核心中介軟體。
  2. 第二個階段是基礎設施雲化。阿里雲2009年開始自研飛天雲作業系統,集團業務開始逐漸上雲。同時,2011年阿里集團開始探索落地容器技術,加速應用遷雲,最大化利用雲的彈性,通過離線上混部優化計算成本,到了2019年實現了核心系統全面上雲。

在這個基礎上,阿里集團開始實現全面的雲原生升級。我們堅持開源技術、阿里雲產品和集團應用的 三位一體。到2021年,實現了業務100%上雲,應用100%雲原生化。

雲原生技術已經為阿里帶來了巨大的價值紅利。目前阿里集團已經擁有全球最大的K8s叢集,單叢集過萬節點,可以統一支援電商、搜尋、大資料、AI等多樣化應用。2021年阿里年雙 11 大促峰值的計算成本相較去年下降了 50%。Serverless也在大量場景落地,研發效能提升 40%。

得益於阿里的雲原生大規模實踐,阿里云為企業構建了先進、普惠的雲原生產品家族,同時服務阿里集團和各行業客戶。2022年1季度,在權威諮詢機構 Forrester 釋出的公共雲容器平臺分析師報告中,阿里雲容器服務ACK成為比肩Google的全球領導者,這也是首次有中國科技公司進入容器服務領導者象限。

企業降本增效之路上面臨的難題

過去幾年,以容器為代表的的雲原生技術快速發展,在最新CNCF開發者調查中,在2021 三季度年全球已經有超過700萬雲原生開發者。使用雲原生技術可以驅動企業實現降本增效是當下大多數開發者的共識。但我們同樣可以看到的是,在2021年CNCF《FinOps Kubernetes Report》的調研報告中顯示,68%的受訪者表示所在企業過去一年在 Kubernetes 環境的計算資源成本有所增加。這背後的原因是什麼?

通過與企業的溝通和分析,我們發現企業目前面臨五大難題:

  • 規劃難。當業務遷移到容器場景後,需要對應用進行容量規劃,過度分配資源會導致資源浪費,資源超售過度則會導致穩定性問題。
  • 計費難。容器應用與傳統應用相比具備更高的彈性和動態性,可以按需建立和釋放資源,這也對費用估算帶來更大的挑戰。
  • 分賬難。與傳統應用部署與資源繫結的方式不同。現在多個容器應用共享一個K8s叢集。一個計算節點上可以執行多個Pod,而且Pod可以彈性伸縮,在節點間動態遷移。應用層與資源層計量計費在空間、時間等多個維度都無法做到一對一對應,造成成本治理的複雜性。
  • 優化難。雲原生技術中例如:彈性、混部、Serverless、超賣等技術都有各自適合的典型場景。如果使用不當,比如彈性配置錯誤,可能帶來意想不到的資源浪費甚至穩定性問題。
  • 管理難。混合雲已經成為企業IT架構的新常態。Kubernetes可以幫助企業遮蔽基礎差異。而不同環境財資管理能力參差不一,缺乏統一開放的用量資料模型進行管理,使得企業難以從全域性的視角進行整體的成本分析與優化。

近些年,隨著企業上雲的加速,雲財務管理(FinOps)的概念被越來越多的企業提及與採納,FinOps 是一種雲的運營模式,它將系統、最佳實踐和文化結合在一起,以提高組織瞭解雲成本的能力。這是一種為雲支出帶來財務責任的做法,使團隊能夠做出明智的業務決策。FinOps 增強了 IT、工程、財務、採購和企業之間的協作。它使 IT 能夠發展成為專注於利用雲技術為業務增值的服務組織。當雲原生技術與 FinOps 概念交織在一起,就孕育出了雲原生IT成本治理(Cloud Native FinOps)的理念,它是 FinOps 概念在雲原生場景下的一種演進與進化。

為了解決雲架構和雲原生技術帶來的新挑戰,企業開始關注新的成本治理方法。通過IT、財務、業務等團隊協同,在保障業務發展的同時幫助企業獲得更好財務控制和可預測性。

雲原生企業IT成本治理方案:加速企業 FinOps 程序

阿里雲結合業財一體化實踐和FinOps理念,提供了原生的產品能力,為企業提供了雲上全鏈路財務經營管理保障。阿里雲容器服務推出了企業雲原生 IT 成本治理方案,助力企業在雲原生雲上的場景下,提供企業 IT 成本管理、企業 IT 成本視覺化、企業 IT 成本優化等功能。

5月19日,由中國資訊通訊研究院(以下簡稱“中國信通院”)和中國通訊標準化協會聯合主辦的“2022 雲管和雲網大會”成功召開。會上釋出了《可信雲•雲成本優化工具能力要求 - 第1部分 原生工具》標準及首批評測結果。阿里雲憑藉在雲上成本管理的產品能力,以滿分的成績通過了全部 33 個能力指標,成為國內首家通過該項評估的雲服務商。

阿里雲企業雲原生 IT 成本治理方案擁有五大核心功能:

image.png

核心功能一:獨有的雲原生容器場景成本分攤與估算模型。為了解決容器場景下業務單元與計費單元生命週期不一致的問題,容器服務提出了獨有的計費與計量相結合的成本估算模型,並加入費用策略(付費型別、節省計劃、代金券、使用者折扣、競價波動)、分攤因子(CPU、記憶體、GPU 卡、GPU 視訊記憶體等)、資源形態(ECS\ECI\HPC)等因素的考量,實現針對Pod維度的成本估算以及叢集佔比的成本分攤。通過賬單分析將叢集在一個階段內的所有資源成本進行聚合,再配合 Pod 維度的成本分攤能力實現了完整的雲原生容器場景成本分攤與估算模型。

核心功能二:多維度的成本洞察、趨勢預測、根因下鑽。支援叢集、名稱空間、節點池、應用(label 萬用字元匹配)四個維度的成本洞察,叢集維度側重在雲資源的分佈、資源成本的趨勢變化、叢集水位與浪費的比率以及叢集成本費用的趨勢與預測,可以協助IT管理員準確判斷成本消費的趨勢,防止超過預算的場景;名稱空間側重在費用的分攤,支援短週期的費用預估以及長週期的成本分攤,支援排程水位、資源用量、成本趨勢的相關性分析,協助部門管理員進行成本估算,下鑽分析成本浪費,提升部門資源利用率;節點池維度側重在資源成本規劃與治理,通過例項型別、單位核時、排程水位、利用率水位的相關性分析,協助 IT 資產管理員優化資源組合和付費策略。應用(label 萬用字元匹配)維度側重在領域場景成本優化,例如:大資料、AI、離線作業、線上應用等各種上層應用場景,都可以通過應用維度的成本洞察進行實時費用預估以及任務級別的成本核算。

通過四個維度的成本洞察,可以讓全場景的成本優化功能與解決方案都有資料可以支撐,有理有據的進行降本增效。

核心功能三:全場景的成本優化能力、解決方案的覆蓋。針對於不同企業的實際業務場景,阿里雲容器服務提供了全場景的資源畫像建立、成本優化能力與解決方案。此外,企業針對成本的優化策略,大部分是需要業務場景支撐的,很多場景下還會存在定製化和二次開發。因此,阿里雲容器服務的企業雲原生 IT 成本治理方案提供的成本洞察能力與上層優化方案完全解耦的,可以通過四個維度的成本洞察能力,覆蓋全場景的成本優化手段的衡量與評估。

核心功能四:多叢集/多雲/混合雲全型別雲成本管理能力。多雲是目前企業上雲的新趨勢,不同的雲廠商的計費模型存在比較大的差異,例如:國內雲服務商常見的包年包月付費方式、國際雲服務商常見的信用卡預扣/後付、部分雲服務商支援的節省計劃以及預留例項等等。這些都對多雲雲管平面的成本分析能力提供了更多的挑戰。阿里雲容器服務的企業雲原生 IT 成本治理方案通過提供統一的雲服務廠商的賬單與詢價接入與預設實現,支援主流的雲服務廠商、IDC 自建機房的費用資料的接入。並通過一致的雲原生容器場景成本分攤與估算模型進行成本管理。配合企業級雲原生分散式雲容器平臺 ACK One,不僅提供了多叢集、多環境的統一叢集管理、統一資源排程、統一資料容災和統一應用交付能力,也提供了統一的財資治理能力。

核心功能五:企業雲原生IT成本治理的專家服務。企業雲原生 IT 成本治理不僅僅是一個產品能力或者解決方案,更是一種雲原生時代的企業IT管理、組織流程、文化的演進。阿里雲容器服務團隊聯合阿里雲天基團隊,通過阿里云云資管家提供完整的 FinOps 理念覆蓋的產品及專家服務。

image.png

比如,我們可以通過多維度的成本分析、洞察功能,瞭解應用的成本和資源利用率。並能提供趨勢預測。為企業財資管理提供決策依據。為了滿足企業多樣化的治理需求,我們還提供了開放的資料模型,可以通過 Prometheus、OpenAPI等方式整合到企業自己的治理流程中。有了成本洞察能力,我們看看可以利用什麼樣的手段實現成本優化。

多樣化彈效能力:彈性容器例項可以在 30 秒內擴容 3000 Pod

image.png

彈性是雲最核心的能力之一,可以有效降低計算成本。ACK在資源層和應用層提供了豐富的彈性策略。

在資源層,當叢集資源不足時,ACK叢集可以利用 cluster-autoscaler 在節點池中自動建立新的節點例項。我們可以根據應用負載,選擇ECS虛擬機器,神龍裸金屬例項,進行擴容。基於阿里雲強大的彈性計算能力,我們可以在分鐘級實現千節點擴容。

在ACK叢集中一個更加簡化的方案是利用ECI彈性容器例項來實現彈性。ECI基於輕量虛擬機器提供了 Serverless 化的容器執行環境,具備強隔離、高彈性,免運維、免容量規劃的特性。彈性容器例項可以在 30 秒內擴容 3000 Pod,可以輕鬆應對突發的新聞事件,或者支援自動駕駛模擬模擬這樣的批量計算業務。

值得一提的是,我們可以使用ECS或者ECI的競價例項,它可以利用阿里雲的空閒計算資源,成本折扣可以低至按量付費例項的 90%。競價例項非常適合無狀態和容錯性好的應用,比如批量資料處理或者影片渲染等。在應用層,Kubernetes提供了HPA 的方式進行 Pod 的水平伸縮,和 VPA 進行 Pod 的垂直伸縮。ACK 內建了基於機器學習的AHPA方案、來進一步簡化彈性體驗,提升彈性的 SLA。

image.png

K8s內建的水平 Pod 自動伸縮(HPA)有兩個不足:

第一個是彈性的滯後性,彈性策略基於對監控指標的被動響應,此外由於應用本身啟動、預熱也需要一定時間,在擴容的過程中,業務穩定性可能會受到影響;

第二個是配置的複雜性,HPA的執行效果取決於彈性閾值的配置。配置過於激進可能導致應用穩定性受影響,配置過於保守,成本優化的效果就大打折扣。需要反覆嘗試才能達到一個合理的水平。而且隨著業務的變化,也會需要重新調整彈性策略。

阿里雲和達摩院團隊合作,推出了AHPA,可以根據歷史資源畫像,對彈性週期和用量進行預測,提前擴容來保障服務質量,已經在菜鳥PAAS平臺、阿里雲智慧語音服務多種場景經過驗證。幫助智慧語義互動產品實現90% 的例項在業務來臨之前 Ready,CPU 利用率提升 10% 節省 20% 的資源成本。

混部能力升級:在K8s上提供對編排排程能力的增強

image.png

隨著雲原生技術的廣泛應用,Kubernetes 之上計算型別的工作負載越來越豐富,我們可以通過合理的編排排程,充分利用負載之間的削峰填谷效應,讓工作負載以更穩定、更高效、更低成本的方式去使用資源。這也就是業界時常提及的 “混部”概念。

阿里巴巴在 2011 年開始探索容器技術,並在 2016 年啟動混部技術研發,至今經過了多輪技術架構升級,最終演進到今天的雲原生混部系統架構,實現了全業務規模超千萬核的雲原生混部,混部天平均 CPU 利用率超 50%,幫助阿里巴巴節省了大量的資源成本。

混部是在網際網路企業內部重金打造的成本控制核心,凝聚了眾多的業務抽象和資源管理的思考優化經驗,因此混部通常都需要數年的打磨實踐才能逐漸穩定併產生生產價值。但是,每家企業是否都需要很高的門檻才能使用混部,都需要大量的投入才能產生價值?

基於阿里集團內部超大規模生產實踐經驗,阿里雲近期開源了雲原生混部專案 Koordinator,旨在為使用者打造雲原生場景下接入成本最低、混部效率最佳的解決方案,幫助使用者企業實現雲原生後持續的紅利釋放。它在K8s之上提供了對編排排程能力的增強,包含三大核心能力:

  • 差異化 SLO保障:在 Kubernetes 之上抽象一套面向QoS的資源排程機制,比如延遲敏感型的線上類任務,和Best effort型別可搶佔的計算任務。在提升資源利用率的通俗,讓低優先順序的任務,對延遲敏感型任務的影響 < 5%;
  • 資源精細化排程:包括 CPU、GPU 拓撲感知、資源預留、互動式搶佔、碎片整理、資源畫像、熱點打散等精細排程能力;
  • 任務排程:大資料與 AI 相關的任務排程,比如 Gang、批量、優先順序搶佔以及彈性 Quota(佇列間借用)等,從而更好地去應用整個叢集資源。

Koordinator 專案完全相容上游標準的 K8s,無需做任何侵入式修改。阿里雲容器服務提供了產品化支援,使用者也可以基於開源專案應用在自己的場景中。可以說,Koordinator 的開源,可以讓更多的企業看見並用上雲原生混部的能力,幫助企業加速雲原生化的過程。在技術上,Koordinator 能夠幫助企業實現更多的負載接入到 Kubernetes 平臺,豐富容器排程的工作負載型別,繼而發揮出工作負載錯峰分時的特徵,從而實現效率、成本上的收益,保持長期可持續發展的健康形態。Koordinator 專案還在快速發展的過程中,歡迎大家一起共建。

雲伺服器ECS基本操作

雲伺服器ECS(Elastic Compute Service)是一種彈性可伸縮的計算服務,助您降低 IT 成本,提升運維效率,使您更專注於核心業務創新。本課程從實操層面講解ECS伺服器基礎知識,重點講解ECS伺服器如何進行操作等。

點選這裡,檢視詳情。

原文連結:http://click.aliyun.com/m/1000346704/

本文為阿里雲原創內容,未經允許不得轉載。