雲端計算的「反內卷」之刃,為什麼會是CIPU?

語言: CN / TW / HK

CIPU成武林爭霸焦點的背後,是對下一代雲端計算標準定義權的爭奪。

作者 | 包永剛

編輯 | 王川

暗流湧動的雲端計算市場,正在醞釀一場“華山論劍”,這場對決的關鍵正是炙手可熱的新型雲資料中心專用處理器。

這場對決,氣氛正在變得熱烈,前有英偉達讓DPU(Data Processing Unit)概念一炮而紅,後有英特爾與谷歌合作,祭出IPU(Infrastructure Processing Unit)強勢接招。

本週,阿里雲帶著新發布的CIPU(Cloud infrastructure Processing Units)處理器,以強者的姿態闖入了雲端計算3.0時代“華山論劍”的武林大會。

實際上,功能上看,CIPU、DPU、IPU、CIPU大抵相仿,都是為新型雲資料中心設計的專用處理器。阿里雲認為,未來CIPU將替代CPU成為雲端計算的管控和加速中心。

同一本武功祕籍,卻生出了三套武功。這場“論劍”的輸贏,絕不止在功夫上見高低。

雲端計算巨頭們真正在爭奪的,是下一代雲端計算標準的定義權,成為新時代的“武林盟主”。

阿里雲的加入,讓這場武林大會變得更加有趣。

畢竟, 中國工程院院士、清華大學鄭緯民教授對阿里雲最新發布的CIPU也讚賞有佳,他認為,“CIPU完全打破上一代計算架構,是在基礎技術上實現了世界領先的雲資料中心專用處理器。”

CIPU,將如何開啟雲端計算的新戰場? 

阿里雲智慧總裁張建鋒釋出CIPU

1

雲端計算正邁入3.0時代,

IPU/DPU/CIPU成新戰場

CIPU、IPU、DPU對於大部分人而言是新概念,但對於全球領先的雲服務提供商們,已然成為了必爭之地。

因為,這一全新的處理器已經成為了大型雲服務提供商們進入雲端計算3.0時代的關鍵。

阿里雲智慧總裁張建鋒認為,過去十多年,雲端計算技術經歷了兩個發展階段:第一階段是分散式和虛擬化技術替代了大型機,滿足了當時企業所需的算力規模;第二階段出現了資源池化技術,以阿里巴巴為例,通過計算儲存分離架構,將計算、儲存、網路資源分別池化,突破了規模和穩定性的瓶頸,提供了超大規模的雲端計算服務。

“隨著資料密集型計算場景的普及,使用者對低時延、高頻寬的需求也越來越高,傳統以CPU為中心的計算體系架構無法適應這一趨勢。為了解決這一問題, 阿里雲相關研發團隊早在2015年就開始技術攻關,不斷深入計算、網路、儲存核心技術,深入垂直整合,才演進出以CIPU為中心的全新架構形態,雲端計算開始進入第三階段。 ” 張建鋒同時表示。

傳統以CPU為中心的雲端計算架構中,CPU不僅需要承擔計算任務,還要負責邏輯控制,隨著資料密集型計算越來越多,這種架構會導致計算和網路傳輸的時延大,並且無法提供高頻寬, 研發全新的CIPU//IPU/DPU加速計算晶片,才能滿足越來越多資料密集型計算需求成為了業界共識,這也成了雲端計算巨頭們的新戰場。

中科馭數CEO鄢貴海說:“DPU誕生的背景是頻寬與計算效能的增速失調。CPU的效能從5-10年前每年30%的增幅,到三年前大概只有每年不到3%的效能增幅。而網路頻寬每年依舊還有35%左右的增長。處理效能和頻寬增速的比例從原來的大概1:1,變成了現在的1:10左右。”

大禹智芯CEO李爽指出,“當有10倍以上的差距時,就需要思考新的架構。DPU實際上是架構轉移。”

可以看到,無論是傳統晶片巨頭,還是雲服務提供商,還有初創公司,都在近幾年湧入了這一賽道。據雷峰網瞭解,全球頭部的雲服務提供商都在自研DPU。但阿里雲自研的CIPU,優勢突出。 

2

CIPU有何獨特之處?

與CPU和GPU這類通用計算晶片有著顯著區別,DPU/IPU/CIPU是典型的應用驅動型晶片。既然是應用驅動型晶片,軟硬體的融合以及對應用場景的理解就至關重要。

阿里雲虛擬化技術負責人蔣林泉說,“CIPU是我們根據業務定義的晶片,向上接入飛天雲作業系統,將全球數百萬臺伺服器連成一臺超級計算機,向下對資料中心的計算、儲存、網路資源快速雲化並進行硬體加速。我們自研的CIPU能夠更精準解決雲作業系統中管理、控制、排程,以及部分核心業務加速的問題。”

CIPU架構示意圖 

那CIPU是IPU和DPU的綜合體嗎?阿里雲技術產品負責人蔣江偉認為,“這種說法對,也不對。 如果單拿出一個IPU或者DPU,它沒有類似飛天這樣的作業系統,其實沒那麼大價值。CIPU天然需要跟雲端計算作業系統才能產生一個價值。

多位業界人士也對雷峰網表示,DPU作為應用驅動的晶片,與雲端計算服務提供商基礎架構的融合程度是DPU成功的關鍵。實際上,不同的雲服務提供商底層軟硬體架構不同,所以外部晶片設計公司設計的DPU/IPU很難與雲服務提供商完美適配, 像阿里雲這樣體量足夠大的雲服務提供商自研CIPU優勢明顯。

相比同樣是雲服務提供商自研的晶片,比如AWS,阿里雲的CIPU又有何獨特之處?

蔣林泉認為:“我們都邁入了類似的新階段,但在不同的市場裡,我們看到的風景不太一樣。首先,產品的效能上,CIPU無論是計算、網路、儲存的效能都遠超其它產品,這是因為國內客戶對效能和價效比的追求非常極致,也與我們對垂直技術棧的深入有關。另一方面,我們與海外雲服務提供商面向的客戶也有明顯不同,國外有很多成熟的企業使用者,而國內有許多中小客戶,他們更需要普惠的服務。”

當然,要證明CIPU在實際應用中帶來的價值,資料是最為直觀的體現。要知道, 在擁有CIPU和飛天作業系統的新一代雲端計算架構體系下,阿里雲的計算、網路、儲存的效能實現了全面飛躍。

計算層面,CIPU能夠快速接入不同型別資源的神龍計算平臺,帶來算力的“0”損耗,以及硬體級安全的加固隔離。

體現在不同的場景中,主流通用計算場景下,Nginx效能提升了89%,Redis效能提升了68%、MySQL提升了60%。大資料和AI 場景下,AI深度學習場景訓練效能提升30%,Spark計算效能提升30%。

CIPU與網路的結合,基礎頻寬從100G升級至200G,網路時延從22us降低至16us,RDMA協議下更可低至5.5us。

特別值得一提的是,CIPU能夠對高頻寬物理網路進行硬體加速,通過建設大規模的eRDMA分散式高效能網路,讓一般只有在超算裡才能使用的“貴族化”技術RDMA在阿里雲中普惠化。

CIPU與儲存的結合,對存算分離架構的塊儲存接入進行硬體加速,雲盤儲存IOPS最高可達300萬,長尾時延降低50%,全面超越市面上所有云產品,雲端能提供比本地更安全可靠且高效能的儲存能力。

CIPU帶來的雲端計算核心三要素計算、儲存、網路效能的全面提升,不僅會對雲、對資料中心內部產生影響,也會改變傳統計算機終端、以及軟體應用分發的形態。同時也意味著,雲端計算正在進入下一個時代。

阿里雲認為,新一代的雲端計算要從資料中心的內部做體系化創新,從以往的以CPU為中心的體系架構,進入以CIPU為中心的體系架構。

3

CIPU之爭背後,是下一代 雲端計算標準

的定義權爭奪

雲端計算體系架構的變化,也將引發下一代雲端計算標準的定義權之爭。過去的經驗告訴我們, 只有業界的佼佼者才能擁有定義標準的權利。

“今天我們可以清晰得看到,阿里雲做到了軟硬體完美結合,成為‘飛天+CIPU’支撐的雲端計算技術體系”, 張建鋒說,“阿里雲核心技術一直走在世界前列,這個新型體系是技術長征路上的新的里程碑,這個新型的技術體系正在定義下一代雲端計算架構。

阿里雲有這樣的底氣,關鍵在於過去13年核心技術的自研,構建出了自研晶片、伺服器、計算、儲存、網路等軟硬一體的新型計算體系架構。2003年圖靈獎得主Alan Kay曾說過,只要你是真正認真對待軟體的人,就應該自己做硬體,才能夠獲得差異化的體驗。

作業系統和軟體是離終端使用者最近的產品,只有對它有深刻的認知,才能提供有差異化和有競爭力的產品。

阿里雲正是選擇了這樣的自研之路,首先自研了中國唯一的雲作業系統——飛天,將遍佈全球的上百萬臺伺服器連線成一臺超級計算機,單叢集可達10萬臺規模,千億級檔案數,EB級別儲存空間。

有了雲作業系統飛天,想要進一步提升就需要由上而下,從系統到軟體再到硬體掌握核心技術。這又回到了計算、儲存和網路三大要素。

在計算層,為了解決伺服器長久以來的虛擬化效能損耗的問題,阿里雲自主研發了神龍架構。在儲存層,阿里自研的分散式儲存系統盤古,採用了分散式系統先進的容錯架構和柔性平臺設計,大幅提高了儲存系統的可靠性和安全性。網路層,阿里雲自研的絡神韻網路支撐起百萬級的使用者業務部署,讓更多能夠人體驗到雲端計算帶來的高效便捷服務。

阿里雲還通過自研資料庫PolarDB,進一步提升可用性、併發處理、彈效能力,能夠高效應對“雙11”般的流量洪峰。

在此基礎上,阿里雲去年釋出了自研的磐久伺服器和龍蜥作業系統,磐久伺服器採用了最新型的模組化設計,帶來了伺服器交付效率提升50%。龍蜥作業系統效能大幅提升的同時,支援x86、ARM、龍芯(LoongArch)等多種晶片架構和計算場景,也讓阿里雲成為全球支援CPU種類最多的雲廠商。

去年阿里雲釋出的倚天710 CPU,由於是針對雲端計算設計的產品,更是能夠帶來業界領先的極致效能。 今年釋出的CIPU,是阿里雲自然而然的選擇,更是認真對待軟體走向硬體自研的正確路徑。

過去多年的自研,已經讓阿里雲站在了雲端計算領域的山峰。最新發布的自研產品CIPU,讓阿里雲擁有了承接上層飛天作業系統和底層計算、網路、儲存的最強連線,再一次打破資料中心瓶頸,帶領資料中心從以CPU為中心轉向以CIPU為中心,推動雲端計算向3.0時代邁進。

在雲端計算的新階段,阿里雲將擁有定義下一代雲端計算標準的實力,有機會站上全球雲端計算領域之巔。