阿里雲飛天論文獲國際架構頂會 ATC 2021最佳論文:全球僅三篇

語言: CN / TW / HK

簡介: 近日,計算機系統結構國際頂級學術會議 USENIX ATC在線上舉行。ATC 始辦於1992年,是由USENIX組織的計算機系統領域的頂級會議,至今已成功舉辦31屆,計算機系統領域中Oak語言(JAVA語言的前身)、QEMU、ZooKeeper等一系列有影響力的研究成果都在USENIXATC發表或公佈。ATC 對論文要求極高,必須滿足基礎性貢獻、前瞻性影響和堅實系統實現的要求,本次論文錄取率僅為18%,全球僅選取3篇最佳論文。

ATC2021 放榜,接收率再創新低,為18%。同時,3篇最佳論文出爐,阿里雲提交的關於飛天作業系統的論文佔據一席,創下了中國公司最好成績。

近日,計算機系統結構國際頂級學術會議 USENIX ATC在線上舉行。ATC 始辦於1992年,是由USENIX組織的計算機系統領域的頂級會議,至今已成功舉辦31屆,計算機系統領域中Oak語言(JAVA語言的前身)、QEMU、ZooKeeper等一系列有影響力的研究成果都在USENIXATC發表或公佈。ATC 對論文要求極高,必須滿足基礎性貢獻、前瞻性影響和堅實系統實現的要求,本次論文錄取率僅為18%,全球僅選取3篇最佳論文。

阿里雲提交的論文名為《Scaling Large Production Clusters withPartitioned Synchronization》(PDF版),探討了飛天如何解決大規模計算資源的排程問題,被收錄並榮獲最佳論文獎,這也是ATC最佳論文首次出現中國公司的身影。

飛天是阿里雲自研的超大規模雲端計算作業系統,可將遍佈全球的百萬級伺服器連成一臺超級計算機,以線上公共服務的方式為社會提供計算能力。飛天的核心服務包括分散式計算、儲存、資料庫、網路等,本次獲獎的論文就是其中的資源排程服務。

據悉,阿里雲提交的關於飛天分散式排程系統“fuxi2.0”是阿里學術合作創新研究計劃(AIR)與香港中文大學Jamescheng老師的合專案成果。該論文討論了業界分散式排程架構資源衝突嚴重和排程效能差的問題,創造性地提出了一套資源衝突解決機制,實現了排程器在叢集規模上的可擴充套件性,同時保證極佳的排程效能和排程效果,支撐了飛天大資料平臺MaxCompute單叢集10萬節點的規模,4萬作業/秒的併發能力。

雲端計算最核心的問題是如何把成千上萬,甚至更大規模的機器高效地組織起來,靈活進行任務排程和管理,使使用者可以像使用一臺機器一樣使用雲端計算。隨著資料和計算量越來越大,雲端計算場景也變得超大規模化,以前傳統的基於中心架構的排程器受限於單點處理能力,無法在規模上實現可擴充套件。

阿里雲端計算平臺事業部研究員關濤表示:“分散式系統領域有一個說法,每當規模擴大一個數量級,就變成了一個全新的問題。規模、利用率和公平性是排程系統的三個核心,本次的論文基於阿里雲飛天系統的部分工作,在不損失利用率和公平性的情況下,探索排程系統在超大規模的可擴充套件效能力”。

近幾年,飛天作業系統多項研究成果被國際頂會錄取:2019年,資料排程論文Yugong被資料庫頂級會議VLDB錄取;2020年,機器學習&單機排程論文AntMan被作業系統頂級會議OSDI錄取;2021年,計算排程論文Fangorn被資料庫頂級會議VLDB錄取。

原文連結

本文為阿里雲原創內容,未經允許不得轉載。