Alluxio 2.8版本新看點
分享嘉賓 :楊勇 Alluxio R&D Tech Lead
編輯整理:區啟晟
出品平臺:DataFunTalk
導讀: 本文內容源自楊勇在6月26日線上 Alluxio Meetup 分享的《Alluxio 2.8 - New Features》,主要講解了Alluxio 2.8 的新特性。新特性主要包含以下三方面:
-
持續提高Alluxio對多種API的支援能力
-
新增更多的企業級安全特性,滿足企業在使用Alluxio時的安全性需求
-
增強資料移動能力,提供更多的Trouble Shooting工具,提供非同步的資料移動方式
全文將圍繞以下幾點內容展開:
-
Alluxio 2.8主要特性概覽
-
提高API支援能力
-
新增企業級安全特性
-
提升資料體驗
-
其他優化
-
參考架構
掃碼觀看本期視訊回放:point_down:
01
Alluxio 2.8主要特性概覽
-
提升北向介面的能力
-
新增企業級安全特性
-
提供更便捷的資料移動工具
02
提高API支援能力
1. 增強S3 API能力
支援S3介面的Metadata Tagging(標籤),Metadata標籤可作用於單個Object,也可作用於Bucket。當對操作物件(Object/Bucket)進行Tagging後,使用者可根據標籤,對應Object或Bucket進行操作。
Metadata Tagging是S3 特性。根據S3的規範定義,單個檔案最多支援10個使用者自定義的Tagging。以下操作可以支援Tagging:CopyObject, DeleteBucketTagging, DeleteObjectTagging, PutObjectTagging等。
用例:對物件test.txt進行PutObjectTagging操作,定義一個TagSet=[{Key=key1, Value=val1},{Key=key2, Value=val2}]。當使用GetObjectTag操作時,可獲取對應test.txt的TagSet,使用者可根據TagSet進行後續操作。
2. POSIX API(FOR AI/ML)優化,主要是Fuse方面
關注只讀Cache的非功能性需求 。主要指:效能、容量、穩定性相關需求。
同時 引入libfuse3 API 。可以支援fuse3後續的效能和可擴充套件性優化,通過引入該 API 也支援了更多訪問資料的方式。目前Alluxio中libfuse2是預設版本,後續將逐漸過渡到libfuse3版本。
優化Mount/Unmount機制 。可通過CLI或Alluxio.site進行Fuse Mount/Unmonut操作。優化對異常、殘餘的Mount的處理。
其他相關優化: 優化併發訪問大量小檔案的場景。單個Worker支援百萬級的Block。優化資料載入流程,降低使用者等待時間。在預載入大量小檔案時減少記憶體開銷,修復相關的OOM/Crash問題。
03
新增企業級安全特性
企業級特性增強的主要目標:
-
滿足合規和監管需求
-
保護資料,避免資料洩露
-
防止資料誤用
-
保護密碼/金鑰/訪問ID
-
在資料洩露後,減少爆炸半徑
1. 服務端資料加密
-
服務端資料加密,是指資料寫入Alluxio Worker時,對資料進行加密,在資料被讀取併發送到Client或UFS時,對資料進行解密。
-
服務端資料加密支援按目錄劃分加密區。 使用者可自行選擇需要加密的目錄作為加密區。 支援使用者選定多個目錄建立多個加密區。 加密區和非加密區可以同時存在。 不同加密區可以使用不同的加密策略。 也支援巢狀加密區,比如父目錄是加密區,子目錄可以設定另一個加密區,執行不同的加密策略。
-
支援多種加密Key。 加密區管理加密Key,同一個加密區可管理多個Key,可通過Round Robin方式使用不同加密Key對資料進行加密。 目前管理加密Key方式有: Hashicorp Vault作為KMS,也支援用Journal儲存Key(JournalStore主要用於測試)。
支援多種加密演算法:
-
AES/CBC/NoPadding and AES/CBC/PKCS5Padding
-
AES/GCM/NoPadding and AES/GCM/PKCS5Padding
-
AES/CTR/NoPadding and AES/CTR/PKCS5Padding
-
AES/ECB/NoPadding and AES/ECB/PKCS5Padding
開啟加密,需要兩步操作:
-
配 置加密策略,如設定加密演算法、加密儲存方式等
-
通過命令列設定加密區
2. 支援Master代理S3 Token
在歷史版本中,Master和Worker訪問S3均需要獲取Token,相關的AccessId和AccessKey、Credential Process等會儲存在各個Worker中,這種使用方式在某些場景中不太合適。在Alluxio 2.8中,所有Worker獲取S3 Token操作可以通過Master進行,當Master申請AssumeRole臨時Token後,會將Token轉發給Worker,Worker可通過該Token訪問S3。
通過這種方式,Master集中申請token,可減少Token重複申請次數。當Token將要過期時,Worker將會向Master申請重新整理token。在2.8實現了一個相關的框架,基於目前的框架,後續可以快速實現其他型別的臨時Token。
3. OPA授權整合
OPA是基於雲原生開發的授權系統,支援不同應用的整合,如Kubernetes、CICD、Servicemesh、SSH等。
在Alluxio 2.8中,Alluxio新增了一個可以和OPA整合的feature, 可以將Alluxio某些mount的授權託管到OPA。通常建議OPA Agent以Sidecar模式部署,這樣Master和OPA agent是處於同一臺機器,可以降低Master與OPA Agent的通訊成本。一旦Alluxio的某個mount被設定成和OPA整合,所有相關的授權檢查均交由OPA Agent進行。
04
提升資料體驗
對於distributedCp和distibutedMv命令,可通過引數配置非同步執行資料移動操作。
可通過getCmdStatus查詢非同步任務的CLI狀態。
對於EE場景,提供基於策略的資料管理的可觀測性,可檢視policy執行狀態。
05
其他優化
系統可觀測性優化:
-
針對Metadata sync,提供metrics,從而對sync狀態有更多瞭解
-
Data I/O異常處理,提供更準確的exception描述
-
上面章節提到的Distributed命令優化
-
技術負債
-
系統穩定性和容量
-
異常處理
-
Stressbench工具
-
更多可見Release Version
Community Version Alluxio 2.8.0 Release | Alluxio:
http://www.alluxio.io/download/releases/alluxio-2-8-0-release/
Enterprise VersionRelease Notes - Alluxio v2.8.0 (stable):
http://docs.alluxio.io/ee/user/stable/en/overview/Release-Notes.html
06
參考架構
1. 支援Master代理S3 token
(1)Client向Master發起Read file請求。
(2)當底層是S3的情況下,Master可部署在AWS上。Master收到請求後,會先通過Ranger對Client的請求進行許可權校驗。
(3)當權限校驗通過後,Master上的S3 Client會獲取相關的檔案元資料資訊。
(4)Client收到Master返回的可繼續操作的訊息後,將向Worker發起讀取請求。
(5)Worker收到Client請求後,會向Master發起獲取或更新S3臨時Token的請求。
(6)Worker獲取Token後,優先查詢本地快取,如無快取資料,Worker將通過臨時Token向S3請求資料,並返回Client。
2. 服務端資料加密
(1)Client向Master請求需要對某個目錄進行加密。
(2)Master會將加密Key儲存到KMS上,同時通知Worker該目錄需要加密。
(3)當Client對這個目錄發起寫入請求時,Worker會對寫入資料進行加密。當Client對這個目錄發起讀取請求時,Worker會對資料進行解密並回傳。
3. OPA授權整合
(1)Client請求Master進行檔案訪問。
(2)Master請求OPA Agent進行授權校驗。
(3)OPA Agent定時從OPA Service下載使用者定製策略。
今天的分享就到這裡,謝謝大家。歡迎繼續關注Alluxio發版的最新動態以及我們在後續 Release 過程中的一些技術分享。
在文末分享、點贊、在看,給個3連擊唄~
01 / 分享嘉賓
楊勇
Alluxio Alluxio R&D Tech Lead
主要負責Alluxio核心系統開發;在資料容災備份、資料刪重、檔案系統、分散式系統、大資料領域有豐富的經驗,作為第一作者申請獲得多項資料相關專利。
02 / 免費下載資料
03 / 報名看直播 免費領PPT
04 / 關於我們
DataFun: 專注於大資料、人工智慧技術應用的分享與交流。發起於2017年,在北京、上海、深圳、杭州等城市舉辦超過100+線下和100+線上沙龍、論壇及峰會,已邀請超過2000位專家和學者參與分享。其公眾號 DataFunTalk 累計生產原創文章700+,百萬+閱讀,14萬+精準粉絲 。
分享、點贊、在看 ,給個 3連擊 唄 ! :point_down:
- 搜尋場景下的智慧實體推薦
- 美團基於知識圖譜的個性化新聞推薦系統
- 360 x 清華大學:圖文跨模態表示最新研究成果公開
- 圖譜問答在小米小愛中的實踐探索
- 騰訊圖神經網路與推薦預訓練模型
- 圖機器學習在螞蟻集團推薦業務中的應用
- 杉數科技王子卓博士:資料驅動的智慧決策
- AI賦能金融風控全場景,輕鬆實現信貸評分、工程管理、理賠反欺詐!
- 可證明安全的隱私計算
- Flink Table Store v0.2 應用場景和核心功能
- 華為圖神經網路在推薦系統中的應用
- 揭祕位元組跳動解決ClickHouse複雜查詢問題的技術實踐
- Alluxio 2.8版本新看點
- OpenMLDB 最新版本、架構設計與落地案例分享
- 145億次播放,6千餘萬用戶,凱叔講故事APP資料埋點治理及分析實踐
- 推薦演算法中的特徵工程
- 華為在聯邦廣告演算法上的探索及應用
- Atlas超算平臺基於 Fluid Alluxio 的計算加速實踐
- 多租的安全性怎麼保障?揭祕阿里雲大資料平臺MaxCompute在多租上的實現!
- 未來10年,AI開發者面臨的三大“坑”!