華為雲MRS支援lakeformation能力,打造一站式湖倉，釋放資料價值

語言: CN / TW / HK

時間 2023-02-09 14:01:22 華為雲開發者聯盟

主題:

摘要：對雲端使用者而言，業務價值發現是最重要的，華為MRS支援LakeFormation後，成功降低了資料應用的成本，幫助客戶落地“存”與“算”的管理，加快推進了數智融合程序，更大程度地釋放業務資料價值。

本文分享自華為雲社群《華為雲MRS支援lakeformation能力,打造一站式湖倉，釋放資料價值》，作者：breakDawn。

1 背景

1.1 數倉和資料湖的概念

資料分析技術在2010~2019年間，以湖倉兩層架構技術作為主流被各資料廠商所應用，即大資料數倉+資料湖的技術形式。

大資料數倉：出現最早，也最完備，從單機向分散式、智慧化發展。例如 Hive、華為DWS等
資料湖：狹義上的湖主要是雲廠商參與，以統一的物件儲存底座結合雲平臺水平擴充套件的計算資源，讓分析以資料為本、讓業務快起來。

1.2 傳統湖倉技術的挑戰

以上技術在多年的實踐中，逐步衍生出了以下的一些挑戰：

隨著資料和AI業務持續創新，跨叢集、跨服務的資料分析成為普遍需求。然而各叢集、各服務各自持有元資料，難共享，難維持一致，需要元資料ETL操作才能共享。
資料湖、數倉、AI資料化，導致資料雖然可以統一儲存在OBS孤島，但各服務元資料獨自管理，形成資料管理的孤島。
湖倉協同僅能通過外表來訪問，元資料、認證、許可權都不能統一配置和管理，尤其是許可權不統一嚴重阻礙了資料跨引擎共享。

上述問題導致了構建、保護和管理資料湖的過程複雜且耗時，通常需要大量開發和維護成本，解決這一問題的關鍵在於引擎元資料需要互通，只有構建滿足各種引擎需求的資料湖統一元資料服務檢視，才能實現資料共享，避免其中額外的ETL成本以及降低鏈路的延時。

1.3 湖倉一體架構的出現

為了解決上述資料湖的相關挑戰，2019年左右，業界開始出現一種新的資料架構，叫做DataLakehouse（湖倉一體），它同時吸收了資料倉庫和資料湖的優勢，能夠在存算分離的基礎上，構建統一元資料層，上層服務通過統一元資料層，便捷高效地共享資料和許可權管理。因此資料分析師和資料科學家可以在同一個資料儲存中對資料進行操作，為公司進行資料治理帶來更多的便利性。

2 華為lakeFormation服務關鍵能力

華為LakeFormation是企業級的一站式湖倉構建服務，提供了資料湖元資料統一管理的視覺化介面及API，相容Hive元資料模型以及Ranger許可權模型，支援無縫對接多種計算引擎（Hive、Spark等）及大資料雲服務(MRS、DLI等)，使客戶便捷高效地構建資料湖和運營相關業務，加速釋放業務資料價值，是數智融合的關鍵基礎設施。該產品具有以下關鍵能力：

豐富的元資料和資料許可權管理

華為lakeformation支援Catalog和跨源管理，以及庫/表/函式的集中管理，可解決多種不同元資料型別之間互有差異的痛點，無需再引入第三方ETL進行檢視和管理，並實現了統一的細粒度資料許可權管理，支援跨服務/跨叢集的資料共享。

生態開放

華為LakeFormation相容社群介面、支援平滑對接和遷移，提供了相容Hive/Spark/Flink/Trino社群的元資料介面，支援計算引擎平滑對接，同時相容Ranger的許可權介面，支援一次授權，統一生效。

大規模、高可靠

華為LakeFormation支援處理海量資料業務，具有百萬級超大規模元資料管理能力，以及多AZ的容災能力，可為業務持續性提供穩定保障，且採用Serverless架構，開箱即用，簡單易上手。

3 華為雲MRS支援lakeformation創造資料價值

3.1 Lakeformation給MRS帶來的場景價值

以數智融合場景為例，當大資料使用者在MRS中建立了表T1時，數倉使用者可通過lakeformation觀察到表T1的元資料，並通過DWS寫入正確的資料內容。

當AI使用者希望通過華為ModelArts讀取T1資料時，可藉助lakeformation檢視T1表，再進行T1資料的獲取，整個過程中減少了MRS和其他產品聯合協同運作時的複雜ETL操作，大大提升了資料使用的效率。

另外，當企業使用者的安全管理員希望對不同MRS叢集中同一業務型別的元資料進行ranger許可權限制時，可通過lakeformation按下圖所示的步驟進行操作，整個過程一次授權，統一生效，充分提高了管理效率，簡化管理流程。

3.2 MRS服務對接lakeformation能力展示

華為MRS使用者可基於最新上線的LakeFormation資料連線能力，實現lakeformation例項的建立和授權。

在MRS控制檯的資料連線頁面，支援建立如下圖所示的lakeformation資料連線：

建立完成lakeformation資料連線後，即可在MRS叢集概覽中，配置該資料連線，實現MRS和lakeformation之間的資料關聯。

後續再根據產品資料指導完成MRS叢集元件相關配置後，即可正常使用LakeFormation統一的資料湖元資料及許可權管理，實現元資料的管理互通、統一賦權，根據統一的元資料進行業務作業提交等。

當用戶在lakeformation中針對MRS叢集的catalog建立了department表後

其他使用者可在對應MRS叢集的hive客戶端中觀察這個department表的元資料。

反過來，使用者通過MRS的hive客戶端建立一個employe表後，可以在lakeformation中看到該元資料資訊。

另外也可通過資料許可權能力，修改資料表的許可權策略，並直接同步到MRS的許可權管理元件中。

4 總結

對雲端使用者而言，業務價值發現是最重要的，華為MRS支援LakeFormation後，成功降低了資料應用的成本，幫助客戶落地“存”與“算”的管理，加快推進了數智融合程序，更大程度地釋放業務資料價值。

點選關注，第一時間瞭解華為雲新鮮技術~

「其他文章」