AI1002019-09-13 09:27:21
以下為正文
01 元資料的概念和分類
元資料,又被稱為描述資料的資料,你可以把它類比成關係型資料庫的 schema 資訊,來方便直觀地理解它,但是它絕不僅僅是 schema 資訊,它還包括了很多其他的資訊。一般意義上來說,元資料是描述資料倉庫內資料的結構和建立方法的資料。一般按照用途來分類,元資料分為技術元資料和業務元資料。
技術元資料,通常是給程式使用的,它包含了資料倉庫中包含的表,每張表的合法欄位、值型別、有效值範圍等資訊,以及 ETL 程式需要使用到的轉換規則、資料流轉資訊等。
業務元資料,通常是給分析人員使用的,包含從業務角度描述的各個主題域和資料模型的構成和含義,資料表、欄位和值的含義,也包括統一的統計口徑、常用的特殊限定條件、特定業務術語等。
元資料中心的職責,就是對元資料進行管理,承擔著資料治理的重任,在資料倉庫體系中有著至關重要的作用。接下來,我們就來說下它有什麼作用。
02 元資料中心在數倉體系中的核心作用
元資料中心的核心地位,不僅是因為它儲存了最核心的元資料,同時也是因為它在資料倉庫構建的各個階段都發揮了非常重要的作用。
具體如下圖所示:
其具體的作用點,如下:
(1)提供了合法表名、欄位名的集合,在 ETL 過程中可以有效阻止髒資料的混入,提升資料質量,同時也規範了日誌打點,保證命名規範的一致性,避免產生歧義。
(2)提供了欄位值的有效範圍,可以在上線前由測試人員進行驗證,避免 bug 資料的混入
(3)包含各種主題和資料的含義,方便資料分析人員理解資料,根據自己的業務分析需求獲取對應的資料
(4)定義資料倉庫的模型資料,提供給建模工具進行主題建模
(5)提供有效的資料血緣關係,方便在出現資料問題時,進行追蹤溯源,幫助定位並解決問題
(6)記錄資料定義的變遷歷史,方便後續進行跨度比較大的分析,同時也有助於在分析時確定資料的有效可用範圍
03 元資料中心管理系統
通過前面的講解,我們對元資料中心有了初步的瞭解,那麼接下來我們來簡單說下元資料中心管理系統,這部分並不是要手把手教你怎麼去設計並建設元資料中心,而是試圖讓你通過理解它的組成結構,來加深對元資料中心的理解。
首先,我們需要了解下,元資料中心管理系統一般的典型架構由哪些模組組成。具體如下圖所示:
最右側的 DB,代表儲存模組,所有的資料都需要儲存到這裡,而左側的方框表示了元資料管理中心具備的功能模組,我們逐個來解釋下。
(1)許可權認證模組,這個不用多說,屬於基礎功能模組,保證系統的資料安全。
(2)稽核模組,用於控制稽核流程。因為元資料是非常核心的資料,如果它出錯,整個資料倉庫體系的多個環節可能都會受到影響,因此需要有稽核機制來確保資料的正確性和一致性。
(3)源資料格式管理,這個模組主要作用是定義資料來源的資料格式,包括裝載到資料倉庫中儲存的表,具有哪些欄位及其資料型別,以及值的有效範圍等資訊。這些資訊會作為 ETL 程式的重要參考內容,有助於對資料質量的把控。
(4)資料模型定義管理,主要作用是管理各個主題域的相關資訊,包括事實表、維度表,以及他們之間的關聯關係等。資料分析人員在進行具體分析任務時,會根據這部分的資訊,來決定使用什麼資料和如何使用資料。
(5)主題構建過程管理,這部分的作用是管理事實表、維度表等的構建過程,包括讀入什麼樣的資料來源、如何完成資料的轉換、如何與維度表關聯、決定最終的表結構等,這部分的資料是建模工具要依賴的資料。
(6)業務規範定義管理,這個模組管理的是各種業務指標定義、統計口徑設定、特定的業務場景限定條件等,總之是在分析工作過程中需要用到的各種業務知識。
(7)元資訊管理,這裡的元資訊是指元資料中處於基礎位置的資訊,如公司的產品線、各產品線或業務的通用欄位、保留欄位等的管理,這部分資訊的複用程度非常高,需要單獨進行管理。
(8)記錄更改歷史,這個模組負責把每次元資料的變動都記錄下來,方面後續排查資料問題時,檢視元資料的變化過程和變化的具體時間點,輔助定位問題。
總結
本文帶領大家初步瞭解了元資料中心的概念、分類、儲存的資料內容、在資料倉庫體系中的作用和元資料管理系統的構造。希望可以幫助大家加深對元資料中心的理解,並對你的面試和工作有所幫助。
朋友會在“發現-看一看”看到你“在看”的內容