入門資料分析師,從瞭解元資料中心開始

2019-09-13 09:27:21


作者丨凱凱連

編輯丨Zandy
來源 | 大資料與人工智慧(ID:ai-big-data)


【導讀】上一篇文章,我們簡單講解了資料倉庫的概念,並介紹了它的分層架構設計,相信大家對資料倉庫體系已經有一定的瞭解了。

那麼,這篇文章,我們將再進一步探討一下資料倉庫治理的問題,一起探究下龐大的資料倉庫體系是如何進行資料管理的。


1.什麼是元資料中心?為什麼要講它?


元資料中心是負責記錄和管理資料倉庫中資料的含義、格式、血緣關係等元資料的系統,它是資料治理環節最重要的元件。


由此可知,要想理解一個公司的資料倉庫體系,就必須先從元資料中心開始。


所以它也是資料分析師的常用系統,做任何資料分析前,都需要對手上有什麼資料,怎麼利用他們瞭如指掌,元資料中心就在這個過程中承擔著極其重要的作用。因此,作為大資料分析師,必須要了解元資料中心。


2.本文的目標是什麼?


本文的側重點是向你講解元資料中心的作用和設計思路,一方面講解它存有什麼樣的資訊,能用來做什麼,怎麼藉助元資料中心完成分析任務;另一方面,會簡單介紹下元資料中心的各個組成部分,理解它是如何發揮作用的。目標是讓你深入瞭解元資料中心,可以在工作中比較好地利用它產生業務價值。


3.本文的講解思路


第一部分,講解元資料的概念和分類。
第二部分,講解元資料在資料倉庫體系中發揮著什麼作用。
第三部分,講解元資料中心管理系統的組成結構,更加深入地理解元資料中心。


以下為正文


01 元資料的概念和分類


元資料,又被稱為描述資料的資料,你可以把它類比成關係型資料庫的 schema 資訊,來方便直觀地理解它,但是它絕不僅僅是 schema 資訊,它還包括了很多其他的資訊。一般意義上來說,元資料是描述資料倉庫內資料的結構和建立方法的資料。一般按照用途來分類,元資料分為技術元資料和業務元資料。


技術元資料,通常是給程式使用的,它包含了資料倉庫中包含的表,每張表的合法欄位、值型別、有效值範圍等資訊,以及 ETL 程式需要使用到的轉換規則、資料流轉資訊等。


業務元資料,通常是給分析人員使用的,包含從業務角度描述的各個主題域和資料模型的構成和含義,資料表、欄位和值的含義,也包括統一的統計口徑、常用的特殊限定條件、特定業務術語等。


元資料中心的職責,就是對元資料進行管理,承擔著資料治理的重任,在資料倉庫體系中有著至關重要的作用。接下來,我們就來說下它有什麼作用。


02 元資料中心在數倉體系中的核心作用


元資料中心的核心地位,不僅是因為它儲存了最核心的元資料,同時也是因為它在資料倉庫構建的各個階段都發揮了非常重要的作用。


具體如下圖所示:

             

 


其具體的作用點,如下:


(1)提供了合法表名、欄位名的集合,在 ETL 過程中可以有效阻止髒資料的混入,提升資料質量,同時也規範了日誌打點,保證命名規範的一致性,避免產生歧義。

(2)提供了欄位值的有效範圍,可以在上線前由測試人員進行驗證,避免 bug 資料的混入

(3)包含各種主題和資料的含義,方便資料分析人員理解資料,根據自己的業務分析需求獲取對應的資料

(4)定義資料倉庫的模型資料,提供給建模工具進行主題建模

(5)提供有效的資料血緣關係,方便在出現資料問題時,進行追蹤溯源,幫助定位並解決問題

(6)記錄資料定義的變遷歷史,方便後續進行跨度比較大的分析,同時也有助於在分析時確定資料的有效可用範圍


03 元資料中心管理系統


通過前面的講解,我們對元資料中心有了初步的瞭解,那麼接下來我們來簡單說下元資料中心管理系統,這部分並不是要手把手教你怎麼去設計並建設元資料中心,而是試圖讓你通過理解它的組成結構,來加深對元資料中心的理解。


首先,我們需要了解下,元資料中心管理系統一般的典型架構由哪些模組組成。具體如下圖所示:

      


最右側的 DB,代表儲存模組,所有的資料都需要儲存到這裡,而左側的方框表示了元資料管理中心具備的功能模組,我們逐個來解釋下。


(1)許可權認證模組,這個不用多說,屬於基礎功能模組,保證系統的資料安全。

(2)稽核模組,用於控制稽核流程。因為元資料是非常核心的資料,如果它出錯,整個資料倉庫體系的多個環節可能都會受到影響,因此需要有稽核機制來確保資料的正確性和一致性。


(3)源資料格式管理,這個模組主要作用是定義資料來源的資料格式,包括裝載到資料倉庫中儲存的表,具有哪些欄位及其資料型別,以及值的有效範圍等資訊。這些資訊會作為 ETL 程式的重要參考內容,有助於對資料質量的把控。


(4)資料模型定義管理,主要作用是管理各個主題域的相關資訊,包括事實表、維度表,以及他們之間的關聯關係等。資料分析人員在進行具體分析任務時,會根據這部分的資訊,來決定使用什麼資料和如何使用資料。


(5)主題構建過程管理,這部分的作用是管理事實表、維度表等的構建過程,包括讀入什麼樣的資料來源、如何完成資料的轉換、如何與維度表關聯、決定最終的表結構等,這部分的資料是建模工具要依賴的資料。


(6)業務規範定義管理,這個模組管理的是各種業務指標定義、統計口徑設定、特定的業務場景限定條件等,總之是在分析工作過程中需要用到的各種業務知識。


(7)元資訊管理,這裡的元資訊是指元資料中處於基礎位置的資訊,如公司的產品線、各產品線或業務的通用欄位、保留欄位等的管理,這部分資訊的複用程度非常高,需要單獨進行管理。


(8)記錄更改歷史,這個模組負責把每次元資料的變動都記錄下來,方面後續排查資料問題時,檢視元資料的變化過程和變化的具體時間點,輔助定位問題。


總結


本文帶領大家初步瞭解了元資料中心的概念、分類、儲存的資料內容、在資料倉庫體系中的作用和元資料管理系統的構造。希望可以幫助大家加深對元資料中心的理解,並對你的面試和工作有所幫助。


(*本文為AI科技大本營轉載文章,轉載請聯絡作者)


推薦閱讀

  • CSDN“2019 優秀AI、IoT應用案例TOP 30+”正式發

  • 六大主題報告,四大技術專題,AI開發者大會首日精華內容全回顧

  • 如何打造高質量的機器學習資料集?這份超詳指南不可錯過

  • 從模型到應用,一文讀懂因子分解機

  • 用Python爬取淘寶2000款套套

  • 7段程式碼帶你玩轉Python條件語句

  • 高階軟體工程師教會小白的那些事!

  • 誰說 C++ 的強制型別轉換很難懂?


你點的每個“在看”,我都認真當成了喜歡
已同步到看一看



熱點新聞