資料標準在網易的實踐
在生活中,標準與我們息息相關,吃的食品需要滿足國家標準才能食用,汽車排放達標才能夠上路行駛,電腦介面得滿足統一的標準才能夠與外設對接等等。而在資料的世界,資料標準也同等重要。我們期望將資料標準真正應用到實踐中去,幫助客戶解決資產化不足、資料質量難以提升、資料開發效率低等問題,於是網易開始了資料標準的建設。
本文將基於我們對資料標準的理解,闡述標準的建立並依據標準的建立內容和流程來設計的標準管理產品的介紹以及標準在資料治理過程中的具體實踐,希望與大家碰撞出新的認識。
1.資料標準是什麼?
在實際的工作生產中,我們一般會參照國家標準、地方標準、行業標準等來進行具體的活動,來確保我們生成過程符合監管要求、便於上下游協同等,於是我們會見到如下的標準指導檔案:
同樣,資料標準也會以檔案的形式存在,在除了國標、行標定義的標準外,企業內部為了便於各部門採取同樣的資料建設規範,通常會使用檔案來定義資料標準,以供各部門達成統一的共識。
雖然檔案是標準的一種體現形式,但檔案是非結構化的,在實際應用中,我們只有理解、提取檔案裡的內容,將標準應用於產品設計及流程活動當中去,標準才能起到真正的規範約束作用。
根據信通院釋出的《資料標準管理實踐白皮書》定義:資料標準(Data Standards)是指保障資料的內外部使用和交換的一致性和準確性的規範性約束。
毫無疑問,這是正確的。但我們還需要將標準踐行,以建設資料中臺為例,我們知道資料中臺強調的是資源整合,在資料層面就是整合多源異構系統中分散在各個孤島的資料,形成統一的資料服務能力,這是一項艱鉅的任務, 很難通過互相約定以及預設信任相關方來保障資料的價值發掘,形成真正的資料資產。
於是,基於此點將資料標準進行擴充,一是對管理範圍的擴充,從狹義的資料標準(指對基礎資料本身的規範性約束,如資料格式、型別、值域等)擴充到整個資料中臺層面的標準(包含治理各階段的規範性約束);二是對管理手段的擴充,資料標準不再是指一系列的資料標準化文件,而是一套由規範要求、流程制度、技術工具共同組成的體系,通過這套體系完成標準的規劃、制定、釋出、執行、檢查、維護等行為,來完成資料的標準化以及標準的沉澱。
2.資料標準的價值
在說價值之前,我們先聊聊讓我們頭疼的問題。人人都在談論資料標準,但資料標準真的被應用起來了麼,我們拿著一堆標準檔案,期望企業內部宣貫大家要按照這個標準來,但執行的結果如何?
資料整合多源異構資料時,數倉開發人員真的能快速理解這些資料的實際業務含義麼?如果理解成本很高,開發人員可能就會出現認識偏差。
終於資料整合進來了,可以開始進行數倉建設了,如何保證每一層的資料都是符合質量要求的,靠開發的個人素質麼?比如我們一般在dwd層做資料標準化,那麼不同主題域的由不同的負責人進行開發,怎麼保證標準化的結果似乎滿足規範的?dws的資料可信度還能保證麼?還能被叫做公共模型層麼?
再後,數倉開發完成後需要對外開放,我們其實開發的不光是其資料,還需要開發它的元資料資訊,幫助資料使用方快速的找到需要的資料,如果只是把資料堆在一起,只有研發人員自己知道這個資料是什麼、在哪、怎麼使用,那是不能夠被稱為資料資產的。
還有很多問題,這裡只列舉了些典型。當然這些問題,是可以解決的,解決的方式就是資料標準。解決的的過程可能需要的時間比較長,因為標準從管理到落地執行推進並不是一件容易的事,需要從思想上進行轉變,但我們總要正確的做事。
下面列舉了一些價值,但在實際的應用過程能夠發現更多的可能性。
價值一:建立統一的資料檢視
建立通用的元模型規範,支援使用者自定義擴充套件,對多源異構資料表進行資訊抽象提取,形成統一的元資料層。所有的資料開發完成後釋出到資料標準維護的統一的資料目錄,通過不同維度的資料目錄進行多維篩選,滿足各類使用者的檢索需要,達到資產的可管、可用、可查的目標。
價值二:建立統一的資料認知
首先利用標準完成對多源異構資料的標準化描述,雖然資料在不同系統中的稱呼千奇百怪,但只要進入我們的平臺都將賦予統一的名姓,使得管理方、開發方、使用方建立統一認知。對於倉外表將資料標準與表字段進行關聯,旨在統一含義以及告知未來資料處理的方向;對於倉內表,模型設計之初就需要引用標準,我們知道將資料項進行組合即可得到模型,資料元即為標準資料項池,模型設計時僅需從池子裡選取需要的欄位進行組合即可組裝成想要的模型。
價值三:建立質量稽核體系
現有的質量稽核一般是由使用者根據業務需求手動設定,不同人員的認知偏差將導致資料質量難以控制。資料標準通過資料元的表示類屬性,根據其格式、型別等要求自動生成質量稽核規則,當某張表的欄位綁定了資料元時,即可根據資料元的質量資訊要求自動生成稽核任務,且保證了源頭定義的一致性。
價值四:面向未來的資料治理
我們知道,工具的終極目的都是為了降本提效。效率提升是要靠流程規範的,流程足夠規範,在某種程度上可實現流程自動流轉。因此,未來的資料治理趨勢應當側重於流程自動化以及階段智慧化,而這兩點都需要資料標準的支撐。
階段智慧化期望在流程各階段提供智慧識別能力,比如欄位的真實含義(掛載資料標準)、資源所屬分類、欄位列舉值等,減少人工參與。從短期來看,使用者從處理者變為稽核者,從長期來看,使用者干預的行為反哺識別模型,增加識別準確性,可降低人力成本;
流程自動化依賴階段智慧化以及人工干預的結果,將各階段進行串聯,上下游儘可能完美對接,當上遊階段達到下游准入條件時,可自動觸發流程運作,當然該過程也需要統一上下游語言(即資料標準),在實際實踐中,可通過試執行進行驗證。
標準的價值還有很多,限於篇幅不過多贅述,大家可以不斷髮現標準的應用場景。說完標準的價值了,那麼我們該如何建立資料標準呢?
3.如何建立資料標準?
在早期的業務發展過程中,企業為了解決當下的業務問題,各業務條線已建設自己個性化的業務系統,在建設的過程中為了保證內部通訊,或多或少都已存在區域性的資料標準。因此,建設統一的資料標準很大程度上是對區域性標準進行收口,一般來說,可收集現行的國家標準或行業標準,將現有標準與國標或行標進行對標,此過程一是可以滿足監管需要,二是可大大節省標準制定的人力;另一方面則是考慮所在行業的特點並結合企業的實際需要,逐步構建標準進行推行。
具體可參考資料標準的建立的6個步驟,分別是:資料標準規劃、資料標準制定、資料標準釋出、資料標準執行、資料標準檢查、資料標準維護。
3.1 資料標準規劃
標準的規劃首先需對企業業務和資料進行調研和分析,結合實際的資料標準需求,明確資料標準的範圍。再根據實際情況的不同,逐步推進。
3.1.1 收集現行標準
可從業務流程出發,圈定參與業務流程的業務實體,通用的業務實體如人,可收集對應現行的國家標準,如對於公民身份證號碼應當遵循強制性標準GB 11643 ,對於性別的程式碼應當參考推薦性標準GB/T 2261.1的規定,行政區劃應當參考GB/T 2260的規定等。具備行業屬性的業務實體如商業銀行擔保物,可參考JR/T 0170.1以及JR/T 0170.2的規定等。
3.1.2 從區域性標準到全域性標準
對於企業各業務條線(部門)已建立的區域性標準且不適用於引用現行標準或不存在於現行標準的需要進行收集,對同一業務含義但不同標準描述的項進行評審,在企業內部達成一致,得到最終統一的資料標準。
此過程可包含基礎類資料標準統一、參照類標準統一、指標類資料標準統一。
3.1.3 發現更多資料標準
發現更多標準主要應用於以下情況,一是區域性標準不明確也無現行標準適用時,二是企業各業務條線垂直系統較多,資料體量較大,缺乏足夠的人力及技術手段,但從總體戰略的角度期望制定標準時。應對這種情況可依賴資料標準管理平臺(第3節將詳細介紹)進行標準的識別及拾取。
標準的識別及拾取一般存在兩種方式:
第一種有明確制定某項標準的需求,則通過定義資料元概念(第2.2節詳細介紹 ),確定該項資料標準描述的物件類及特性,再通過關鍵詞掃描及智慧識別技術,掃描存量資料,識別與該資料元概念一致的資料項集合,對該集合進行探查獲取欄位型別分佈、長度範圍、值域分佈等,從而構建資料元的表示描述,形成完整的資料標準。
第二種是暫無明確制定某項標準的需求,去探索是否需要對某些資料項制定標準。系統對存量資料進行掃描,遍歷所選擇的資料來源型別中的所有欄位名,提取達到重複閾值的欄位名,對其制定資料標準。
3.2 資料標準制定
3.2.1 元資料標準
元資料標準主要規範了平臺對於各類元資料及資產的表示方式和組織方式。
3.2.1.1 元模型的制定
資料中臺是企業數字化轉型的基礎和中樞系統,將企業全域海量、多源、異構的資料整合資產化,但多源異構資料差異化明顯,如何保證資料管理者、使用者、開發者對資料具備統一的認知是亟待解決的問題。良好元模型設計,主旨在於遮蔽底層多源異構系統的複雜度,用統一的語言來描述來自不同應用系統、儲存在不同種類資料庫的各類資料。
我們知道元資料是描述資料的資料,而元模型則是關於模型的資料描述,根據OMG(物件管理組織)提出的四層元模型結構,可以清晰的表達出四層的關係:
可以看出,元資料是個相對的概念,元模型即為元資料的元資料,為了更方便大家理解,這裡提供一個例項解釋:
元模型不僅限於表元模型、欄位元模型,還包含指標元模型、標籤元模型等,雖然所描述的元資料種類不同,但管理方法上都是一致的,在實踐的過程中,可全部納入資料標準進行管理,也可在對應的子系統中各自維護。
3.2.1.2 命名及編碼規則制定
命名規則主要用於規範表名、欄位名、任務名稱、指標名稱、標籤名稱等,指定某個名稱應當使用哪些命名要素組成以及以何種排列順序組成。編碼規則主要使用者資產編碼、資料元內部識別符號、標籤編碼、指標編碼等,指定某個編碼應當使用何種編碼方式。
因此需要指定命名及編碼要素範圍,一是選取平臺已存在的列舉值,如資料分層、主題域或其他已存在的分類列舉;二是使用者可自定義常量、自定義列舉值;三是平臺提供的可變位序列。通過上述的命名要素,進行排序組合,形成命名及編碼規則。
以資料元為例子:
第一種編碼方式可以為“指定標識(常量)+7位自增序列”,可以編碼為DE0000001;
第二種編碼方式可以按照所在分類進行統一編碼,類似於“一級分類編碼+二級分類編碼+三位自增序列”,比如公民身份號碼資料元歸屬分了為”人員類(01)/資訊標識類(001)“,那麼可以編碼為01001001,其他以此類推。
3.2.1.3 資料目錄規範制定
資料目錄提供靈活的資料組織方式,比如數倉開發人員使用資料分層、主題域來組織資料,對於資料管理者,可能更關注於資產盤點,希望能夠按照來源系統、管理部門以及安全分類等多種方案進行管理。
我們在制定資料目錄時,需要分析使用者的需求場景,在不同場景下為使用者提供更合適的資料視角,便於使用者取數用數。一般來說,會先提供資料來源分類、數倉設計分類、資料安全分類,分類的描述資訊至少要包含分類名稱、英文名稱、內部編碼,以便於在平臺其他模組的應用。且分類方案支援使用者在後期的管理過程中進行自定義擴充。
3.2.2 基礎資料標準
3.2.2.1 詞根的制定
詞根是為了標準的命名更加規範統一,最終將被應用到欄位命名或其他資產的命名上。
企業可根據自身積累,對詞根進行收集,形成自己的詞根庫,在制定資料元及字典時,可根據輸入的中文名稱自動根據詞根翻譯英文名稱。
一個完整的詞根資訊包含英文簡稱、英文全稱、中文全稱三個部分,其中文全稱支援多個,保證使用者在使用詞根翻譯時相同含義欄位能夠獲取相同的英文簡稱。另外,為了便於統一管理,需對詞根的編碼及詞根來源進行指定。
3.2.2.2 資料元的制定
資料元是基礎類資料標準的具象化體現,也是資料標準管理的核心。根據資料標準規劃,制定資料元第一種方式是對現行標準進行結構化提取,使用平臺進行管理,第二種則是根據自身需要建立企業自己的專業資料元。
完整的資料元應當由三部分組成,物件類、特性及表示,如下圖所示,只有當物件類及其特性綁定了表示時,才能由資料元概念轉變為真正的資料元。
物件類:現實世界中的想法、抽象概念或事物的集合,有清楚的邊界和含義,並且特性和其行為遵循同樣的規則而能夠加以標識;,如:車、人、訂單等;
特性:物件類的所有個體所共有的某種性質,如顏色、性別、年齡、價格等;
表示:值域、資料型別的組合,必要時也包括度量單位或字符集,如:格式、值域、長度等;
其中,值域可通過名稱或碼值直接給出、也可通過參考資料給出、也可通過繫結資料字典給出。
因此完整的資料元名稱應當為:“物件類詞+特性詞+表示詞”,如人性別程式碼。
在理解了資料元的含義後,如何去制定資料元呢?我們可參考GB/T 18391標準的第1~6部分,有興趣的朋友可以去了解下,這裡結合我們的理解給出資料元的結構化描述。
在制定資料元時,我們通常會從6個方面描述資料元的基本屬性:標識類屬性、定義類屬性、關係類屬性、表示類屬性、管理類屬性、附加類屬性,如下表,這是一個綜合的較為通用的資料元描述模板,在應用過程中需要根據企業實際需要,進行刪減補全。
3.2.2.3 資料字典的制定
資料字典是參照類資料標準的具象體現,一般分為原始字典及標準字典,原始字典指源系統或生產系統中某個原始項資料內容的列舉集合,標準資料字典一般用於作為資料元值域而存在,在資料處理過程中需要完成原始字典到標準字典的對映,完成字典標準化工作。
資料字典核心是其碼值列表,碼值列表至少要包含兩項資訊:程式碼、程式碼描述,必要時可增加說明欄位進行補充。
獲得碼錶的方式:
- 原始字典:資料庫逆向採集、元資料註冊時填寫欄位列舉值、資料探查時值域分佈計算、手動錄入;
- 標準字典:現行標準的結構化提取、標準識別結果分析、手動錄入。
3.2.2.4 資料項分類規範制定
資料項分類與資料目錄類似,也是為了滿足在不同場景下,對不同物件的分類需求。資料項分類即是對欄位級進行分類。
在制定資料目錄時,需要分析使用者的需求場景,在不同場景下為使用者提供不同的分類方案。如從管理角度,可以按照描述物件、來原始檔進行劃分;從資料安全形度可以按照敏感級別、安全級別進行劃分等,且分類方案支援使用者在後期的管理過程中進行自定義擴充。
在實際應用的過程時,會將具體的分類值關聯資料元,再由資料元關聯欄位,做到快速分類的目的。
3.2.3 技術標準制定
3.2.3.1 資料型別對映關係
主要記錄不同資料來源間資料型別的對映關係,便於在資料傳輸、分發等場景下快速建表,提升資料傳輸任務的配置效率。
3.2.3.2 異構資料開發模板制定
主要管理不同資料來源的DDL語句模板,包含新增、刪除、更新等,協助資料開發人員選擇對應資料庫節點時快速根據模板生成語句。
3.3 資料標準釋出
一般資料標準建議遵循草案、試用、標準、廢止的生命週期流轉,但可根據實際情況進行簡化。對於資料元、資料字典儘可能遵循此生命週期管理,對於詞根、資料分類、元模型等可簡化流程,可採取草案、上線、下線的生命週期管理。
資料標準釋出是在標準制定完成進入開發完成態後,可提交發布稽核,稽核通過後將應用於整個系統,若後續需要進行修訂,則需修訂完成後重新發布最新版本。
另外,釋出前需檢視版本變化以及影響範圍,評估影響後再進行釋出生效,並通知相關方進行調整。
3.4 資料標準執行
資料標準執行主要分兩塊,第一塊是正在進行資料治理的各個階段進行應用,第二塊是新建系統和歷史存在的業務系統的應用。
資料治理過程的應用主要在(涉及資料標準與各個模組的對接,將在第4節詳細介紹):
- 元資料:需要從業務屬性、技術屬性、管理屬性三個方面對元資料進行描述,需要定義具體的描述項
- 資料資產:需要對各類資產進行盤點,需要定義資產編碼及命名規範、定義分類依據、上線標準
- 資料質量:需要建立稽核規則,需要構建質量檢測體系
- 資料安全:需要對資料進行分級分類,需要定義資料項分類依據、敏感資訊的識別依據
- 模型設計:需要定義資料模型、資料指標、維度度量等資料的標準
- 資料傳輸:需要對接不同種資料來源、來源系統,需要制定不同系統、資料來源間的交換依據
- 資料開發:需要定義資料處理依據,欄位及字典對映邏輯、各類資料來源SQL模板
新建的業務系統
- 必須嚴格按照發布的標準進行設計,通過使用平臺提供的模型設計產品進行管控
正在執行的系統
- 可以通過探查、智慧識別的手段建立對映關係
3.5 資料標準檢查
資料標準執行後,需要進行落標檢查,確認標準執行的情況以及效果。
可參考相關指標,從標準側進行標準的引用統計、標準化率統計,從質量側統計表及欄位質量評分,多角度去判斷指標執行情況及應用效果。
3.6 資料標準維護
維護資料標準
- 在實際執行的過程中,可能現行標準發生修訂,企業自身業務規則發生變化,都需要對已釋出的標準進行修訂
- 修訂要嚴格按照生命週期流轉要求,記錄版本變化,評估變更影響,在進行重新發布生效
沉澱資料標準
- 隨著標準的累計,我們需要沉澱所在行業的標準
- 通過標準沉澱,建立標準資產,形成行業最佳實踐,提升企業在所在行業的地位
4.資料標準產品介紹
在瞭解瞭如何建立資料標準後,我們可以著手開始幹了。但工欲善其事必先利其器,一個合適的資料標準管理工具可以幫助我們更方便、更高效的制定和管理資料標準。
因此我們基於資料標準管理流程、管理內容的分析,並充分考慮不同行業對標準管理需求的不一致性,對資料標準管理產品進行功能設計,本章將詳細介紹產品的各個模組。
4.1 產品總體架構
4.2 產品功能模組
4.2.1 資料標準統計首頁
主要包含標準資產統計、標準化情況統計、標準流程統計,全方位評估標準建設及使用情況。
4.2.2 資料標準檔案管理
此模組用於管理當前平臺參照的各類標準檔案,並與已結構化的標準建立聯絡,保證標準來源的可信。另外,針對已經做過結構化標準提取的檔案,將作為平臺預置的標準模板,供使用者使用。
4.2.2.1 資料元管理
資料元管理是標準管理核心內容,支援表單及批量匯入的方式錄入資料元,按照標準生命週期草案、試用、標準、廢止對資料元進行管理,支援資料元的批量匯出,滿足不同場景下檢視資料元的需求。定義時也將資料元與稽核規則進行繫結,為質量檢測提供依據。
另外,支援資料元不同版本之間的比對,獲取版本差異,評估標準變更存在的風險。
4.2.2.2 資料字典管理
資料字典管理內容包含原始字典及標準字典,可以認為原始字典是原始資料項的值域分佈, 標準字典是標準資料項的值域分佈。原始字典可主動錄入,也可通過資料探查的值域分佈進行生成;標準字典滿足與資料元同樣的生命週期管理,也支援批量匯入匯出操作。
在後續的實現中,將完成從平臺已有資料庫中存在的字典表進行拾取,同時維護原始字典與標準字典之間的關係,方便使用者在進行資料處理時快速進行字典對標。
4.2.2.3 詞根管理
詞根管理旨在定義英文名稱、英文簡稱、中文名稱間的對映關係,為標準的命名提供規範的輸入。使用者在定義資料元、資料字典或模型欄位時,將對輸入的中文名稱進行拆詞,依據詞根生成英文名稱。
除了已支援的詞根表單錄入外,後續將支援詞根的批量匯入,幫助使用者快速匯入已制定好的詞根列表。
4.2.2.4 資料項分類管理
資料項分類管理提供了三個層級目錄型別,第一種管理的是分類目錄,使用者對分類方案進行歸類;第二種管理的是分類方案,它是基於某種資料項分類依據(如描述物件)提供的一種分類方式;第三種是分類值,它歸屬於分類方案,在這一層將與真正的資料元進行掛載。
因此資料項分類支援分類的基本資訊管理,也支援對資料元批量進行關聯以及解除關聯。
4.2.3 元資料標準管理
4.2.3.1 命名及編碼規則管理
命名規則及編碼管理要能夠將平臺中已有的可作為命名要素的列舉值進行收集管理,支援使用者新增自定義元素,使用者可通過點選或拖拽的方式將元素進行組合形成命名規則及編碼規則。
4.2.3.2 資料目錄管理
資料目錄管理與資料項分類管理類似,但分類的物件不同,此處分類主要是對平臺各類資產的編目,提供多種視角、多種方案對錶、指標、標籤等進行分類管理,應用於統一的資產目錄進行展示,讓資產可理解、可識別、易查詢。
4.2.4 技術標準管理
4.2.4.1 資料型別對映關係管理
主要管理不同資料來源間資料型別的對映關係,如下表示例,隨著資料來源種類的增加,此模組支援多資料來源型別交叉對映。
4.2.4.2 DDL模板管理
主要管理不同資料來源的DDL語句模板,包含新增、刪除、更新等,在模型設計時或離線開發時進行引用,根據選中的資訊,替換模板中的引數。以mysql建表為例:
CREATE TABLE IF NOT EXISTS ${table_name}(
${filed_list}
PRIMARY KEY ( ${pk_filed_name} )
)ENGINE=InnoDB DEFAULT CHARSET=utf8;
4.2.5 標準流程管理
4.2.5.1 標準發現
根據標準制定流程,平臺提供資料庫拾取能力,對標準進行識別,根據識別結果來得出結論 ,即完整的資料元定義。下面是根據資料元概念進行識別的頁面參考。
4.2.5.2 稽核管理
稽核管理主要是對標準生命週期流轉的申請以及標準的釋出申請進行操作,稽核人員可根據實際情況評估,選擇通過或拒絕。
4.2.5.3 標準釋出
標準釋出採取整包釋出的方式,若將同一批次的資料元列表釋出一個大版本,保證平臺的標準參考基線。需要支援檢視當前更新的內容,提交發布申請,比對版本差異,支援檢視釋出歷史等。
4.2.6 標準配置
標準配置主要是對資料元及資料字典的元模型進行配置管理,我們提供了較為全面的資料標準結構化表示方法,但根據不同行業對標準描述的需要,可能並不需要這麼多描述項,因此提供資料標準的元模型配置,使用者可根據實際情況進行啟用、停用或新增標準的描述項。
4.2.6.1 資料元模板配置
4.2.6.2 資料字典模板配置
5.資料標準和資料中臺的結合實踐
在具體實施過程中,我們期望按照“需求-設計-開發-交付”流程進行建設。在需求設計階段,應對資料現狀進行摸排,確定治理範圍以及標準的制定範圍。從而在後續的設計中能夠規範指標及模型設計,從源頭上開始控制元資料及資料的質量,指導開發過程的具體實施。
資料標準在治理流程中的位置以及跟各模組產生的互動。
5.1 資料傳輸
資料傳輸承擔著將多源異構資料整合到大資料平臺以及將平臺數據分發到其他庫的能力,當目標庫無對應表時,需要根據來源表進行建表,但不同資料來源間的型別差異,需要人工進行匹配,隨著資料來源種類的不斷增加,靠人的經驗進行匹配處理已非常困難。
標準維護的是不同資料來源間型別的對映關係,在建立傳輸任務時,可根據對映關係快速生成目標表結構,達到快速建表、一鍵建表的能力。
5.2 元資料
元模型的配置在我們的實踐中主要包含對元模型分組管理、系統內建項管理、使用者自定義項管理,目前已支援對錶、欄位、指標、標籤的元模型設計。
5.2.1 表元模型設計
5.2.1.1 分組管理
5.2.1.2 系統內建項管理
5.2.1.3 自定義項管理
5.2.2 欄位元模型設計
5.2.2 指標元模型設計
5.2.3 標籤元模型設計
5.3 模型設計
5.3.1 分層規劃
除了系統內建的分層外,使用者可新增自定義分層
對於分層下的表,需要配置表名設計規範,將選取命名要素按照一定順序排列,得到命名規則
5.3.2 分類規劃
利用資料目錄管理進行分類規劃,在資源目錄、資產側按照場景對資料資源進行編目,滿足各類使用者查數用數需求。如:主題域劃分、來源系統劃分、安全分類等。
5.3.3 表結構及資料項標準設計
設計表結構時,一方面根據填寫的中文描述,自動推薦對應的資料元(若標準存在),另一方面可直接選擇資料元,平臺將根據選擇的資料元自動回填欄位名、欄位型別、欄位描述以及關聯的標準資料字典,如下圖所示:
具體應用一般放在模型設計中心新增欄位時進行關聯:
5.4 資料開發
SQL編輯時根據選擇的輸入輸出表,通過表字段關聯的資料元資訊,將相同含義的欄位自動進行對映,快速生成SQL,使用者只需對生成的SQL進行確認即可。
在後續的規劃中,標準將助力視覺化ETL以及自動化ETL,協助使用者進行欄位對映,根據資料元關聯的稽核規則、脫敏規則等,自動獲取對應的處理函式,即可生成開發指令碼。
5.5 資料質量
資料標準是資料質量稽核規則的主要參考依據,通過將資料質量稽核規則與資料標準關聯,一方面可以實現欄位級的資料質量校驗,另一方面也可以直接構建較為通用的資料質量稽核規則體系,確保規則的全面性和可用性。
5.6 資料安全
資料標準可包含業務敏感資料物件和屬性,從而實現對資料安全管理相關規則的定義。通過資料元關聯,快速生成欄位級加密或脫敏規則。
6.總結
資料標準的建設及管理任重而道遠,後續將逐步擴充套件標準的應用場景,滿足各行業客戶的需求。隨著管理內容的不斷豐富,管理流程的不斷完善,標準將作為資料中臺的基石,為各模組、各流程階段提供規範性指導及監督。