談談資料氾濫時代如何識別關鍵資料並進行治理

語言: CN / TW / HK

“不是所有可以計算的東西都有價值,也不是所有有價值的東西都能被計算。”

---愛因斯坦

話題背景

最近,關鍵資料的概念引起了資料管理專業人士的關注。我自己也不例外,所以我決定深入研究這個主題並做一些研究。

我的意思是,並非所有資料都需要主動管理、監控和控制。事實上,這樣做會使資料治理成為人們實際開展日常活動的負擔或障礙。這絕不是資料治理的重點。 我相信資料治理的重點是識別最重要的資料,並根據資料對貴公司的價值按比例管理這些資料

我在保險業工作時第一次接觸到這個概念。他們的規定之一是償付能力。它主要處理保險公司的資本充足率,但同時要求對資本充足率計算中使用的所有資料進行資料治理。然而,監管者意識到一個非常重要的點,在這些相當複雜的計算中,一些資料非常重要,而其他資料只是為了上下文。現在,如果後面的資料是錯誤的或缺失的,那麼它對最終計算的影響要麼沒有,要麼可以忽略不計。因此,監管機構表示,他們不希望對這些資料實施相同級別的資料治理,而不是真正重要的資料,實際上會導致計算出嚴重錯誤的數字。

當我開始嘗試為我合作的第一家保險公司解決這個問題時,這對我來說很有意義。我很快意識到, 將精力集中在最重要的資料上是資料治理的正確做法。 從那時起,我鼓勵每一位客戶,無論他們在哪個行業經營,都採用這種方法。

我們可以為這種方法起一個名字—— 關鍵資料管理,即它是關於識別最重要的資料並適當地管理它。 但是,請注意,將其稱為“材料資料”可能不適合。事實上,我的一位製造客戶毫不含糊地告訴我,如果您的公司使用材料來製造某些東西,那麼“物質”這個術語絕對不起作用,因為材料資料在這種情況下完全意味著其他東西!

識別關鍵或重要資料是一種非常明智和務實的方法,但不一定是一種簡單的方法 。您需要為每個關鍵級別的含義定義一些標準,以便資料所有者可以根據標準評估他們擁有的資料並決定它是否重要。

還有一個有趣的問題是您需要制定多少級別的關鍵性?

我通常的做法是三個級別:

高關鍵性或高重要性資料是對您的業務最有價值的資料,如果質量差,則會產生最大的負面影響。

中關鍵性或中等重要性是重要的資料,但如果質量較差,則不會產生如此大的影響。

非關鍵或非重要資料是有用的資料,可能會增加上下文,但如果質量不是最好的,也不會造成很大的問題。

多年來,一些客戶傾向於只選擇兩個關鍵級別,即關鍵或不關鍵。但這感覺有點像全有或全無的方法。資料要麼有大量的控制、標準、資料質量監控和報告,要麼什麼都沒有。

一位客戶要求我實施五個級別的重要性。老實說,我真的很難區分將在五個類別中應用的不同級別的資料治理,最終,我將其合理化為三個。

無論你怎麼稱呼它,無論你決定多少層級都適合你的組織,我真的鼓勵你在你的資料治理計劃中嘗試這種方法。你真的不能完美地管理所有資料。那麼,為什麼不識別對您的組織最重要的資料並進行適當的管理呢。

一 關鍵資料的概念

數字時代的特點是各種資料的大量存在。組織擁有大量的資料實體和資料,這些資料實體和資料與不同的主題領域相關,如客戶、產品、資產、金融等,並且與之對應的資料量也很大。資料量每天都在增長,低成本高容量儲存的可用性可以儲存所有這些資料。

對於大量的資料和儲存在儲存庫中的大量資料,以及在組織的資料管道中流動的大量資料,重要的是要對關鍵資料進行優先順序排序,並管理這些關鍵資料的質量。這就是關鍵資料概念的來源。

…關鍵資料的定義;

…使用關鍵資料和關鍵資料元素的原因;

…關鍵資料和關鍵資料元素在實際實施中的主要挑戰。

作為研究的起點,我查閱資料管理指南和立法檔案,以瞭解他們對關鍵資料的看法。

關鍵資料的概念已經出現在 DAMA International 的第二版 DAMA-DMBOK (DAMA-DMBOK 2) 中與資料質量知識領域相關的主題中。DAMA-DMBOK2 僅提供關鍵資料的一般特徵。

關鍵資料由其用途指定,即“監管報告、財務報告、業務政策、持續運營、業務戰略” 。DAMA-DMBOK2 還強調“關鍵性的具體驅動因素因行業而異” 。

巴塞爾銀行監管委員會的標準編號 239中也引入了關鍵資料概念:“有效風險資料彙總和風險報告的原則”(BCBS 239 或 PERDARR)。BCBS239 在以下情況下談論關鍵資料:

“對銀行管理其面臨的風險至關重要的資料”

“對風險資料聚合和 IT 基礎設施計劃至關重要的資料”

'彙總資訊以做出有關風險的關鍵決策'

在查閱了這些指南和法規後,我得出結論,關鍵資料的概念尚未在各種來源中定義或統一。出於本文的目的,我們可能會記住以下兩點:

•關鍵資料影響公司的財務和非財務管理決策和績效

•關鍵性標準應根據不同的公司制定。

現在讓我們談談實現關鍵資料素概念的商業價值。

簡而言之,關鍵資料是指如果資料質量在一個或多個數據質量維度上沒有達到標準,則會產生直接或間接財務影響的資料(Mahanti 2019)。

在本文中,我們將討論一些關於資料、資料質量、關鍵資料質量的重要性以及資料對業務的影響的關鍵概念。

二 相關的資料概念

在我們繼續之前,讓我解釋一些與資料相關的術語。

資料實體是收集資料的真實世界的物件、概念、事件和現象。

資料是描述資料實體的不同屬性。

因此,資料實體充當容器,由描述它的所有資料組成。

試想一下有很多產品的超市:肥皂、牛奶、黃油、洗滌劑等等。“產品”是表示商店中產品的資料實體,資料可能是產品型別,例如食品、奶製品和清潔產品,產品ID、產品名稱、產品描述、生產日期、過期日期等等,在相關的資料結構中儲存不同產品的屬性值,例如關係表。

另一個術語是“ 資料質量維度 ”。這是指定義資料質量的特徵。引用我們示例中的“產品”,這將涉及產品資料實體的每個記錄中每個資料的有用值的存在,例如 資料的及時可用性、資料的準確性、重複值等等 。質量維度提供了對資料質量的洞察。

三 資料質量

如果資料適合其預期用途,則被認為是高質量的。換句話說, 資料質量可以定義為對這些資料在給定上下文中是否服務於某個目的的評估。 雖然資料質量是一個整體的抽象概念,不能測量資料質量本身,但它有幾個維度或方面可以測量。這些可測量的方面被稱為資料質量維度。資料質量維度的一些例子包括完整性(即值是否存在)、唯一性(與實體相關的資料不重複的程度)、準確性(資料值與現實的接近程度)、有效性(資料值是否符合標準)和及時性(資料是否及時可用,以便滿足業務需求)。

在前面提到的產品示例中,如果我們的目的是跟蹤商店中特定產品的總可用數量,那麼產品的產品號、過期日期(在適用的情況下)和可用的數量可能是使用該產品的必要資料,並且需要是準確和完整的。

過期日期可能不適用於所有產品。例如,食品、乳製品和化妝品需要有一個保質期。但是,像餐具、儲存容器和器皿這樣的產品沒有過期日期,因此這些產品的資料將沒有過期日期值。產品描述中過期日期不是必要的資料。

資料質量維度的可用資料可能是資料更新的頻率。如果這些資料是實時更新的,那將是非常有用的,從而得到高質量的資料。

四 哪些資料是關鍵的

考慮到組織儲存的資料數量龐大,確保組織所有資料的質量是一項昂貴且資源密集型的工作,不建議這樣做。這是因為並非所有資料都是關鍵的。

資料的價值是不一樣的,因此不具有同等的重要性。有些資料是關鍵的,組織必須確保它們是高質量的,並且符合預期的用途 。有些資料是適度關鍵的。另一方面,一些資料可能沒有任何價值,評估它們的質量是浪費時間、金錢和精力。

例如,許多資料值是出於可疑的原因捕獲和儲存的,比如作為購買的資料模型的一部分,或者從資料遷移專案中保留下來,但是它們可能不是實現任何業務目標所必需的。評估此類資料的質量是浪費時間和精力(Mahanti 2019)。

考慮資料剖析活動涉及到測量對公司的直接營銷活動資料的質量要求。這裡需要回答的問題是,執行直接營銷活動需要什麼資料?它本質上需要客戶聯絡資料,比如姓名、地址、電子郵件地址等等。應該選擇包含客戶聯絡資料的正確資料來源和正確的資料(包含客戶姓名、地址、電子郵件地址的欄位)。然而,那些記錄評論和職位頭銜的欄位是客戶聯絡資料的一部分,但對於市場活動的目的沒有商業價值,不需要特別考慮(Mahanti, 2015)

五 識別關鍵資料

關鍵資料可以定義為企業關鍵業務功能或流程的資料,如果資料質量在一個或多個數據質量維度上沒有達到標準,則會導致客戶不滿、帶來合規風險或產生直接的財務影響(Mahanti 2019)。

客戶不滿和監管影響會對財務產生不利影響。例如,不遵守規定可能會導致企業支付罰款。心懷不滿的顧客可能會把生意轉到別處,造成收入損失。一般來說,財務影響可能包括處罰成本、失去的機會成本、費用增加或收入和利潤減少。因此,可以使用與資料、資料組或資料實體有關的不同資料質量維度的成本來確定臨界度(Mahanti 2019)。

例如,在大多數以客戶為中心的組織(如金融服務、電信、公用事業或零售公司)中,不準確的名稱和地址資料可能會導致巨大的郵件成本。因此,對他們來說,地址資料非常重要。

理解關鍵資料實體和資料的一種方法是考慮依賴於資料質量的重要企業業務,並對映資料依賴關係,即獲取每個業務的資訊所需的關鍵資料實體和相關資料。 對一項企業業務至關重要的資料可能對另一項企業業務並不重要。

例如,零售公司的企業關鍵活動可能包括銷售報告和消費者行為趨勢報告。雖然客戶年齡、年收入和職業可能是消費者行為趨勢報告的關鍵資料,但它們不是銷售報告的關鍵資料。

另一方面,有些資料可能對大多數企業業務至關重要。企業業務可能因行業部門或業務型別而異。以下因素可用於確定資料的臨界度:

•使用該資料的業務數量;

•與資料相關的成本;

•與資料相關的風險;

•使用資料的業務單位、部門、團隊或業務使用者的數量

除此之外,某些資料和資訊非常敏感,從資料隱私和安全的角度來說可以被歸類為重要資訊。名譽損害、訴訟費用和罰款是敏感資料被盜的一些影響。

敏感資料的例子包括社會安全號碼、借記卡號碼、信用卡號碼、安全PIN號碼、密碼和護照號碼。有時,單獨的資料可能不被認為敏感,但在一組資料中就會變得敏感。個人可識別資訊就是這種情況的一個例子(Mahanti 2019)。

在組織開始根據資料質量的相關資料質量維度(資料質量的可度量方面)評估其資料質量之前,確定關鍵資料並確定優先順序是必須執行的第一步。試圖度量和管理所有資料的質量可能是一項艱鉅的、在財務上不可行的工作,註定會失敗。因此,當您考慮評估和提高資料質量時,請記住著名物理學家阿爾伯特·愛因斯坦的名言:“不是所有可以計算的東西都有價值,也不是所有有價值的東西都能被計算。”

----- --- END -------