Data Fabric,下一個風口?

語言: CN / TW / HK

Data Fabric,又名資料經緯,是近期橫空出世的一個概念。之前對其瞭解甚少,近期做了個小調研,對這一概念內涵與外延、產品及定位、業務與前景、未來及趨勢等做了簡單整理總結,分享給大家。

1. 什麼是Data Fabric

❖ 前世今生

Data Fabric概念 在 2000 年首先被 Forrester 提出,2016 年 Forrester Wave 中增加了 Big Data Fabric 類別。從2019 年 Data Fabric 開始入選 Gartner 各年度的技術趨勢。

Gartner釋出的《2021年十大資料和分析技術趨勢》中,加速變革被列在了首位(Accelerating Change),其中Data Fabric作為資料基礎能力被再次強調。

2022 年 Gartner 公佈的頂級戰略技術趨勢中,Data Fabric 入選工程信任主題的關鍵技術趨勢。

❖ 基本概念

我們如何理解“Data Fabric”?Fabric這個詞的本意是“織物、布、構造“。可以想象,資料將在縱橫交錯的、像織物那樣的雲網絡中自由流動,沒有任何限制。不管是哪種計算模式,還是什麼的網路,針對批資料、流資料都可以自由交換、共享和處理,那就是資料經緯-Data Fabric帶來的新體驗。 目前對Data Fabric,還沒有特別統一的認識,各家對其有著自己的解讀。

  • Forrester 認為 Data Fabric“是以一種智慧和安全的並且是自服務的方式,動態地協調分散式的資料來源,跨資料平臺地提供整合和可信賴的資料,支援廣泛的不同應用的分析和使用場景。”其專注於對資料整合、轉換、準備、策展、安全、治理和編排的自動化,從而實現了快速的資料分析和洞察,幫助業務獲得成功。

  • Gartner 將 Data Fabric 定義為一種新興的資料管理設計理念,可實現跨異構資料來源的增強資料整合和共享,通過對現有的、可發現和可推斷的元資料資產進行持續分析,來支援資料系統跨平臺的設計、部署和使用,從而實現靈活的資料交付。Gartner 強調,通過 Data Fabric,散落各處的資料孤島都能被統一發現和使用,並基於主動元資料進行建設和持續分析,認為資料編織的真正價值在於它能夠通過內建的分析技術動態改進資料的使用,同時通過將自動化能力新增到整體資料管理中,使資料管理工作量減少 70% 並加快價值實現速度。

❖ 發展背景

一項新技術的出現,必然有其背景及規律,Data Fabric的出現也是為解決當前資料場景的問題。簡單梳理下,可羅列為幾個痛點(下列資料來自Gartner的調查報告):

  • 激增的暗資料&資料孤島

隨著企業資料量激增和資料需求日趨複雜,越來越多資料技術 (如資料倉庫、資料湖、NoSQL 資料庫、OLAP 資料庫、實時資料來源等) 被引入,企業資料在物理上支離破碎,尤其是採用混合雲&多雲架構後更是加劇了這一問題。只有 45% 的結構化資料應用於業務,只有不到 1% 的非結構化資料被分析或使用,多達 68% 的資料沒有被分析,多達 82% 的企業受到資料孤島的阻礙。

  • 低效的資料交付方式

激增的企業資料、爆炸的業務需求、複雜的資料工程,讓業務自助找數、用數變得日趨困難:分析師 80% 的時間用於發現和準備資料,知識型員工將 50% 的時間浪費在尋找資料、發現和糾正錯誤以及確認不信任的資料來源上、資料科學家花 60% 的時間清理和組織資料。

  • 日益嚴峻的資料質量問題

企業中 55% 的資料無法用於決策,47% 新建立的資料記錄至少有一個嚴重錯誤,資料質量差導致了鉅額的財務損失;為解決不同資料計算和儲存需求,企業開始採用越來越多的資料技術 (如資料倉庫、資料湖、NoSQL 資料庫、OLAP 資料庫、實時資料來源等) ,讓實現“單一事實來源的資料”變得十分困難。

  • 不斷擴大的安全合規風險

超過 70% 的使用者可以訪問他們不應該訪問的資料。而隨著網安法、數安法、個保法、GDPR、CCPA 等資料安全和隱私保護法律的出臺和外部安全威脅越來越大,企業必須在合規和治理方面表現出更高的標準,更難的是,企業還需同時兼顧業務的用數效率。

Gartner稱:“在過去的十年裡,資料和應用孤島的數量激增,而資料和分析(D&A)團隊的技能型人才數量卻保持不變,甚至下降。作為一種跨平臺和業務使用者的靈活、彈性資料整合方式,Data Fabric能夠簡化企業機構的資料整合基礎設施並建立一個可擴充套件架構,減少大多數資料和分析團隊因整合難度上升而出現的技術債務。其真正價值在於:通過內建的分析技術動態改進資料的使用,使資料管理工作量減少70%並加快價值實現時間。Gartner最新預測顯示,至2024年,Data Fabric可減少50%人力資料管理成本,與此同時,資料使用效率會因Data Fabric的部署使用伴隨著資料型別日益多樣化、資料孤島不斷林立、資料結構愈加複雜,企業在分散式資料環境中高效管理和利用多維資料成為亟待解決的難題。與此同時,企業上雲成為一大趨勢,混合資料環境下企業該如何跨平臺、跨環境,以實時的速度收集、訪問、管理、共享資料,從不斷變化、高度關聯、卻又四處分散的資料中獲得可執行洞見,實現智慧化決策?面對上述資料管理難題,Data Fabric提出了一套治理“良方”。Data Fabric是一種新興的資料整合和管理理念,意在獨立於部署平臺、資料流程、地理位置和架構方法,在不移動資料位置的前提下,為企業內的所有資料提供單一訪問點,保證資料使用端在正確的時間、正確的地點以實時的速度拿到正確的資料。

❖ 架構定位

Data Fabric這一概念,尤其鮮明的架構特點,這也是有別於其他技術的重要區別。其實質上是一種資料管理架構思想,其主要目標是打破企業內部的資料孤島、最大化釋放資料價值。其核心理念是通過優化跨源異構資料的發現與訪問,將可信資料從所有資料來源中以靈活且業務可理解的方式交付給所有相關資料消費者,讓資料消費者自助服務和高效協作,實現極致敏捷的資料交付,同時通過主動、智慧、持續的資料治理讓資料架構持續健康,從而提供比傳統資料管理更多的價值。其具備以下特點:

  • 連線資料,而非集中資料

Data Fabric 的一個關鍵原則是資料整合方法的靈活性,以支援分散式生態系統中的資料管理。也就是說,根據場景的性質及其需求,系統能為使用者自動匹配最佳整合策略和資料技術,而無需使用者人工搭建資料管道、選型計算儲存方案。這樣做一方面讓使用者可以專注於業務實現而無需關心技術細節,另一方面也免去了資料搬運帶來的漫長等待,並節省了大量任務運維投入和重複儲存成本,極大加速了資料價值實現。

  • 自助服務,而非專家服務

資料需求指數級增長,而企業資料工程團隊增長卻非常緩慢,甚至有所縮減,在集中式的資料供給模式下,資料工程團隊成為影響資料化運營效率的最大瓶頸,唯有讓分析師和業務人員自服務才有可能將生產力解放出來,以滿足業務旺盛的資料化運營需求。Data Fabric 的最佳解決方案是實現資料民主化,允許業務使用者輕鬆發現並使用資料資產,從而實現敏捷的資料交付。

  • 主動智慧,而非被動人工

傳統資料治理往往在問題發生後才開始啟動,且需要從上到下推動並通過運動式人工治理,這種方式難以持續且越來越無法應對快速膨脹、錯綜複雜的資料依賴網路。而 Data Fabric 則強調資料治理應更主動和智慧,即基於主動元資料構建智慧治理能力,融入到資料全生命週期的每個環節裡去,實現主動、智慧的資料治理。Gartner 將 Data Fabric 比喻成資料管理的'自動駕駛":駕駛員由於某些原因注意力不集中,有點兒走神,汽車則主動、及時地切換至半自動駕駛模式,進行必要的路線修正。即Data Fabric 以最佳的方式將資料來源頭傳送到目的地,並不斷的監控資料 pipeline,提出建議,最終在速度更快、成本更低的情況下采用替代方案,就如自動駕駛汽車一樣。

  • 萬物連結,而非簡單替代

Fabric是一種架構方法,該方法在各個節點之間提供完整的點對點連線,這些節點可以是資料來源、儲存、內部/外部應用程式、使用者等任何訪問資料或與資料相關的資訊。Data Fabric將現有的資料管理系統和應用程式編織在一起,提供可重用的服務,涵蓋資料整合、訪問、轉換、建模、視覺化、治理和交付。為了在所有這些不同的服務之間提供連線,Data Fabric包括了連線到資料生態系統工具的聯結器。

Data Fabric 的“真正價值在於它能夠通過其內建分析能力來動態改善資料的使用,從而加快實現資料價值的速度”,其支援全面的整合資料管理功能,包括髮現、治理、管理和編排,並使用 AI 能力進行語義探索、分析和推薦,從而從被動的資料策略轉變為主動響應性的資料策略,實現更快速的適應業務、更敏捷的資料洞察、更有效地消除孤島、更低的成本和風險、更高效的業務協作以及更安全的資料使用。

❖ 關聯對比

作為一種新生概念,有時會與其他概念和產品有所混淆,那麼我們來看看Data Fabric與常用一些概念的區別。

  • Data Mesh

Data Mesh由ThoughtWorks提出,其借鑑了微服務和 Service Mesh 的分散式架構思想,是一種領域驅動和自服務的資料架構設計新模式,基於面向領域去中心化的資料所有權和架構、資料作為產品、平臺化自助資料基礎設施以及聯邦計算治理等四個基本原則進行建設, 通過將系統劃分為由較小的跨職能團隊管理的離散域來解決大型、複雜、單體資料架構的問題,如缺乏資料所有權、缺乏資料質量管理、組織難以擴充套件。其核心目標是將資料視為一種產品,通過利用面向領域的自助設計來實現日益龐大、多樣化且無處不在的資料集的跨域訪問需求,使資料消費者能夠發現、理解、信任和使用資料/資料產品(分佈在不同領域)來推動資料驅動的決策和計劃。

  • API 的訪問方式不同。Data Mesh是面向開發同學、API驅動的解決方案,需要為API編寫實現程式碼,而Data Fabric相反,其通過低程式碼、無程式碼的方式進行設計,API整合在架構內進行實現,而不是直接使用它。

  • 思想不同。雖然Data Fabric和Data Mesh 都提供了跨技術、跨平臺的使用資料的架構,但前者以技術為中心,是將多種技術進行組合使用,由 AI/ML 驅動的增強和自動化、智慧元資料基礎和強大的技術骨幹(即雲原生、基於微服務、API 驅動、可互操作和彈性)支援,更多的是關於管理資料技術(整合架構),而後者則側重於組織結構和文化變革來實現敏捷性,可以在於技術無關的框架內指導方案設計,各資料領域團隊可以在更理解其所管理的資料的基礎下實現相應的資料產品的交付,更多的是管理人員和流程。

  • 資料產品的實現思路不同。Data Mesh 將資料的產品思維作為核心設計原則,其資料是分散式的,每類資料都是一個獨立的域(即資料產品),儲存在對應的組織中,而Data Fabric所有的資料都會集中在一個位置(物理集中或虛擬集中),對外提供能力。其實,基於資料虛擬化整合技術的Data Fabric,其資料也是分散式的,通過虛擬邏輯資料模型對外統一提供資料使用。

  • 資料資產的自動化方式不同。Data Fabric利用基於豐富的企業元資料基礎(例如知識圖)來發現、連線、識別、建議和向資料消費者提供資料資產的自動化,而Data Mesh則依賴於資料產品/域所有者來推動資料需求。

  • 依賴關係不同。Data Fabric無需依賴Data Mesh的實踐即可實施,而Data Mesh則必須利用Data Fabric來支援資料物件和產品的驗證。

  • 自動化程度不同。Data Fabric鼓勵增強資料管理和跨平臺編排,以最大限度地減少人工設計、部署和維護工作。Data Mesh則傾向於對現有系統的手動設計和編排,由業務領域執行持續維護。

  • 解決方案的成熟度不同。成熟度上看,Data Fabric目前被廣泛應用於各種資料應用場景,而Data Mesh仍然處在一個未開發的階段。

實際上,不同的公司基於自身的資料特點(資料量、資料速度、資料型別等)、安全策略、技術儲備、效能要求、資金成本等, 對於Data Fabric或Data Mesh會有不同的具體落地方案。總之,Data Mesh更多地是關注於人和過程而不是技術架構,而Data Fabric是一種技術架構方法,它以一種智慧的方式來應對資料和元資料的複雜性。

  • 資料虛擬化&資料整合

  • 資料虛擬化技術,作為一種被市場充分驗證的成熟技術出現在Gartner 釋出的《2021 資料管理技術成熟度曲線報告》中,它是一種將可用資料轉換成分析和報告所需形式的可選擇技術,其存在於資料使用者以及資料儲存之間,資料使用者通過資料虛擬層訪問資料,資料虛擬化層隱藏資料儲存。資料虛擬化技術幫助資料工程師無需移動、複製資料即可整合多個數據源,在記憶體中進行資料的組合、準備和轉換,並以需要的格式呈現資料。資料虛擬化方法可以幫助企業從資料中獲得更多的見解以及更快的響應不斷變化的商業分析需求,同時,與資料複製、移動相比,資料虛擬化可節省50-75%的成本。

  • 資料整合是融合異構儲存集合的資料並構造統一資料檢視的過程,包括了資料合併、資料轉換、資料清洗等。傳統的資料整合專注於複製、移動資料,如ETL加工、資料同步等。資料虛擬化則是一種經濟高效的現代資料整合技術,直接連線源資料,不依賴複雜和繁瑣的ETL系統,減少了多次複製、移動和儲存資料的時間和成本,同時也減少了產生資料錯誤的概率。另外,資料虛擬化不僅可以做資料層面的整合,也包括介面層面的整合。因此,資料虛擬化是一種更穩定的技術和增長最快的資料整合方式。

資料虛擬化與Data Fabric的關係上,資料虛擬化是Data Fabric架構中的關鍵技術之一,可以在不移動資料的情況下從源頭訪問資料,通過更快、更準確的查詢幫助縮短實現業務價值的時間。Data Fabric 的資料虛擬化層提供了跨平臺敏捷整合、統一語義、低程式碼建立資料API(支援SQL、REST、OData和GraphQL等技術)、智慧快取加速等功能,在資料處理引擎和資料消費者之間架起了橋樑。

  • 資料湖

Data Fabric不是資料湖或者資料倉庫的替代方案,資料湖是其異構資料來源之一(資料來源可以是資料倉庫、資料湖,也可以是業務資料庫等其他資料儲存),Data Fabric將應用程式與資料湖(或者資料倉庫)進行連線,通過統一的資料管理框架支援在分散式的環境中進行資料消費。Data Fabric 可以為資料湖或資料倉庫提供可信的資料,同時,基於資料湖(或者資料倉庫)的Data Fabric 為業務提供更精準的洞察能力。

  • 知識圖譜

知識圖譜是Data Fabric重要的組成部分。如果將Data Fabric翻譯成資料經緯的話,那麼知識圖譜則是經紗和緯紗,其使得Data Fabric支援動態整合以及資料應用編排,而作為基石的資料目錄也是基於知識圖譜進行實現的。知識圖譜使得Data Fabric在良性迴圈中進行持續運營和發展,如靈活性(可以表達任何資料和元資料)、可組合性(易於增量進化)、連線性(連線所有資料和元資料“孤島”)、無縫資料治理、面向未來(基於標準)、表現力(最全面的“開箱即用” 模型)、可整合性(最完整、開放和靈活的 APIs)、智慧(整合推理和機器學習)等。

  • 資料中臺

資料中臺方法的本質思想是通過對資料進行集中式建設、集中式管理和集中式服務,以提供單一事實來源的資料(single source of truth)。這就決定了資料中臺只有在資料需求較為固定、用數人群比較集中、決策頻率相對較低的情況下是比較有效的。伴隨企業資料需求日趨複雜、用數人群佔比越來越大,決策頻率越來越高,業務對用數的敏捷性和靈活性要求越來越高,資料中臺這種集中的資料管理方式無法實現資料的敏捷性和靈活性。Data Fabric旨在提供對創新深度、速度要求更高的創新型業務更為合適。

2. Data Fabric 價值及能力

❖ 產品價值

Data Fabric的真正價值在於它能夠通過其內建分析能力來動態改善資料的使用,從而加快實現資料價值的速度,其支援全面的整合資料管理功能,包括髮現、治理、管理和編排,並使用AI能力進行語義探索、分析和推薦,從而從被動的資料策略轉變為主動響應性的資料策略,產生:

  • 更快地適應業務。Data Fabric通過強大的查詢、搜尋以及學習能力可以回答意料之外的問題以及適應新的業務需求。其提供了一個動態的、可查詢的資料能力,從多個數據來源進行資料的收集和分析,且可以充分複用資料模型(之前需要依賴建立新的資料模型和資料轉移複製來支援新的業務需求),因此可以快速回答和解決新的問題和訴求。

  • 更好的洞察力。Data Fabric表達資料的業務意義(而不僅僅是通過資料改變現狀),從而產生更好的業務洞察能力。其融合多種資料來源(如資料&元資料、司內&司外、業務內&業務外、雲端&本地等),建設可擴充套件的、知識圖譜驅動的資料模型,使得每個資料資產的所有上下文都可以以可理解的形式進行使用和呈現,幫助決策者和演算法做出更優的決策(更容易地獲得高質量的資料,從而能更快和更精確地獲得業務資料洞察),同時降低資料被濫用或者誤解的可能性和風險。

  • 更有效地消除孤島。Data Fabric通過資料聯邦、資料虛擬化、語義豐富、基於AI的主動元資料、知識圖譜以及圖儲存等資料技術,進行資料的連線、跨資料來源的訪問和資料交付,從而減少資料孤島,尤其是資料虛擬化技術在計算層而非儲存層進行資料連線,“在資料處理引擎和資料消費者之間架起了橋樑”,這種資料的連線方式還避免了不斷產生新的資料孤島。DAMA認為,消除孤島和完全問責應該是任何資料專案的核心。

  • 更低的成本和實施風險。Data Fabric的實現思想是是對原有技術的重新組合(技術的本質是利用現象,對現有技術進行重新組合,並基於目的性的機會利基進行不斷的自我進化),而非全新的技術,通過支援組裝式資料分析及其各種元件,對資料倉庫、資料湖、資料計算、資料分析等現有的技術和能力進重新的組合和使用,並引入了新的方法、工具和平臺。另外虛擬資料整合技術的應用,減少了資料複製、轉移的次數和數量,降低了資料質量的風險和運維成本,也節省了計算和儲存的開銷。

  • 更高效的業務協作。Data Fabric是為協作、利用和連結現有資產和推動跨智慧的資料管理專案而建立的。通過將現有的資料、資料能力、應用程式進行自動化關聯、編排,並建立全域資料的單一檢視(catalog),從而支援跨業務資料的即時有效訪問,實現業務間有效協作, 建立和維護業務的競爭優勢。

  • 更安全的業務。Data Fabric可以實現自動治理、資料保護和安全保障。其為所有的資料計劃建立分散式的資料治理層,減少合規性和監管風險,以及在平臺安全能力下防止資料洩露,並通過AI能力提升自動化水平(如根據監管文件中的語言和定義自動提取資料治理規則、發現和治理個人身份資訊PII和關鍵資料元素),使得業務可以在幾分鐘內發現並應用資料治理規則,避免產生不良社會影響或高昂的罰款,確保所有的資料都能以合規的方式進行儲存和使用,而這在當前社會背景下尤為重要。

❖ 能力要求

針對Data Fabric,需要具備什麼能力,目前還沒有行業統一標準。我們可以通過Forrester和Gartner對能力有個大致的瞭解。

  • Forrester 定義的能力要求

  • 資料管理。資料管理是Data Fabric的關鍵能力,包括了資料安全、資料治理、元資料&資料目錄、資料搜尋、資料質量、資料血緣等,並與其他5種能力交織在一起,保障資料的可靠性、安全性、完整性、合規性、可整合等,確保資料的信任度、資料流編排以及跨平臺的資料轉換。同時資料管理集成了AI能力,自動化實現基於語義和知識的分析,理解資料及其業務含義,構建知識圖譜形式的資料目錄,從而使得資料目錄更加智慧化和自動化。

  • 資料攝取和流式傳輸。資料攝取是Data Fabric的資料基礎,處理資料連線、攝取、流式傳輸等,將資料載入到大資料儲存中。資料攝取需要能覆蓋所有潛在的資料型別(結構化、非結構化等)和資料來源(裝置、日誌、資料庫、點選、應用程式等),並通過多種優化方法縮短資料的載入時間(如單個、大批量、小批量等)。

  • 資料處理和持久化。該層利用資料湖、資料中心、資料倉庫、NoSQL 和其他資料元件(如資料管道)來處理和儲存資料以供使用。Data Fabric可以將處理下推到各種資料儲存上,例如資料湖、物件儲存、NoSQL 或資料倉庫,以便在與其他來源進一步整合之前僅獲取部分的相關資料,提升資料的查詢效能。

  • 資料編排。資料編排通過轉換、整合和清洗資料,實時或即時的支援各種資料使用場景。其通過一些技術完成跨源資料的整合訪問,並通過統一的、標準化的API的方式將整合轉化後的資料對外提供。

  • 資料發現。資料發現能力直接解決或者弱化了資料孤島問題,自動發現跨場景的資料,通過資料建模、資料準備以及虛擬化等技術元件為資料使用者準備好可用的資料資產,並以圖的呈現方式進行資料發現和使用。其中資料虛擬化技術比較關鍵,其用於建立可以實時訪問的資料虛擬檢視,進行跨島查詢[25]。

  • 資料訪問。使用者通過自服務的方式進行資料訪問(如應用程式、工具、儀表盤、解決方案等),並通過高效能快取以及其他持久化儲存技術保障資料的訪問效能。

  • Gartner 定義能力要求

  • 增強資料目錄。 資料目錄是整個架構的基礎,其通過元資料對資料資產進行組織和管理。在資料目錄上,使用 AI/ML進行自動化收集和分析所有形式的元資料以及資料上下文,包括技術元資料(如資料型別、資料模型等)、業務元資料(如業務標記、業務策略、業務關係等)、操作元資料(如資料操作、資料血緣、資料效能等)、社會元資料(如實體關係、UGC、評價等)等等,為形成語義知識圖譜以及主動元資料做資料內容上的準備。

  • 語義知識圖譜。 建立和管理知識圖譜,並使用 AI/ML 演算法進行實體連線以及連線關係的量化,以識別或者新增豐富資料間的關係(包括多個數據孤島間的資料關係,資料上下文以及語義相關性)用於資料洞察分析,同時也可以實現自動化的機器理解和資料推理。產生的語義化資料也可用於機器學習的模型訓練上,提升預測的精準度。

  • 主動元資料。 主動元資料是相對於靜態的被動元資料而言的。通過AI/ML輔助生成的主動元資料是支援自動化資料整合和資料交付的基礎能力,主動元資料的形成依賴於發現並連線所有形式的元資料,形成獨特並不斷變化的關係,並以圖這種易於理解的方式連結和呈現元資料間的關係。通過對元資料關係圖的持續訪問和分析,不斷髮現和形成關鍵指標、統計資料等新的關係。如訪問頻次、資料血緣、資料效能、資料質量等。將元資料關係資料作為特徵去訓練和豐富AI演算法,同時這些演算法可以產生或者迭代元資料的語義,以及改進資料整合的設計、自動化流程。

  • 推薦引擎。 推薦引擎與業務相關,將基於專家經驗形成的規則或者機器模型學習的結果,以及結合主動元資料,用在資料質量監控以及優化改進資料的準備過程(如整合流程或者引擎優化),如元資料推薦、流程推薦、資產推薦、建議推薦、執行計劃推薦、計算引擎推薦等。

  • 資料準備和資料交付。 Data Fabric的資料準備和交付是在資料pipline中進行資料的轉化和整合。資料整合對於Data Fabric至關重要, 通過批處理、資料複製、資料同步、流資料整合以及資料虛擬化(在資料查詢時完成資料轉化)等方式進行跨源、跨環境(如多雲、混合雲、供應商)的資料整合,將資料準備摺疊到資料交付層(將準備好的資料進行交付)。

  • 資料編排和DataOps。 資料編排是用於驅動資料準備工作流的流程,用來整合、轉換和交付各種資料和分析用例的資料。DataOps是將類似於DevOps的持續整合、持續部署的原則應用於資料pipeline,更加敏捷和嚴格的進行資料交付。基於AI的自動化資料編排是Data Fabric架構設計以及落地的關鍵,通過組合和重用整合元件,快速支援當下以及未來需求。儲存和計算分離是未來資料管理的趨勢,Data Fabric通過自動化來管理和編排跨組織、跨平臺的的資料pipeline,包括資料流協調、維護、操作、效能優化、整合負載排程等,大幅提高資料管理團隊的工作效率。

3. Data Fabric 廠商實踐

Data Fabric (資料經緯)目前是一個IT熱點,眾多國內外公司均推出了針對 Data Fabric 的解決方案。下面看看幾個典型廠商的產品及方案。

❖ IBM - Cloud Park for Data

IBM 公司的Cloud Pak for Data針對上述Data Fabric (資料經緯)擁有四個 AI賦能的自動化能力。

  • AutoCatalog:元資料的管理是挖掘資料價值,把各個不同來源的資料很好利用起 來的重要技術環節。AutoCatalog 可以看成是 IBM 研發 AI 賦能的分類大腦,可以根 據發現數據和分類的流程實現自動化,進行自動分類之後建立自動化目錄,維護來自不 同資料環境資料資產的 Dynamic 的實時目錄。

  • AutoAI:AutoAI 的主要功能是儘量降低 AI 模型開發、模型校正、模型自我重新培 訓的技術門檻和人力付出,從而對動態的資料和整個 AI 本身演算法生命的週期進行自動 化。

  • AutoPrivacy:實際上 AutoPrivacy 主要是通過資料隱私框架當中的關鍵能力,使 用 AI 的能力智慧化地識別企業內部的敏感資料,當被呼叫的時候系統能夠識別到、監 控到,甚至在後續當定義敏感資料的使用和保護時,就可以為企業內部的政策實施自動 化提供了技術和智慧化的保障。

  • AutoSQL:因為我們現在要解決的問題是跨混合多雲環境實現資料訪問的自動化, 當寫一個傳統 SQL 的時候,首先要知道這個資料在什麼地方。我們通過 AutoSQL 的 技術來實現訪問資料的自動化,無須物理地移動這些資料,從而提高了資料查詢的速 度,也降低了使用資料的人對資料來源所需要的瞭解。

❖ Aloudata NoETL

  • 主動元資料。 主動元資料是實現 Data Fabric 的基石,它類似於智慧駕駛汽車的感測器及訊號解析處理模組,為推薦引擎、DataOps、資料虛擬化和主動資料治理提供了資料支撐。資料管理策略的有效性絕大部分取決於主動元資料建設的好壞,企業落地 Data Fabric 的首要任務,就是構建全面、準確、實時的主動元資料,並持續優化以獲得更好的資料管理效果。其具備如下能力: 快速發現全鏈路元資料、 實時、精細、準確的全鏈路血緣、 採集資料生態的所有元資料、 以知識圖譜方式組織元資料、 實時、高效、易擴充套件的資料畫像打標等。

  • 推薦引擎。 推薦引擎將基於專家經驗形成的規則或者機器學習模型,用於 DataOps、資料管理以及資料準備及服務 (如資料整合方案或者引擎效能優化) ,其推薦範圍可以涵蓋資料全生命週期各個階段,如資料資產推薦、資料用法推薦、資料整合方案推薦、執行計劃推薦、計算引擎推薦、資料分類建議、資料時效提升建議、資料安全風控建議、成本治理建議等。其具備如下能力: 資料資產業務分類推薦、 智慧 SQL 用法聯想、 智慧查詢加速、 智慧資產推薦等。

  • 增強資料目錄。 Aloudata 增強資料目錄 (Aloudata BIG Catalog) 以主動元資料為核心,將 AI 和機器學習用於元資料收集、語義推理和分類打標,自動對資料進行編目,從而最大限度減少手工維護元資料的工作,從而為業務人員提供以下關鍵特性和體驗: 語義化資料搜尋、 全景資料畫像、 視覺化血緣分析、 全域資料探索等。

  • 資料虛擬化。 資料虛擬化是實現 Data Fabric 的核心,它承擔了業務人員自助完成資料整合、準備和交付的關鍵職責,它在資料來源與資料消費端之間提供了一個連線、整合以及消費資料的虛擬語義層,使用者可以通過定義資料查詢來完成資料轉換,從而實現對跨源、跨環境 (如多雲、混合雲、Saas 軟體供應商) 的資料進行透明整合、自助準備以及高效能服務。其具備如下能力: 高效能聯邦查詢、 全場景智慧加速、 全鏈路資料編排、 零運維資料更新、 標準化協議接入、 精細化安全管控等。

  • DataOps。 DataOps 理念被提出,它的核心內涵是將類似於 DevOps 的敏捷研發、持續整合、持續部署等原則應用於資料研發和管理過程,以實現更加敏捷和高質的資料交付,通常來說,落地 DataOps 必須具備以下關鍵能力: 一站式資料研發、 資料變更 CI/CD、 嵌入式治理管控、 資料質量可觀測等。

❖ 極數雲舟-DTark

北京極數雲舟科技有限公司( Cloud-ark )是一家致力於資料處理基礎技術研發的高新技術企業,結合資料處理領域最前沿的Data Fabric理論,創造性地提出廣義資料庫系統,並自主實現核心層多引擎融合技術,打造核心產品:雲舟資料經緯平臺(DTark),助力使用者打造簡單、高效、便捷與可持續發展的企業資料基座。

DTark核心技術本質是實現了多引擎融合資料處理,同時也實現了資料多副本、水平彈性伸縮、資料一致性、透明高可用、分層解耦等能力,基於成熟開源元件,併兼容開源協議和技術生態體系,穩定可靠,簡單易用,軟體核心原始碼及關鍵技術自主研發,產品安全可控。 極數雲舟基於DTark產品,服務能力覆蓋複雜企業資料管理、資料平臺建設、資料庫系統及管理,助力客戶數字化、智慧化等基於資料融合服務的資料基座建設,也為資料中臺、大資料平臺建設提供了新動力,在提高效能、降低成本、減少定製化、降低系統複雜度、提升系統可持續發展能力等方面獨具優勢:

  • 資料接入的融合:基於成熟開源元件,穩定可靠,相容MySQL協議和技術生態體系

  • 資料儲存的融合:可實現資料多副本、水平彈性伸縮、資料一致性、透明高可用、分層解耦融合

  • 資料引擎融合:多引擎融合解決資料多樣性儲存的橫向打通

  • 資料接入的擴充套件:支援資訊系統結構化資料、工業物聯網時序資料、科學引擎介面資料的可擴充套件接入

  • 資料輸出的擴充套件:資料服務化要作為資料庫的標準能力

  • 資料引擎的擴充套件:針對資料型別與計算需求可擴充套件至 線上事務處理、 線上分析處理、時序資料處理、全文檢索、知識庫 等多種引擎

韓鋒頻道:

關注技術、管理、隨想。

長按掃碼可關注