Data Fabric,下一個風口?

語言: CN / TW / HK

Data Fabric,又名數據經緯,是近期橫空出世的一個概念。之前對其瞭解甚少,近期做了個小調研,對這一概念內涵與外延、產品及定位、業務與前景、未來及趨勢等做了簡單整理總結,分享給大家。

1. 什麼是Data Fabric

❖ 前世今生

Data Fabric概念 在 2000 年首先被 Forrester 提出,2016 年 Forrester Wave 中增加了 Big Data Fabric 類別。從2019 年 Data Fabric 開始入選 Gartner 各年度的技術趨勢。

Gartner發佈的《2021年十大數據和分析技術趨勢》中,加速變革被列在了首位(Accelerating Change),其中Data Fabric作為數據基礎能力被再次強調。

2022 年 Gartner 公佈的頂級戰略技術趨勢中,Data Fabric 入選工程信任主題的關鍵技術趨勢。

❖ 基本概念

我們如何理解“Data Fabric”?Fabric這個詞的本意是“織物、布、構造“。可以想象,數據將在縱橫交錯的、像織物那樣的雲網絡中自由流動,沒有任何限制。不管是哪種計算模式,還是什麼的網絡,針對批數據、流數據都可以自由交換、共享和處理,那就是數據經緯-Data Fabric帶來的新體驗。 目前對Data Fabric,還沒有特別統一的認識,各家對其有着自己的解讀。

  • Forrester 認為 Data Fabric“是以一種智能和安全的並且是自服務的方式,動態地協調分佈式的數據源,跨數據平台地提供集成和可信賴的數據,支持廣泛的不同應用的分析和使用場景。”其專注於對數據集成、轉換、準備、策展、安全、治理和編排的自動化,從而實現了快速的數據分析和洞察,幫助業務獲得成功。

  • Gartner 將 Data Fabric 定義為一種新興的數據管理設計理念,可實現跨異構數據源的增強數據集成和共享,通過對現有的、可發現和可推斷的元數據資產進行持續分析,來支持數據系統跨平台的設計、部署和使用,從而實現靈活的數據交付。Gartner 強調,通過 Data Fabric,散落各處的數據孤島都能被統一發現和使用,並基於主動元數據進行建設和持續分析,認為數據編織的真正價值在於它能夠通過內置的分析技術動態改進數據的使用,同時通過將自動化能力添加到整體數據管理中,使數據管理工作量減少 70% 並加快價值實現速度。

❖ 發展背景

一項新技術的出現,必然有其背景及規律,Data Fabric的出現也是為解決當前數據場景的問題。簡單梳理下,可羅列為幾個痛點(下列數據來自Gartner的調查報吿):

  • 激增的暗數據&數據孤島

隨着企業數據量激增和數據需求日趨複雜,越來越多數據技術 (如數據倉庫、數據湖、NoSQL 數據庫、OLAP 數據庫、實時數據源等) 被引入,企業數據在物理上支離破碎,尤其是採用混合雲&多雲架構後更是加劇了這一問題。只有 45% 的結構化數據應用於業務,只有不到 1% 的非結構化數據被分析或使用,多達 68% 的數據沒有被分析,多達 82% 的企業受到數據孤島的阻礙。

  • 低效的數據交付方式

激增的企業數據、爆炸的業務需求、複雜的數據工程,讓業務自助找數、用數變得日趨困難:分析師 80% 的時間用於發現和準備數據,知識型員工將 50% 的時間浪費在尋找數據、發現和糾正錯誤以及確認不信任的數據來源上、數據科學家花 60% 的時間清理和組織數據。

  • 日益嚴峻的數據質量問題

企業中 55% 的數據無法用於決策,47% 新創建的數據記錄至少有一個嚴重錯誤,數據質量差導致了鉅額的財務損失;為解決不同數據計算和存儲需求,企業開始採用越來越多的數據技術 (如數據倉庫、數據湖、NoSQL 數據庫、OLAP 數據庫、實時數據源等) ,讓實現“單一事實來源的數據”變得十分困難。

  • 不斷擴大的安全合規風險

超過 70% 的用户可以訪問他們不應該訪問的數據。而隨着網安法、數安法、個保法、GDPR、CCPA 等數據安全和隱私保護法律的出台和外部安全威脅越來越大,企業必須在合規和治理方面表現出更高的標準,更難的是,企業還需同時兼顧業務的用數效率。

Gartner稱:“在過去的十年裏,數據和應用孤島的數量激增,而數據和分析(D&A)團隊的技能型人才數量卻保持不變,甚至下降。作為一種跨平台和業務用户的靈活、彈性數據整合方式,Data Fabric能夠簡化企業機構的數據整合基礎設施並創建一個可擴展架構,減少大多數數據和分析團隊因整合難度上升而出現的技術債務。其真正價值在於:通過內置的分析技術動態改進數據的使用,使數據管理工作量減少70%並加快價值實現時間。Gartner最新預測顯示,至2024年,Data Fabric可減少50%人力數據管理成本,與此同時,數據使用效率會因Data Fabric的部署使用伴隨着數據類型日益多樣化、數據孤島不斷林立、數據結構愈加複雜,企業在分佈式數據環境中高效管理和利用多維數據成為亟待解決的難題。與此同時,企業上雲成為一大趨勢,混合數據環境下企業該如何跨平台、跨環境,以實時的速度收集、訪問、管理、共享數據,從不斷變化、高度關聯、卻又四處分散的數據中獲得可執行洞見,實現智能化決策?面對上述數據管理難題,Data Fabric提出了一套治理“良方”。Data Fabric是一種新興的數據集成和管理理念,意在獨立於部署平台、數據流程、地理位置和架構方法,在不移動數據位置的前提下,為企業內的所有數據提供單一訪問點,保證數據使用端在正確的時間、正確的地點以實時的速度拿到正確的數據。

❖ 架構定位

Data Fabric這一概念,尤其鮮明的架構特點,這也是有別於其他技術的重要區別。其實質上是一種數據管理架構思想,其主要目標是打破企業內部的數據孤島、最大化釋放數據價值。其核心理念是通過優化跨源異構數據的發現與訪問,將可信數據從所有數據源中以靈活且業務可理解的方式交付給所有相關數據消費者,讓數據消費者自助服務和高效協作,實現極致敏捷的數據交付,同時通過主動、智能、持續的數據治理讓數據架構持續健康,從而提供比傳統數據管理更多的價值。其具備以下特點:

  • 連接數據,而非集中數據

Data Fabric 的一個關鍵原則是數據集成方法的靈活性,以支持分佈式生態系統中的數據管理。也就是説,根據場景的性質及其需求,系統能為用户自動匹配最佳集成策略和數據技術,而無需用户人工搭建數據管道、選型計算存儲方案。這樣做一方面讓用户可以專注於業務實現而無需關心技術細節,另一方面也免去了數據搬運帶來的漫長等待,並節省了大量任務運維投入和重複存儲成本,極大加速了數據價值實現。

  • 自助服務,而非專家服務

數據需求指數級增長,而企業數據工程團隊增長卻非常緩慢,甚至有所縮減,在集中式的數據供給模式下,數據工程團隊成為影響數據化運營效率的最大瓶頸,唯有讓分析師和業務人員自服務才有可能將生產力解放出來,以滿足業務旺盛的數據化運營需求。Data Fabric 的最佳解決方案是實現數據民主化,允許業務用户輕鬆發現並使用數據資產,從而實現敏捷的數據交付。

  • 主動智能,而非被動人工

傳統數據治理往往在問題發生後才開始啟動,且需要從上到下推動並通過運動式人工治理,這種方式難以持續且越來越無法應對快速膨脹、錯綜複雜的數據依賴網絡。而 Data Fabric 則強調數據治理應更主動和智能,即基於主動元數據構建智能治理能力,融入到數據全生命週期的每個環節裏去,實現主動、智能的數據治理。Gartner 將 Data Fabric 比喻成數據管理的'自動駕駛":駕駛員由於某些原因注意力不集中,有點兒走神,汽車則主動、及時地切換至半自動駕駛模式,進行必要的路線修正。即Data Fabric 以最佳的方式將數據源頭傳送到目的地,並不斷的監控數據 pipeline,提出建議,最終在速度更快、成本更低的情況下采用替代方案,就如自動駕駛汽車一樣。

  • 萬物鏈接,而非簡單替代

Fabric是一種架構方法,該方法在各個節點之間提供完整的點對點連接,這些節點可以是數據源、存儲、內部/外部應用程序、用户等任何訪問數據或與數據相關的信息。Data Fabric將現有的數據管理系統和應用程序編織在一起,提供可重用的服務,涵蓋數據集成、訪問、轉換、建模、可視化、治理和交付。為了在所有這些不同的服務之間提供連接,Data Fabric包括了連接到數據生態系統工具的連接器。

Data Fabric 的“真正價值在於它能夠通過其內置分析能力來動態改善數據的使用,從而加快實現數據價值的速度”,其支持全面的集成數據管理功能,包括髮現、治理、管理和編排,並使用 AI 能力進行語義探索、分析和推薦,從而從被動的數據策略轉變為主動響應性的數據策略,實現更快速的適應業務、更敏捷的數據洞察、更有效地消除孤島、更低的成本和風險、更高效的業務協作以及更安全的數據使用。

❖ 關聯對比

作為一種新生概念,有時會與其他概念和產品有所混淆,那麼我們來看看Data Fabric與常用一些概念的區別。

  • Data Mesh

Data Mesh由ThoughtWorks提出,其借鑑了微服務和 Service Mesh 的分佈式架構思想,是一種領域驅動和自服務的數據架構設計新模式,基於面向領域去中心化的數據所有權和架構、數據作為產品、平台化自助數據基礎設施以及聯邦計算治理等四個基本原則進行建設, 通過將系統劃分為由較小的跨職能團隊管理的離散域來解決大型、複雜、單體數據架構的問題,如缺乏數據所有權、缺乏數據質量管理、組織難以擴展。其核心目標是將數據視為一種產品,通過利用面向領域的自助設計來實現日益龐大、多樣化且無處不在的數據集的跨域訪問需求,使數據消費者能夠發現、理解、信任和使用數據/數據產品(分佈在不同領域)來推動數據驅動的決策和計劃。

  • API 的訪問方式不同。Data Mesh是面向開發同學、API驅動的解決方案,需要為API編寫實現代碼,而Data Fabric相反,其通過低代碼、無代碼的方式進行設計,API集成在架構內進行實現,而不是直接使用它。

  • 思想不同。雖然Data Fabric和Data Mesh 都提供了跨技術、跨平台的使用數據的架構,但前者以技術為中心,是將多種技術進行組合使用,由 AI/ML 驅動的增強和自動化、智能元數據基礎和強大的技術骨幹(即雲原生、基於微服務、API 驅動、可互操作和彈性)支持,更多的是關於管理數據技術(集成架構),而後者則側重於組織結構和文化變革來實現敏捷性,可以在於技術無關的框架內指導方案設計,各數據領域團隊可以在更理解其所管理的數據的基礎下實現相應的數據產品的交付,更多的是管理人員和流程。

  • 數據產品的實現思路不同。Data Mesh 將數據的產品思維作為核心設計原則,其數據是分佈式的,每類數據都是一個獨立的域(即數據產品),存儲在對應的組織中,而Data Fabric所有的數據都會集中在一個位置(物理集中或虛擬集中),對外提供能力。其實,基於數據虛擬化集成技術的Data Fabric,其數據也是分佈式的,通過虛擬邏輯數據模型對外統一提供數據使用。

  • 數據資產的自動化方式不同。Data Fabric利用基於豐富的企業元數據基礎(例如知識圖)來發現、連接、識別、建議和向數據消費者提供數據資產的自動化,而Data Mesh則依賴於數據產品/域所有者來推動數據需求。

  • 依賴關係不同。Data Fabric無需依賴Data Mesh的實踐即可實施,而Data Mesh則必須利用Data Fabric來支持數據對象和產品的驗證。

  • 自動化程度不同。Data Fabric鼓勵增強數據管理和跨平台編排,以最大限度地減少人工設計、部署和維護工作。Data Mesh則傾向於對現有系統的手動設計和編排,由業務領域執行持續維護。

  • 解決方案的成熟度不同。成熟度上看,Data Fabric目前被廣泛應用於各種數據應用場景,而Data Mesh仍然處在一個未開發的階段。

實際上,不同的公司基於自身的數據特點(數據量、數據速度、數據類型等)、安全策略、技術儲備、性能要求、資金成本等, 對於Data Fabric或Data Mesh會有不同的具體落地方案。總之,Data Mesh更多地是關注於人和過程而不是技術架構,而Data Fabric是一種技術架構方法,它以一種智能的方式來應對數據和元數據的複雜性。

  • 數據虛擬化&數據集成

  • 數據虛擬化技術,作為一種被市場充分驗證的成熟技術出現在Gartner 發佈的《2021 數據管理技術成熟度曲線報吿》中,它是一種將可用數據轉換成分析和報吿所需形式的可選擇技術,其存在於數據使用者以及數據存儲之間,數據使用者通過數據虛擬層訪問數據,數據虛擬化層隱藏數據存儲。數據虛擬化技術幫助數據工程師無需移動、複製數據即可集成多個數據源,在內存中進行數據的組合、準備和轉換,並以需要的格式呈現數據。數據虛擬化方法可以幫助企業從數據中獲得更多的見解以及更快的響應不斷變化的商業分析需求,同時,與數據複製、移動相比,數據虛擬化可節省50-75%的成本。

  • 數據集成是融合異構存儲集合的數據並構造統一數據視圖的過程,包括了數據合併、數據轉換、數據清洗等。傳統的數據集成專注於複製、移動數據,如ETL加工、數據同步等。數據虛擬化則是一種經濟高效的現代數據集成技術,直接連接源數據,不依賴複雜和繁瑣的ETL系統,減少了多次複製、移動和存儲數據的時間和成本,同時也減少了產生數據錯誤的概率。另外,數據虛擬化不僅可以做數據層面的集成,也包括接口層面的集成。因此,數據虛擬化是一種更穩定的技術和增長最快的數據集成方式。

數據虛擬化與Data Fabric的關係上,數據虛擬化是Data Fabric架構中的關鍵技術之一,可以在不移動數據的情況下從源頭訪問數據,通過更快、更準確的查詢幫助縮短實現業務價值的時間。Data Fabric 的數據虛擬化層提供了跨平台敏捷集成、統一語義、低代碼創建數據API(支持SQL、REST、OData和GraphQL等技術)、智能緩存加速等功能,在數據處理引擎和數據消費者之間架起了橋樑。

  • 數據湖

Data Fabric不是數據湖或者數據倉庫的替代方案,數據湖是其異構數據源之一(數據源可以是數據倉庫、數據湖,也可以是業務數據庫等其他數據存儲),Data Fabric將應用程序與數據湖(或者數據倉庫)進行連接,通過統一的數據管理框架支持在分佈式的環境中進行數據消費。Data Fabric 可以為數據湖或數據倉庫提供可信的數據,同時,基於數據湖(或者數據倉庫)的Data Fabric 為業務提供更精準的洞察能力。

  • 知識圖譜

知識圖譜是Data Fabric重要的組成部分。如果將Data Fabric翻譯成數據經緯的話,那麼知識圖譜則是經紗和緯紗,其使得Data Fabric支持動態集成以及數據應用編排,而作為基石的數據目錄也是基於知識圖譜進行實現的。知識圖譜使得Data Fabric在良性循環中進行持續運營和發展,如靈活性(可以表達任何數據和元數據)、可組合性(易於增量進化)、連接性(連接所有數據和元數據“孤島”)、無縫數據治理、面向未來(基於標準)、表現力(最全面的“開箱即用” 模型)、可集成性(最完整、開放和靈活的 APIs)、智能(集成推理和機器學習)等。

  • 數據中台

數據中台方法的本質思想是通過對數據進行集中式建設、集中式管理和集中式服務,以提供單一事實來源的數據(single source of truth)。這就決定了數據中台只有在數據需求較為固定、用數人羣比較集中、決策頻率相對較低的情況下是比較有效的。伴隨企業數據需求日趨複雜、用數人羣佔比越來越大,決策頻率越來越高,業務對用數的敏捷性和靈活性要求越來越高,數據中台這種集中的數據管理方式無法實現數據的敏捷性和靈活性。Data Fabric旨在提供對創新深度、速度要求更高的創新型業務更為合適。

2. Data Fabric 價值及能力

❖ 產品價值

Data Fabric的真正價值在於它能夠通過其內置分析能力來動態改善數據的使用,從而加快實現數據價值的速度,其支持全面的集成數據管理功能,包括髮現、治理、管理和編排,並使用AI能力進行語義探索、分析和推薦,從而從被動的數據策略轉變為主動響應性的數據策略,產生:

  • 更快地適應業務。Data Fabric通過強大的查詢、搜索以及學習能力可以回答意料之外的問題以及適應新的業務需求。其提供了一個動態的、可查詢的數據能力,從多個數據來源進行數據的收集和分析,且可以充分複用數據模型(之前需要依賴創建新的數據模型和數據轉移複製來支持新的業務需求),因此可以快速回答和解決新的問題和訴求。

  • 更好的洞察力。Data Fabric表達數據的業務意義(而不僅僅是通過數據改變現狀),從而產生更好的業務洞察能力。其融合多種數據來源(如數據&元數據、司內&司外、業務內&業務外、雲端&本地等),建設可擴展的、知識圖譜驅動的數據模型,使得每個數據資產的所有上下文都可以以可理解的形式進行使用和呈現,幫助決策者和算法做出更優的決策(更容易地獲得高質量的數據,從而能更快和更精確地獲得業務數據洞察),同時降低數據被濫用或者誤解的可能性和風險。

  • 更有效地消除孤島。Data Fabric通過數據聯邦、數據虛擬化、語義豐富、基於AI的主動元數據、知識圖譜以及圖存儲等數據技術,進行數據的連接、跨數據源的訪問和數據交付,從而減少數據孤島,尤其是數據虛擬化技術在計算層而非存儲層進行數據連接,“在數據處理引擎和數據消費者之間架起了橋樑”,這種數據的連接方式還避免了不斷產生新的數據孤島。DAMA認為,消除孤島和完全問責應該是任何數據項目的核心。

  • 更低的成本和實施風險。Data Fabric的實現思想是是對原有技術的重新組合(技術的本質是利用現象,對現有技術進行重新組合,並基於目的性的機會利基進行不斷的自我進化),而非全新的技術,通過支持組裝式數據分析及其各種組件,對數據倉庫、數據湖、數據計算、數據分析等現有的技術和能力進重新的組合和使用,並引入了新的方法、工具和平台。另外虛擬數據集成技術的應用,減少了數據複製、轉移的次數和數量,降低了數據質量的風險和運維成本,也節省了計算和存儲的開銷。

  • 更高效的業務協作。Data Fabric是為協作、利用和鏈接現有資產和推動跨智能的數據管理項目而創建的。通過將現有的數據、數據能力、應用程序進行自動化關聯、編排,並創建全域數據的單一視圖(catalog),從而支持跨業務數據的即時有效訪問,實現業務間有效協作, 創建和維護業務的競爭優勢。

  • 更安全的業務。Data Fabric可以實現自動治理、數據保護和安全保障。其為所有的數據計劃建立分佈式的數據治理層,減少合規性和監管風險,以及在平台安全能力下防止數據泄露,並通過AI能力提升自動化水平(如根據監管文檔中的語言和定義自動提取數據治理規則、發現和治理個人身份信息PII和關鍵數據元素),使得業務可以在幾分鐘內發現並應用數據治理規則,避免產生不良社會影響或高昂的罰款,確保所有的數據都能以合規的方式進行存儲和使用,而這在當前社會背景下尤為重要。

❖ 能力要求

針對Data Fabric,需要具備什麼能力,目前還沒有行業統一標準。我們可以通過Forrester和Gartner對能力有個大致的瞭解。

  • Forrester 定義的能力要求

  • 數據管理。數據管理是Data Fabric的關鍵能力,包括了數據安全、數據治理、元數據&數據目錄、數據搜索、數據質量、數據血緣等,並與其他5種能力交織在一起,保障數據的可靠性、安全性、完整性、合規性、可集成等,確保數據的信任度、數據流編排以及跨平台的數據轉換。同時數據管理集成了AI能力,自動化實現基於語義和知識的分析,理解數據及其業務含義,構建知識圖譜形式的數據目錄,從而使得數據目錄更加智能化和自動化。

  • 數據攝取和流式傳輸。數據攝取是Data Fabric的數據基礎,處理數據連接、攝取、流式傳輸等,將數據加載到大數據存儲中。數據攝取需要能覆蓋所有潛在的數據類型(結構化、非結構化等)和數據來源(設備、日誌、數據庫、點擊、應用程序等),並通過多種優化方法縮短數據的加載時間(如單個、大批量、小批量等)。

  • 數據處理和持久化。該層利用數據湖、數據中心、數據倉庫、NoSQL 和其他數據組件(如數據管道)來處理和保存數據以供使用。Data Fabric可以將處理下推到各種數據存儲上,例如數據湖、對象存儲、NoSQL 或數據倉庫,以便在與其他來源進一步集成之前僅獲取部分的相關數據,提升數據的查詢性能。

  • 數據編排。數據編排通過轉換、集成和清洗數據,實時或即時的支持各種數據使用場景。其通過一些技術完成跨源數據的集成訪問,並通過統一的、標準化的API的方式將集成轉化後的數據對外提供。

  • 數據發現。數據發現能力直接解決或者弱化了數據孤島問題,自動發現跨場景的數據,通過數據建模、數據準備以及虛擬化等技術組件為數據使用者準備好可用的數據資產,並以圖的呈現方式進行數據發現和使用。其中數據虛擬化技術比較關鍵,其用於創建可以實時訪問的數據虛擬視圖,進行跨島查詢[25]。

  • 數據訪問。用户通過自服務的方式進行數據訪問(如應用程序、工具、儀表盤、解決方案等),並通過高性能緩存以及其他持久化存儲技術保障數據的訪問性能。

  • Gartner 定義能力要求

  • 增強數據目錄。 數據目錄是整個架構的基礎,其通過元數據對數據資產進行組織和管理。在數據目錄上,使用 AI/ML進行自動化收集和分析所有形式的元數據以及數據上下文,包括技術元數據(如數據類型、數據模型等)、業務元數據(如業務標記、業務策略、業務關係等)、操作元數據(如數據操作、數據血緣、數據性能等)、社會元數據(如實體關係、UGC、評價等)等等,為形成語義知識圖譜以及主動元數據做數據內容上的準備。

  • 語義知識圖譜。 創建和管理知識圖譜,並使用 AI/ML 算法進行實體連接以及連接關係的量化,以識別或者添加豐富數據間的關係(包括多個數據孤島間的數據關係,數據上下文以及語義相關性)用於數據洞察分析,同時也可以實現自動化的機器理解和數據推理。產生的語義化數據也可用於機器學習的模型訓練上,提升預測的精準度。

  • 主動元數據。 主動元數據是相對於靜態的被動元數據而言的。通過AI/ML輔助生成的主動元數據是支持自動化數據集成和數據交付的基礎能力,主動元數據的形成依賴於發現並連接所有形式的元數據,形成獨特並不斷變化的關係,並以圖這種易於理解的方式鏈接和呈現元數據間的關係。通過對元數據關係圖的持續訪問和分析,不斷髮現和形成關鍵指標、統計數據等新的關係。如訪問頻次、數據血緣、數據性能、數據質量等。將元數據關係數據作為特徵去訓練和豐富AI算法,同時這些算法可以產生或者迭代元數據的語義,以及改進數據集成的設計、自動化流程。

  • 推薦引擎。 推薦引擎與業務相關,將基於專家經驗形成的規則或者機器模型學習的結果,以及結合主動元數據,用在數據質量監控以及優化改進數據的準備過程(如集成流程或者引擎優化),如元數據推薦、流程推薦、資產推薦、建議推薦、執行計劃推薦、計算引擎推薦等。

  • 數據準備和數據交付。 Data Fabric的數據準備和交付是在數據pipline中進行數據的轉化和集成。數據集成對於Data Fabric至關重要, 通過批處理、數據複製、數據同步、流數據集成以及數據虛擬化(在數據查詢時完成數據轉化)等方式進行跨源、跨環境(如多雲、混合雲、供應商)的數據集成,將數據準備摺疊到數據交付層(將準備好的數據進行交付)。

  • 數據編排和DataOps。 數據編排是用於驅動數據準備工作流的流程,用來集成、轉換和交付各種數據和分析用例的數據。DataOps是將類似於DevOps的持續集成、持續部署的原則應用於數據pipeline,更加敏捷和嚴格的進行數據交付。基於AI的自動化數據編排是Data Fabric架構設計以及落地的關鍵,通過組合和重用集成組件,快速支持當下以及未來需求。存儲和計算分離是未來數據管理的趨勢,Data Fabric通過自動化來管理和編排跨組織、跨平台的的數據pipeline,包括數據流協調、維護、操作、性能優化、集成負載調度等,大幅提高數據管理團隊的工作效率。

3. Data Fabric 廠商實踐

Data Fabric (數據經緯)目前是一個IT熱點,眾多國內外公司均推出了針對 Data Fabric 的解決方案。下面看看幾個典型廠商的產品及方案。

❖ IBM - Cloud Park for Data

IBM 公司的Cloud Pak for Data針對上述Data Fabric (數據經緯)擁有四個 AI賦能的自動化能力。

  • AutoCatalog:元數據的管理是挖掘數據價值,把各個不同來源的數據很好利用起 來的重要技術環節。AutoCatalog 可以看成是 IBM 研發 AI 賦能的分類大腦,可以根 據發現數據和分類的流程實現自動化,進行自動分類之後建立自動化目錄,維護來自不 同數據環境數據資產的 Dynamic 的實時目錄。

  • AutoAI:AutoAI 的主要功能是儘量降低 AI 模型開發、模型校正、模型自我重新培 訓的技術門檻和人力付出,從而對動態的數據和整個 AI 本身算法生命的週期進行自動 化。

  • AutoPrivacy:實際上 AutoPrivacy 主要是通過數據隱私框架當中的關鍵能力,使 用 AI 的能力智能化地識別企業內部的敏感數據,當被調用的時候系統能夠識別到、監 控到,甚至在後續當定義敏感數據的使用和保護時,就可以為企業內部的政策實施自動 化提供了技術和智能化的保障。

  • AutoSQL:因為我們現在要解決的問題是跨混合多雲環境實現數據訪問的自動化, 當寫一個傳統 SQL 的時候,首先要知道這個數據在什麼地方。我們通過 AutoSQL 的 技術來實現訪問數據的自動化,無須物理地移動這些數據,從而提高了數據查詢的速 度,也降低了使用數據的人對數據來源所需要的瞭解。

❖ Aloudata NoETL

  • 主動元數據。 主動元數據是實現 Data Fabric 的基石,它類似於智能駕駛汽車的傳感器及信號解析處理模塊,為推薦引擎、DataOps、數據虛擬化和主動數據治理提供了數據支撐。數據管理策略的有效性絕大部分取決於主動元數據建設的好壞,企業落地 Data Fabric 的首要任務,就是構建全面、準確、實時的主動元數據,並持續優化以獲得更好的數據管理效果。其具備如下能力: 快速發現全鏈路元數據、 實時、精細、準確的全鏈路血緣、 採集數據生態的所有元數據、 以知識圖譜方式組織元數據、 實時、高效、易擴展的數據畫像打標等。

  • 推薦引擎。 推薦引擎將基於專家經驗形成的規則或者機器學習模型,用於 DataOps、數據管理以及數據準備及服務 (如數據集成方案或者引擎性能優化) ,其推薦範圍可以涵蓋數據全生命週期各個階段,如數據資產推薦、數據用法推薦、數據集成方案推薦、執行計劃推薦、計算引擎推薦、數據分類建議、數據時效提升建議、數據安全風控建議、成本治理建議等。其具備如下能力: 數據資產業務分類推薦、 智能 SQL 用法聯想、 智能查詢加速、 智能資產推薦等。

  • 增強數據目錄。 Aloudata 增強數據目錄 (Aloudata BIG Catalog) 以主動元數據為核心,將 AI 和機器學習用於元數據收集、語義推理和分類打標,自動對數據進行編目,從而最大限度減少手工維護元數據的工作,從而為業務人員提供以下關鍵特性和體驗: 語義化數據搜索、 全景數據畫像、 可視化血緣分析、 全域數據探索等。

  • 數據虛擬化。 數據虛擬化是實現 Data Fabric 的核心,它承擔了業務人員自助完成數據集成、準備和交付的關鍵職責,它在數據源與數據消費端之間提供了一個連接、整合以及消費數據的虛擬語義層,用户可以通過定義數據查詢來完成數據轉換,從而實現對跨源、跨環境 (如多雲、混合雲、Saas 軟件供應商) 的數據進行透明集成、自助準備以及高性能服務。其具備如下能力: 高性能聯邦查詢、 全場景智能加速、 全鏈路數據編排、 零運維數據更新、 標準化協議接入、 精細化安全管控等。

  • DataOps。 DataOps 理念被提出,它的核心內涵是將類似於 DevOps 的敏捷研發、持續集成、持續部署等原則應用於數據研發和管理過程,以實現更加敏捷和高質的數據交付,通常來説,落地 DataOps 必須具備以下關鍵能力: 一站式數據研發、 數據變更 CI/CD、 嵌入式治理管控、 數據質量可觀測等。

❖ 極數雲舟-DTark

北京極數雲舟科技有限公司( Cloud-ark )是一家致力於數據處理基礎技術研發的高新技術企業,結合數據處理領域最前沿的Data Fabric理論,創造性地提出廣義數據庫系統,並自主實現內核層多引擎融合技術,打造核心產品:雲舟數據經緯平台(DTark),助力用户打造簡單、高效、便捷與可持續發展的企業數據基座。

DTark核心技術本質是實現了多引擎融合數據處理,同時也實現了數據多副本、水平彈性伸縮、數據一致性、透明高可用、分層解耦等能力,基於成熟開源組件,併兼容開源協議和技術生態體系,穩定可靠,簡單易用,軟件核心源代碼及關鍵技術自主研發,產品安全可控。 極數雲舟基於DTark產品,服務能力覆蓋複雜企業數據管理、數據平台建設、數據庫系統及管理,助力客户數字化、智慧化等基於數據融合服務的數據基座建設,也為數據中台、大數據平台建設提供了新動力,在提高性能、降低成本、減少定製化、降低系統複雜度、提升系統可持續發展能力等方面獨具優勢:

  • 數據接入的融合:基於成熟開源組件,穩定可靠,兼容MySQL協議和技術生態體系

  • 數據存儲的融合:可實現數據多副本、水平彈性伸縮、數據一致性、透明高可用、分層解耦融合

  • 數據引擎融合:多引擎融合解決數據多樣性存儲的橫向打通

  • 數據接入的擴展:支持信息系統結構化數據、工業物聯網時序數據、科學引擎接口數據的可擴展接入

  • 數據輸出的擴展:數據服務化要作為數據庫的標準能力

  • 數據引擎的擴展:針對數據類型與計算需求可擴展至 在線事務處理、 在線分析處理、時序數據處理、全文檢索、知識庫 等多種引擎

韓鋒頻道:

關注技術、管理、隨想。

長按掃碼可關注