白鯨開源代立冬:數據技術快速更迭, DataOps 應運而生

語言: CN / TW / HK

代立冬
白鯨開源聯合創始人,Apache DolphinScheduler PMC 主席,Apache SeaTunnel PPMC,Apache 基金會正式成員,Apache 孵化器導師,ApacheCon Asia 大數據論壇主席。

近日,OSCHINA 和 Gitee 聯合發佈了《2022 中國開源開發者報告》白鯨開源聯合創始人代立冬在報告中對開源大數據領域發展進行了解讀,以下為原文。


數據技術快速更迭, DataOps 應運而生

2022 年的大數據發展如火如荼,OLAP、數據湖、數據集成、DataOps、MLOps 等領域非常火熱,企業數字化、數智化發展十分蓬勃,開源原生公司發展迅速,數據湖三劍客 Apache Iceberg、Apache Hudi 加上 DataBricks 主導的 Delta Lake 都已經有商業化公司的助力。數據領域的估值愈發突起,比如 DBT Labs 估值已經達到 40 多億美金,Airbyte 估值已經 15 億美金。國內以天謀科技、思斐、SelectDB、白鯨開源為代表的大數據開源原生公司開始展露頭角。

數據技術正在快速迭代,且迭代速度比以往任何時候都更快,每年新誕生的技術多達幾十種,在此的背景下,DataOps 應運而生。DataOps 圍繞雲原生、敏捷智能化、多雲能力等方向重構現代數據技術棧,涵蓋了現代數據處理的整個生命週期,包括數據採集、數據加工(ELT/ETL)、數據集成、數據安全、數據治理等多個方面,利用 DataOps 可以高效打造現代數據智能高速公路。

根據 Gartner 的總結,我們來看一下 DataOps 在數據運營體系關鍵要素中的作用:

(1)流程控制:在 DataOps 中,自動化測試和統計流程控制在數據管道的每一步運行,過濾和消除數據錯誤,這些數據錯誤會破壞分析,併產生大量計劃外工作影響生產效率。

(2)變更管理: DataOps 關注的是跟蹤、更新、同步、集成和維護驅動數據分析管道的代碼、文件和功能組件。

(3)並行開發:DataOps 組織並劃分數據開發各個階段,以便團隊成員可以高效地協同工作,而不會發生資源衝突。

(4)虛擬化技術環境: DataOps 會虛擬化技術環境,以便將開發與生產隔離。虛擬化可以讓業務創新更輕鬆地通過開發流程,並快速流向生產環境。當需要時,數據分析師可以快速啟動一個開發環境,其中包括所需的工具、安全訪問、數據、代碼。

(5)複用:DataOps 支持複用模型,標準化被廣泛使用的功能和分析組件,並簡化虛擬環境之間的遷移。

(6)響應能力和靈活性:DataOps 設計數據分析管道以適應不同的運行時情況。這種靈活性使分析能夠更好地響應組織的需求和不斷變化的優先級。

(7)快速變化:DataOps 將構建技術環境,以實現儘可能短的開發週期時間,同時滿足數據使用者的要求。DataOps 的設計理念就是基於變革,DataOps 體系結構將動態數據處理能力視為 “核心思想”,而不是 “亡羊補牢”,做事後的更改。

(8)團隊協同:DataOps 協調任務、角色和工作流,以打破不同數據團隊和業務團隊之間的障礙,以便更好地協同工作。

可以説,DataOps 是快速實踐數字化轉型的理論指導,貫穿於現代數據技術棧的始末,DataOps 也是降本提效的最佳路徑,實踐 DataOps 路徑的收益立竿見影。


《2022 中國開源開發者報告》報告由” 前沿開源技術領域解讀 “ ” 中國開源創業觀察 2022“,以及” 開發者畫像分析 “ 三個章節組成。

在 “前沿開源技術領域解讀” 部分,多位在其領域有所建樹的一線開發者和開源商業化公司創始人,對目前國內外流行的前沿開源技術領域過去的發展和未來的趨勢進行了深入的洞察,覆蓋開源雲原生、開源 AI、開源大前端、開源大數據、開源 DevOps、RISC-V、開源操作系統、開源數據庫、編程語言九大領域。

欲瞭解更多報告內容,請點擊:http://gitee.com/report/china-open-source-2022/