白鯨開源代立冬:資料技術快速更迭, DataOps 應運而生

語言: CN / TW / HK

代立冬
白鯨開源聯合創始人,Apache DolphinScheduler PMC 主席,Apache SeaTunnel PPMC,Apache 基金會正式成員,Apache 孵化器導師,ApacheCon Asia 大資料論壇主席。

近日,OSCHINA 和 Gitee 聯合釋出了《2022 中國開源開發者報告》白鯨開源聯合創始人代立冬在報告中對開源大資料領域發展進行了解讀,以下為原文。


資料技術快速更迭, DataOps 應運而生

2022 年的大資料發展如火如荼,OLAP、資料湖、資料整合、DataOps、MLOps 等領域非常火熱,企業數字化、數智化發展十分蓬勃,開源原生公司發展迅速,資料湖三劍客 Apache Iceberg、Apache Hudi 加上 DataBricks 主導的 Delta Lake 都已經有商業化公司的助力。資料領域的估值愈發突起,比如 DBT Labs 估值已經達到 40 多億美金,Airbyte 估值已經 15 億美金。國內以天謀科技、思斐、SelectDB、白鯨開源為代表的大資料開源原生公司開始展露頭角。

資料技術正在快速迭代,且迭代速度比以往任何時候都更快,每年新誕生的技術多達幾十種,在此的背景下,DataOps 應運而生。DataOps 圍繞雲原生、敏捷智慧化、多雲能力等方向重構現代資料技術棧,涵蓋了現代資料處理的整個生命週期,包括資料採集、資料加工(ELT/ETL)、資料整合、資料安全、資料治理等多個方面,利用 DataOps 可以高效打造現代資料智慧高速公路。

根據 Gartner 的總結,我們來看一下 DataOps 在資料運營體系關鍵要素中的作用:

(1)流程控制:在 DataOps 中,自動化測試和統計流程控制在資料管道的每一步執行,過濾和消除資料錯誤,這些資料錯誤會破壞分析,併產生大量計劃外工作影響生產效率。

(2)變更管理: DataOps 關注的是跟蹤、更新、同步、整合和維護驅動資料分析管道的程式碼、檔案和功能元件。

(3)並行開發:DataOps 組織並劃分資料開發各個階段,以便團隊成員可以高效地協同工作,而不會發生資源衝突。

(4)虛擬化技術環境: DataOps 會虛擬化技術環境,以便將開發與生產隔離。虛擬化可以讓業務創新更輕鬆地通過開發流程,並快速流向生產環境。當需要時,資料分析師可以快速啟動一個開發環境,其中包括所需的工具、安全訪問、資料、程式碼。

(5)複用:DataOps 支援複用模型,標準化被廣泛使用的功能和分析元件,並簡化虛擬環境之間的遷移。

(6)響應能力和靈活性:DataOps 設計資料分析管道以適應不同的執行時情況。這種靈活性使分析能夠更好地響應組織的需求和不斷變化的優先順序。

(7)快速變化:DataOps 將構建技術環境,以實現儘可能短的開發週期時間,同時滿足資料使用者的要求。DataOps 的設計理念就是基於變革,DataOps 體系結構將動態資料處理能力視為 “核心思想”,而不是 “亡羊補牢”,做事後的更改。

(8)團隊協同:DataOps 協調任務、角色和工作流,以打破不同資料團隊和業務團隊之間的障礙,以便更好地協同工作。

可以說,DataOps 是快速實踐數字化轉型的理論指導,貫穿於現代資料技術棧的始末,DataOps 也是降本提效的最佳路徑,實踐 DataOps 路徑的收益立竿見影。


《2022 中國開源開發者報告》報告由” 前沿開源技術領域解讀 “ ” 中國開源創業觀察 2022“,以及” 開發者畫像分析 “ 三個章節組成。

在 “前沿開源技術領域解讀” 部分,多位在其領域有所建樹的一線開發者和開源商業化公司創始人,對目前國內外流行的前沿開源技術領域過去的發展和未來的趨勢進行了深入的洞察,覆蓋開源雲原生、開源 AI、開源大前端、開源大資料、開源 DevOps、RISC-V、開源作業系統、開源資料庫、程式語言九大領域。

欲瞭解更多報告內容,請點選:https://gitee.com/report/china-open-source-2022/