數據湖與 LakeHouse 依然炙手可熱

語言: CN / TW / HK
馬進

網易數帆大數據實時計算技術專家、湖倉一體項目負責人,負責網易集團分佈式數據庫、數據傳輸平台、實時計算平台、實時數據湖等項目,長期從事中間件、大數據基礎設施方面的研究和實踐,目前帶領團隊聚焦於流批一體、湖倉一體的平台方案和技術演進,及流式湖倉服務 Arctic 項目開源。

近日,OSCHINA 和 Gitee 聯合發佈了《2022 中國開源開發者報告》網易數帆大數據實時計算技術專家馬進在報告中對開源 AI 領域進行了解讀,以下為原文。


數據湖與 LakeHouse 依然炙手可熱

2022 年,數據湖與 LakeHouse 依然是炙手可熱的話題。一方面,在 Apache Iceberg、Apache Hudi、Delta 等知名開源項目的帶動下,國內的一些基礎軟件公司也開始在數據湖開源領域積極佈局,代表有網易數帆開源的湖倉管理系統 Arctic,阿里雲開源的流式數倉 Flink Tablestore;另一方面,一些傳統架構的開源數倉軟件,以及閉源的數據分析引擎,也開始積極擁抱開放的數據湖格式,標誌性事件如 Snowfake 可以對接 Delta 和 Iceberg,Doris 系的開源數倉可以查詢 Iceberg 數據。

在眾多開源項目與頭部企業的帶動下,行業和市場相比去年對 LakeHouse 的價值認知有了長足進步。

目前,用户切入 LakeHouse 主要有兩點:一是數據湖上雲,公有云的對象存儲與私有化的 Hadoop 在一些功能上有較大不同,比如 list 和 rename 接口的性能缺陷,導致用户在把圍繞 Hadoop 構建的數倉體系遷往雲端時需要應對各種問題,而以 Iceberg 為代表的新型表格式在使用上天然不依賴這些接口,並且提供了 ACID、模式演進等高階特性,為用户提供了更好的上雲方案;二是數據處理的流批一體,新型數據湖格式的快照機制對流更加友好,可以將數據湖拓展到更多流計算場景,甚至演進到流式湖倉的場景,實現實時數倉和離線數倉在湖倉上的統一。

但需要承認的是,LakeHouse 這項技術還沒有瓜熟蒂落,尤其在流批一體方面,依然有很多想象空間。在 Gartner 技術成熟度曲線中,LakeHouse 處於期望膨脹期的臨界點,距離主流市場採納還需要 2-5 年的時間。得益於數據湖天然的體量和成本優勢,可以預見當 LakeHouse 成為標準技術方案時,它將給企業的數字化轉型帶來極具意義的變革。


 《2022 中國開源開發者報告》報告由” 前沿開源技術領域解讀 “ ” 中國開源創業觀察 2022“,以及” 開發者畫像分析 “ 三個章節組成。

在 “前沿開源技術領域解讀” 部分,多位在其領域有所建樹的一線開發者和開源商業化公司創始人,對目前國內外流行的前沿開源技術領域過去的發展和未來的趨勢進行了深入的洞察,覆蓋開源雲原生、開源 AI、開源大前端、開源大數據、開源 DevOps、RISC-V、開源操作系統、開源數據庫、編程語言九大領域。

欲瞭解更多報告內容,請點擊:https://gitee.com/report/china-open-source-2022/