資料湖與 LakeHouse 依然炙手可熱

語言: CN / TW / HK
馬進

網易數帆大資料實時計算技術專家、湖倉一體專案負責人,負責網易集團分散式資料庫、資料傳輸平臺、實時計算平臺、實時資料湖等專案,長期從事中介軟體、大資料基礎設施方面的研究和實踐,目前帶領團隊聚焦於流批一體、湖倉一體的平臺方案和技術演進,及流式湖倉服務 Arctic 專案開源。

近日,OSCHINA 和 Gitee 聯合釋出了《2022 中國開源開發者報告》網易數帆大資料實時計算技術專家馬進在報告中對開源 AI 領域進行了解讀,以下為原文。


資料湖與 LakeHouse 依然炙手可熱

2022 年,資料湖與 LakeHouse 依然是炙手可熱的話題。一方面,在 Apache Iceberg、Apache Hudi、Delta 等知名開源專案的帶動下,國內的一些基礎軟體公司也開始在資料湖開源領域積極佈局,代表有網易數帆開源的湖倉管理系統 Arctic,阿里雲開源的流式數倉 Flink Tablestore;另一方面,一些傳統架構的開源數倉軟體,以及閉源的資料分析引擎,也開始積極擁抱開放的資料湖格式,標誌性事件如 Snowfake 可以對接 Delta 和 Iceberg,Doris 系的開源數倉可以查詢 Iceberg 資料。

在眾多開源專案與頭部企業的帶動下,行業和市場相比去年對 LakeHouse 的價值認知有了長足進步。

目前,使用者切入 LakeHouse 主要有兩點:一是資料湖上雲,公有云的物件儲存與私有化的 Hadoop 在一些功能上有較大不同,比如 list 和 rename 介面的效能缺陷,導致使用者在把圍繞 Hadoop 構建的數倉體系遷往雲端時需要應對各種問題,而以 Iceberg 為代表的新型表格式在使用上天然不依賴這些介面,並且提供了 ACID、模式演進等高階特性,為使用者提供了更好的上雲方案;二是資料處理的流批一體,新型資料湖格式的快照機制對流更加友好,可以將資料湖拓展到更多流計算場景,甚至演進到流式湖倉的場景,實現實時數倉和離線數倉在湖倉上的統一。

但需要承認的是,LakeHouse 這項技術還沒有瓜熟蒂落,尤其在流批一體方面,依然有很多想象空間。在 Gartner 技術成熟度曲線中,LakeHouse 處於期望膨脹期的臨界點,距離主流市場採納還需要 2-5 年的時間。得益於資料湖天然的體量和成本優勢,可以預見當 LakeHouse 成為標準技術方案時,它將給企業的數字化轉型帶來極具意義的變革。


 《2022 中國開源開發者報告》報告由” 前沿開源技術領域解讀 “ ” 中國開源創業觀察 2022“,以及” 開發者畫像分析 “ 三個章節組成。

在 “前沿開源技術領域解讀” 部分,多位在其領域有所建樹的一線開發者和開源商業化公司創始人,對目前國內外流行的前沿開源技術領域過去的發展和未來的趨勢進行了深入的洞察,覆蓋開源雲原生、開源 AI、開源大前端、開源大資料、開源 DevOps、RISC-V、開源作業系統、開源資料庫、程式語言九大領域。

欲瞭解更多報告內容,請點選:http://gitee.com/report/china-open-source-2022/