數據湖與 LakeHouse 依然炙手可熱
馬進網易數帆大數據實時計算技術專家、湖倉一體項目負責人,負責網易集團分佈式數據庫、數據傳輸平台、實時計算平台、實時數據湖等項目,長期從事中間件、大數據基礎設施方面的研究和實踐,目前帶領團隊聚焦於流批一體、湖倉一體的平台方案和技術演進,及流式湖倉服務 Arctic 項目開源。
近日,OSCHINA 和 Gitee 聯合發佈了《2022 中國開源開發者報告》。網易數帆大數據實時計算技術專家馬進在報告中對開源 AI 領域進行了解讀,以下為原文。
數據湖與 LakeHouse 依然炙手可熱
2022 年,數據湖與 LakeHouse 依然是炙手可熱的話題。一方面,在 Apache Iceberg、Apache Hudi、Delta 等知名開源項目的帶動下,國內的一些基礎軟件公司也開始在數據湖開源領域積極佈局,代表有網易數帆開源的湖倉管理系統 Arctic,阿里雲開源的流式數倉 Flink Tablestore;另一方面,一些傳統架構的開源數倉軟件,以及閉源的數據分析引擎,也開始積極擁抱開放的數據湖格式,標誌性事件如 Snowfake 可以對接 Delta 和 Iceberg,Doris 系的開源數倉可以查詢 Iceberg 數據。
在眾多開源項目與頭部企業的帶動下,行業和市場相比去年對 LakeHouse 的價值認知有了長足進步。
目前,用户切入 LakeHouse 主要有兩點:一是數據湖上雲,公有云的對象存儲與私有化的 Hadoop 在一些功能上有較大不同,比如 list 和 rename 接口的性能缺陷,導致用户在把圍繞 Hadoop 構建的數倉體系遷往雲端時需要應對各種問題,而以 Iceberg 為代表的新型表格式在使用上天然不依賴這些接口,並且提供了 ACID、模式演進等高階特性,為用户提供了更好的上雲方案;二是數據處理的流批一體,新型數據湖格式的快照機制對流更加友好,可以將數據湖拓展到更多流計算場景,甚至演進到流式湖倉的場景,實現實時數倉和離線數倉在湖倉上的統一。
但需要承認的是,LakeHouse 這項技術還沒有瓜熟蒂落,尤其在流批一體方面,依然有很多想象空間。在 Gartner 技術成熟度曲線中,LakeHouse 處於期望膨脹期的臨界點,距離主流市場採納還需要 2-5 年的時間。得益於數據湖天然的體量和成本優勢,可以預見當 LakeHouse 成為標準技術方案時,它將給企業的數字化轉型帶來極具意義的變革。
《2022 中國開源開發者報告》報告由” 前沿開源技術領域解讀 “ ” 中國開源創業觀察 2022“,以及” 開發者畫像分析 “ 三個章節組成。
在 “前沿開源技術領域解讀” 部分,多位在其領域有所建樹的一線開發者和開源商業化公司創始人,對目前國內外流行的前沿開源技術領域過去的發展和未來的趨勢進行了深入的洞察,覆蓋開源雲原生、開源 AI、開源大前端、開源大數據、開源 DevOps、RISC-V、開源操作系統、開源數據庫、編程語言九大領域。
欲瞭解更多報告內容,請點擊:https://gitee.com/report/china-open-source-2022/
- 從雲原生到 Serverless,我們對數據庫還有哪些想象?
- 2022 年大前端總結來了,我們能抓住什麼?
- 15 大分論壇不容錯過,GOTC 2023 即將拉開帷幕!
- WebGPU 尚未發佈,Orillusion 提前公測,我們先和創始人聊了聊
- 多樣性算力、全場景支持是操作系統剛性需求
- Thoughtworks 技術專家 Phodal:2022 年前端趨勢總結
- 雲原生業界生態空前活躍,要落地仍然考驗創造力
- eBPF為雲原生應用可觀測性開啟更多可能性
- 白鯨開源代立冬:數據技術快速更迭, DataOps 應運而生
- 下一代開源操作系統 因雲而與眾不同
- 爭執不斷,但低代碼的發展已經成為趨勢
- 網關基礎設施或邁出走向標準化的關鍵一步
- 前後端開發的邊界越來越模糊
- 為什麼説 AI 標準化和規模化應用來臨?
- 平台工程理念崛起
- 雲原生成為數據庫產品的重要演進方向
- 開源數據庫賽道為何吸金?
- 數據湖與 LakeHouse 依然炙手可熱
- 操作系統根社區或能應對停服難題
- 統信王耀華:把握開源操作系統供應鏈安全