袋鼠雲思樞:數駒DTengine,助力企業構建高效的流批一體資料湖計算平臺

語言: CN / TW / HK

7月28日,以“數智進化,現在即未來”為主題的袋鼠雲2022產品釋出會於線上正式開幕。釋出會上,袋鼠雲宣佈將集團進行全新升級:從“數字化基礎設施供應商”,升級為“全鏈路數字化技術與服務提供商”,並由袋鼠雲產研負責人思樞對外正式釋出了全新的四大產品體系:資料智慧分析與洞察平臺“數雁EasyDigit”、低程式碼數字孿生平臺EasyV、一站式大資料開發與治理平臺“數棧DTinsight”和極速湖倉引擎“數駒DTengine”。

file 他表示,“當前,數字化轉型已然成為幾乎所有企業的必選項,越來越多的企業將資料視為核心資產,加快數字化轉型的戰略部署。行業的變革、客戶的需求不斷督促著我們向前,袋鼠雲產品研發迭代升級的腳步從未停止。

回顧過去,袋鼠雲秉承讓資料創造價值的使命,在大資料領域的多個方面實現突破;在未來,袋鼠雲要深耕行業,實現業務與資料的雙向驅動,進一步夯實企業數字化轉型的資料基座,最大化幫助企業釋放資料價值。”

思樞重點向大家分享了全新四大產品體系中的堅實底座——袋鼠雲自主研發的極速湖倉引擎「數駒DTengine」。

以下為思樞演講全文:

大家好,我是袋鼠雲產研負責人——思樞。非常感謝大家參與袋鼠雲2022產品釋出會,也很榮幸能夠有機會在這裡向大家介紹袋鼠雲煥新升級後的系列產品。

首先想問大家一個問題,這也是很多數字化企業面臨的問題:資料革命時代來臨時,如何加快資料價值化呈現?

在這個過程中會面臨4個問題:一是部署問題,如何簡單快速部署一套大資料元件;二是資料來源接入問題,如何對接多源多種異構的資料來源,這些海量的結構化,半結構化和非結構化資料如何儲存;三是資料處理效率問題,在面對這些海量的資料時,如何降低資料開發處理的門檻,並提高資料分析的效率;四是資料安全問題,資料透出的時候如何做到精細化許可權管控。

file 有理由相信,許多數字化企業都迫切需要一套系統來解決上述問題,而數駒也正是由此而生。

數駒是什麼?

下面首先請大家先重點看一下數駒的產品架構圖:

file 數駒主要包括兩個平臺產品:一是大資料基礎平臺——EasyMR,負責Hadoop、Hive、Spark、Flink、Kafka、Hbase等大資料元件的自動化叢集部署、監控、遷移、升級等功能。

EasyMR除了能監管Hadoop生態體系元件,也可以根據EasyMR提供的Schema規範自動編排,快速整合客戶側自定義的開發應用。

所以使用EasyMR部署一套Hadoop元件,即使是零技術基礎的小白,也可以通過視覺化的介面進行一步步的引導操作,半個小時就能完成部署。

這裡也說下EasyMR的開源版ChengYing已經在Github上開源,大家有興趣可以下載試用。

Github:https://github.com/DTStack/chengying;

Gitee:https://gitee.com/dtstack_dev_0/chengying

二是資料湖平臺——DataLake,在儲存層通過流批一體資料同步框架ChunJun,將結構化、半結構化和非結構化資料統一高效入湖,入湖後對資料檔案做統一的規範管理和高效索引,極大的提高查詢效率。

在元資料層做統一的Catalog管理,Schema的自動推導,分割槽的動態生成和表結構演進。並且DataLake在計算層可以支援Flink、Spark、Trino等多種引擎做跨資料儲存的聯邦查詢。

讓業務響應更加及時,讓企業運轉更加高效,數駒誕生的目的就是讓企業產生的所有資料,都能夠被採集、被儲存、被計算,賦予資料全新價值。

數駒好在哪?

除了資料高效入湖、聯邦查詢外,數駒還有其他幾大領先產品特性和技術核心,接下來進行簡單分享,幫助大家更好的理解數駒。

產品特性

· 資料入湖:整合流批一體框架ChunJun一鍵生成湖表資訊

· 聯邦查詢:內建多種資料聯結器高效索引,跨源聯合分析查詢

· 自主可控,安全保障:360°資料訪問安全體系,細粒度的資料許可權劃分

· 極致便捷:一站式服務,開箱即用視覺化操作

· 流批一體:統一儲存邏輯,統一SQL語言,支援流批一體化分析

· 相容幷蓄,優化提升:對Spark、Flink、Trino等計算元件深度優化加速計算

袋鼠雲一直以來都希望幫助企業充分發揮數字化能力,打造數字經濟時代助力企業智慧化“蝶變”的利器。基於此目標,我們為數駒打造的流批一體主要應用場景,一套程式碼實現多種業務場景,高效分析。

file 企業平臺在支撐上層多種業務應用的過程中,依賴多種計算任務,包含離線和實時,二者獨立執行,業務邏輯相同,但因資料延遲、程式碼語言差異等導致最終結果存在差異,需要額外的人力進行兩套計算引擎的維護,造成大量的成本損耗。

基於數駒平臺的資料儲存管理能力,可以同時支援上層計算引擎批和流的計算能力,幫助企業構建流批一體的數倉平臺,實現一套架構同時滿足流批業務操作,降低學習、使用、維護成本,提高開發效率。

數駒將如何?

數駒作為袋鼠雲今年推出的全新產品,近期有四大規劃:

未來規劃

·湖表管理優化:週期性的清理過期資料、快照,合併壓縮小檔案提升讀取表的效能

·索引加速:通過bloom index、data skipping index、zorder index等一系列索引構建,提升資料湖查詢效能,做到毫秒級響應

· 智慧優化:相同特徵的查詢請求可以直接通過查詢快取和湖表資料變更快速返回結果,做到智慧加速

· 智慧運維:對事件、監控等運維物件深入透視,通過規則、演算法等決策服務及時釋出異常警告、自動進行運維決策

file

作為袋鼠雲全新產品矩陣的排頭兵,數駒將不斷進化,繼續在追求更極致的查詢效率,更快捷的部署運維的道路上砥礪前行,堅持為企業數字化轉型保駕護航。

袋鼠雲開源框架釘釘技術交流群(30537511),歡迎對大資料開源專案有興趣的同學加入交流最新技術資訊,開源專案庫地址:https://github.com/DTStack

「其他文章」