Teradata在華落幕,國產化崛起,袋鼠雲數棧會是更好的選擇嗎?

語言: CN / TW / HK

2月15日,數倉軟體巨頭Teradata宣佈根據其對中國當前和未來商業環境的慎重評估,將逐步結束在中國的直接運營,後續進入中國公司的關閉程式。

一石激起千層浪,這一訊息,在國內的To B市場引起了廣泛關注。Teradata這家進入中國市場26年,為國內數倉發展帶來重要啟蒙,奠定資料服務人才基礎,被業界稱之為 “數倉人才黃埔軍校”的資料軟體巨頭如今在華落幕,令人感嘆。

近些年來,國產大資料基礎建設百花齊放、發展蓬勃,中國軟體企業在信創產業政策的助攻下,迎來了發展的黃金期,技術和產品能力快速提升,憑藉自主可控、創新安全等優勢,已經逐步實現對Teradata等國外主流軟體的成功替換。

其中包括以Hadoop體系為主的CDH、星環,袋鼠雲等公司,以國產化資料庫為主的阿里雲ADB、華為GussDB、南大通用GBase等資料庫廠商,都紛紛在國產化領域交出了不錯的成績單。

袋鼠雲從2016年開始一直深耕於大資料領域,以卓越的技術能力服務3000+客戶,涉及行業解決方案、大資料產品、數倉交建模交付、資料分析等多個領域。在產品和國際同行之間差距不斷縮小的同時,這次Teradata的離開,我們也在思考在這塊市場上袋鼠雲可以為客戶提供什麼樣的服務。

Teradata無縫遷移至數棧-EasyMR

Teradata是一個MPP資料庫,採用share nothing架構,每個節點擁有自己的資源,如CPU、記憶體、磁碟等,每個APM管理自己的資料協同工作,通過BYNET進行網路互聯。在業務場景上,主要應用於資料建模與分析。

file

該類資料庫SQL相容性好,支援事物處理、PB級別結構化資料處理速度快,但叢集規模調整要求多,增加節點麻煩,單節點緩慢會拖累整體效能,在大資料量的處理任務上,有支援能力嚴重不足的問題。

如果客戶資料量大,儲存和計算成本較高,建議採用Hadoop大資料計算引擎生態,其相容能力強、擴充套件性高,基於HDFS進行結構化、非結構化資料儲存,Spark、Flink、Trino多類計算引擎可以滿足不同分析場景。

袋鼠雲數棧自研的大資料基礎平臺「EasyMR」,是基於Hadoop、Hive、Spark、Flink、HBase、Kafka、Trino等開源元件,構建的彈性計算引擎,提供安全可靠、彈性伸縮、低成本的大資料儲存與計算服務。

於2017年投入商業化使用以來,交付過500+商業化客戶,覆蓋金融、政務、製造、教育等多個行業,期間開源ChunJun、Taier、ChengYing等專案,貢獻給開源社群。並於2022年推出EasyMR資料湖版本,在業務場景驅動下,不斷完善技術體系,服務大資料市場。

file

EasyMR可提供的場景解決方案

· ChunJun資料同步外掛:雙向異構資料來源、批流一體的資料同步外掛,實現業務資料庫向大資料數倉的資料同步,可進行資料整庫同步、批同步、實時同步;

· Spark+Hive:分散式離線資料倉庫建設,進行資料批處理;

· Spark+Hive+Iceberg/Hudi:離線數倉批處理+資料即時更新;

· Kafka+Flink:實時資料倉庫建設;

· Flink+Kafka+Iceberg/Hudi:批流一體化;

· Trino+Hive:OLAP引擎進行億級資料關聯的秒級查詢;

· ClickHouse:OLAP引擎進行寬表的毫秒級查詢;

· HBase:大資料量儲存,高併發快速查詢。

Teradata資料庫遷移至EasyMR,數棧可提供的服務

· 歷史資料的整庫遷移;

· Teradata SQL任務的平滑遷移。

袋鼠雲大資料基礎平臺「EasyMR」秉承“信創、開源、輕量、專業”的理念提供安全可靠的大資料儲存與計算服務,為企業數字化轉型提供基石。

數棧相容Teradata Vantage資料分析

Teradata Vantage 是一個雲端計算資料分析平臺,提供資料匯聚與建模、資料服務與分析、機器學習建模等能力,同時預置行業資料模型,如FS-LDM涵蓋銀行、證券、保險的10大主題模型,為客戶提供資料分析服務。

袋鼠雲數棧提供一站式大資料開發與治理資料智慧分析與洞察機器與深度學習建模等產品化應用,涵蓋離線開發、實時開發、資料資產、資料服務、指標管理分析、客戶資料洞察等平臺。

提供大資料匯聚、數倉建模、資料治理、資料服務、資料分析的全生命週期能力,並基於Dataops理念構建資料生產流程,加快資料分析鏈路,為企業資料治理提供易用、穩定的資料平臺,達到降本增效的目的。

file file

袋鼠雲數棧產品矩陣

· 離線開發平臺BatchWorks:一站式大資料批處理平臺,涵蓋全鏈路資料整合、資料開發、任務運維、監控告警等功能,具備靈活的多叢集、多引擎對接能力,加速釋放資料價值;

· 實時開發平臺Streamworks:基於Apache Flink 構建的雲原生一站式大資料實時平臺,覆蓋從實時資料採集到實時資料開發全鏈路流程,提供亞秒級的資料計算處理;

· 資料資產平臺DataAssets:採集全量資產資料,打通資料關係網路,實現資料的標準化和資產化管理,提供全域資料治理能力;

· 資料服務平臺EasyAPI:視覺化生成與註冊 API 的資料服務管理平臺,快速構建 OneService 資料共享服務;

· 指標管理分析平臺EasyIndex:通過指標的規範化定義、標準化開發,搭建企業資料指標體系與自助取數服務,實現指標資料的可視、可用、可管;

· 客戶資料洞察平臺DataTag:通過標籤萃取、標籤管理、標籤圈群、群組分析、全面畫像,構建以業務價值為導向的標籤體系和多樣化群組,應用於企業智慧化運營與營銷

· 資料湖平臺EasyLake:提供面向湖倉一體的資料湖管理分析服務,基於統一的元資料抽象構建一致性的資料訪問,提供海量資料的儲存管理和實時分析處理能力,幫助企業快速構建湖倉一體化平臺。

同時,數棧基於在金融、政府、製造、教育等各個行業的客戶場景沉澱,產品內建多種行業的資料標準、數倉模型、指標體系、標籤體系,為企業資料建設提供參考與賦能,以及提供全國性、本地化的行業諮詢與資料交付實施服務。下面簡單舉幾個例子:

● 資料標準行業模板

file

● 指標體系行業模版

file

● 標籤體系行業模版

file file

不止於此,數棧提供全生命週期的資料建模與服務能力,並預置多種行業模型,為企業數字化轉型提供框架與動能。

國產信創,數棧在路上

2月22日,總書記在政治局集體學習會議上強調:“要打好科技儀器裝置、作業系統和基礎軟體國產化攻堅戰,提升國產化替代水平和應用規模,爭取早日實現用我國自主的研究平臺、儀器裝置來解決重大基礎研究問題。“

近些年來,在國家政策指導下,企業數字化基礎設施逐步國產化。袋鼠雲作為國內領先的數字化技術與服務提供商,始終堅持自主研發和國產化路線,高度重視技術創新,公司研發費用逐年提升,研發費用佔比高達20%以上,高於行業研發投入的平均水平。

目前,袋鼠雲已與麒麟軟體、中科方德、浪潮雲、華為雲、阿里雲、瀚高、龍芯科技、中興通訊等16家國內主流作業系統、伺服器、資料庫、晶片廠商完成產品相容性互認證。這大大提升了袋鼠雲旗下產品在國內企業應用環境中的相容性和擴充套件性,在軟硬體層面全面相容X86、ARM、MIPS架構體系,支援市面所有公有云、私有云、混合雲廠商平臺,支援CDH、TDH、Libra、Fushionlnsight等儲存引擎。

未來,袋鼠雲將繼續秉承“讓資料創造價值”的使命,在大資料道路上持續深耕,為企業的數字化轉型貢獻自己的一份力量。 想了解或諮詢更多有關袋鼠雲大資料產品、行業解決方案、客戶案例的朋友,瀏覽袋鼠雲官網:http://www.dtstack.com/?src=szkyzg

同時,歡迎對大資料開源專案有興趣的同學加入「袋鼠雲開源框架釘釘技術qun」,交流最新開源技術資訊,qun號碼:30537511,專案地址:http://github.com/DTStack