StarRocks開源——攜手未來,星辰大海!

語言: CN / TW / HK

各位大資料從業者:

這是一個 充滿挑戰的時代 資料驅動正在深刻地改變整個世界。 我們的業務資料、資料報表、資料指標越來越多,但我們分析資料的速度卻越來越慢,報表構建的複雜度越來越高。 如何有效地分析這些海量的資料,真正有效地利用資料為業務創造價值? 這是我們都在思考的重要問題。 可能你曾經為此搭建過很多系統,做過很多嘗試,但實際效果不佳。 仔細想一想,你的資料分析架構是否也在面臨以下的難題?

(複雜的企業資料分析架構)

第一,資料分析效能不達標。

隨著資料驅動的深入,業務提出了更多的分析需求,比如多維分析,實時分析,高併發查詢和 Adhoc 查詢。在很多分析需求場景下,當前系統性能表現不佳,無法提供極速分析體驗。

第二,資料分析的靈活性不足。

很多時候,為了能夠提供極速分析體驗,你需要針對各類場景構建大寬表,或者做複雜的預處理,而這損失了分析靈活性。特別是在自助化BI這樣靈活的場景下,星型模型和雪花模型的價值不可替代。現有的系統難以同時高效能支援這些建模手段。

第三,資料架構複雜度太高。

為了滿足業務的多種分析需求,你必須搭建多套系統來組合使用。這讓分析層架構變得非常複雜,導致開發維護成本以及業務使用成本都很高。另外,隨著各類實時分析場景的興起,你需要同時構建離線資料鏈路和實時資料鏈路。但資料同步、資料一致性、計算邏輯同步、異常資料處理、多系統運維等問題馬上就接踵而至。你只能疲於應付。

第四,資料分析能力彈性不足。

你的資料規模越來越大,對應的資料分析系統需要不斷地擴容; 不同的業務線有不同的資料分析訪問量,需要保證每個業務線的SLA; 有的業務還有大促,週年慶等流量高峰,如何保證既能支援好業務,又能節省成本? 相信這些問題沒少讓你頭疼。

產生這些問題的根本原因,是舊的大資料技術架構已經不能滿足當前業務高速發展的需求。在舊的底層架構上進行修修補補只能解決部分問題。要想從根本上破局,就需要一套全新的“極速統一”的資料架構。 “極速”,意味著全面提升資料處理和分析的效能;“統一”意味著將複雜分散的資料架構融合為簡單統一的架構。

為此我們決定把我們的核心產品DorisDB升級為StarRocks,並全面開源(Github搜尋“StarRocks”),和全球大資料從業者一起構建新一代極速統一的資料分析架構!

StarRocks 開創全新的極速統一分析

2020年初,當時還沒有人相信一個企業的資料分析架構可以統一,但我們相信“極速統一分析”一定可以實現。經過團隊近20個月夜以繼日的努力,我們攻克了諸多“不可能”的技術難題,通過自主研發新一代的技術,我們將StarRocks打造成了具有劃時代意義的產品: “新一代極速全場景MPP資料庫”

  • 全新設計的全面向量化 MPP 查詢引擎,同時支援極速的單表和多表查詢效能 。

StarRocks自主打造的新一代全面向量化的MPP引擎使查詢效能大幅提高,是非原生向量化系統(Kylin / Druid / Elasticsearch / Impala-Kudu / Presto / Greenplum)的3~5倍以上。ClickHouse向量化引擎並不支援全面的MPP,多表查詢能力差,StarRocks的多表查詢效能是其3~5倍以上。

  • 全新設計的實時列式儲存引擎,具備極致的實時更新和查詢效能。

在實時更新下,StarRocks查詢效能是其他產品的3~5倍以上。

  • 全新設計的資料分佈模式,具備高併發查詢能力。

其他系統都無法較好支援高併發查詢,StarRocks可以支援每秒上萬次的併發查詢能力。

  • 全新設計的 CBO 優化器,支援極速的秒級 AdHoc 查詢。

StarRocks效能可以做到主流AdHoc查詢系統Presto的5倍以上,可以做到秒級延遲。

  • 全新設計的現代化物化檢視,具備靈活透明的預計算加速能力。

其他產品無法做到非常好的透明化加速,具有較高的開發和管理成本,StarRocks在可以靈活透明加速的現代化物化檢視方面進行了大量創新。

通過這些獨特的技術能力, StarRocks真正實現了極速統一分析

  • StarRocks可以同時高效支援OLAP多維分析、實時資料分析、高併發查詢、AdHoc查詢等多場景,並且比上一代同類型產品的分析能力快3~5倍以上。

  • 全新的OLAP多維分析體驗,打破“只能做大寬表”的侷限性,讓多種資料建模模式:預計算、大寬表、星型模型和雪花模型等都具備極速分析體驗。

  • 全新的實時資料分析體驗,真正支援實時更新和刪除,並能保證極速查詢效能。

  • 全新的高併發查詢體驗,突破傳統OLAP無法高併發的限制,支援數千人同時訪問。

  • 全新極簡統一的OLAP架構,大大降低了使用和運維管理複雜度,提升了開發和使用效率。

產品釋出半年以來,StarRocks快速被50多家市值(或估值)在10億美金以上的大型使用者用於生產環境,有力地支撐了這些使用者的資料分析業務,創造了全新的分析體驗,並且有不少行業頭部公司已經開始用StarRocks實現了統一的OLAP平臺,“不可能”的極速統一分析正在快速變成“現實”!這也是為什麼,阿里雲、騰訊雲、小米、京東、滴滴、貝殼、攜程、小紅書、順豐科技、58同城等行業頭部公司在第一時間加入社群,一起攜手為“極速統一”的新時代夢想而努力。

“極速統一分析”並不是終局,而是新的起點

在當前極速統一的資料分析架構的基礎上,我們的下一個目標是要打造“ 新一代流批融合的極速湖倉(Lakehouse) ”。眾所周知,在當前主流的資料處理鏈路中,實時資料處理和離線資料處理是割裂的。企業要管理好這兩種資料處理場景,往往系統架構複雜、難於維護。而我們要在StarRocks裡實現這兩種資料處理方式的融合。

  • 我們將設計全新實時和離線融合的雲原生架構,可以同時高效管理實時資料和離線資料。

雖然雲原生標杆Snowflake在離線資料場景下打造了先進的儲存計算分離架構,但是這個架構在實時資料分析支援上存在很大不足。我們將設計新一代雲原生架構,同時高效能支援實時資料和離線資料的寫入和讀取。

  • 我們還將設計全新流批融合的向量化計算引擎,可以同時進行極速的批處理和流處理。

通過打造全新的向量化批處理引擎,可以實現比Apache Spark快5~10倍以上的批處理速度。同時完美融合流式語義,利用向量化技術提升流處理效能。使用者無需再忍受使用Spark和Flink分散進行批處理和流處理帶來的複雜性!

“堅持大膽嘗試,實現不可能”是我們一直踐行的價值觀。在未來一年半左右的時間內,我們將和社群一起打造全新的StarRocks。讓企業的離線資料和實時資料可以採用同一套架構、同一種語義、同一個引擎來處理,讓資料架構實現全面的“極速統一”,“讓原本簡單的事情迴歸簡單”!

一個人走得快,一群人走得遠

為了實現這些偉大夢想,我們將在全球範圍內構建StarRocks開源生態,吸引優秀的有志之士一起來參與社群建設。我們將不遺餘力地推動更多的全球使用者加入社群,瞭解和評測StarRocks,使用和改進StarRocks。我們還將推動全球的資料工程師/資料分析師與社群一起,基於StarRocks構建各類資料分析場景的新一代解決方案。

如果你也和我們一樣,心懷夢想,請現在就關注我們,參與社群建設,在Github上給StarRocks加一個星吧。讓我們一起來創造“極速統一”的大資料新時代,向不可能說不!

StarRocks——攜手未來,星辰大海!

掃碼加入StarRocks社群交流群

如希望瞭解更多詳情請關注我們!

聯絡電話: 010-53322390

商務合作:[email protected]