不談賽道,不聊風口,開源資料庫巨頭Cassandra如何在國內講好“新故事” | C位面對面

語言: CN / TW / HK

嘉賓 |DataStax 大中華區總經理 盧東明

採訪 |極客邦科技創始人  CEO  霍太穩

作者 |李冬梅  

隨著計算機與網路通訊技術的不斷髮展,資料在儲存、計算、組織與管理方面不斷地面臨著新的形勢與挑戰,這也推動著資料庫架構與技術不斷的升級迭代。

從上世紀 50 年代,UNIVAC 商用電腦的打孔式儲存到 IBM 推出關係型資料庫模型理論;從 Oracle 資料庫成立並一家獨大,到雲端計算時代資料庫上雲成為趨勢,資料庫在過去的半個多世紀經歷了數次變革與洗牌。

IT 世界的變化層出不窮,幾十年中,CPU/ 記憶體 / 儲存技術在摩爾定律的催生下天翻地覆地變化著;計算機程式開發語言像時裝潮流一樣,幾年一變;網路協議也演變了很多輪;企業 IT 架構都經歷了 C/S,B/S,雲端計算等 N 代;資料庫這個 IT 領域中核心環節仍然扮演著最重要、最難寫、最難突破、最難改變的角色,也是每一個企業 CIO/CTO 們最重視的軟體卻似乎很獨特地 N 年不變,直到最近的十年……大資料的出現,NoSQL 的流行,改變了關係型資料庫的統治地位,資料庫市場出現了前所未有的“百家爭鳴”局面。僅中國資料庫市場上,就出現了 200 多家“國產資料庫”產品。

那麼推動資料庫變革的根本動力是什麼?面對紛繁複雜的資料庫產品,使用者在資料庫選型時該何去何從?資料庫未來又會如何發展?

本期 C 位面對面,我們有幸邀請到了 DataStax 大中華區總經理盧東明。他在資料庫領域有著近 30 年從業經驗,曾在微軟、Sybase 、SAP、華為等企業任職過技術高管。作為親歷過資料庫領域多次變革與洗牌的“老兵”,他對資料庫技術和產業有哪些觀察?未來他關注的資料庫發展趨勢是什麼?

1 從 Sybase IQ 到 Cassandra,從未離開大資料圈子

2008 年前後,國產資料庫產品線還是門可羅雀,國內市場被 Oracle、IBM、微軟等巨頭牢牢鎖住。商用關係資料庫的市場競爭主要圍繞這幾家大廠展開。

到了 2006 年,Sybase 在全球資料庫市場的市佔率雖然排在甲骨文、IBM 和微軟之後位居第四位,但其當家產品 Adaptive Server Enterprise 僅佔了全球 3.1% 的市場份額,還無法與 Oracle、微軟和 IBM 抗衡。Sybase IQ 雖然也是一款很優秀的資料庫產品,但其知名度遠不如前三大巨頭。Sybase IQ 是特別為資料倉庫設計的關係型資料庫,它的架構與大多數關係型資料庫不同,首要任務是用以支援大量併發使用者的即時查詢,其次是完成批量資料更新的速度。而傳統關係型資料庫引擎的設計側重考慮線上的事務處理。

當時,已經在資料庫行業摸爬滾打了近 20 年的“老兵”盧東明認為,IQ 在國內的發展前景無可限量,於是開始堅定地在國內推廣 IQ 列式資料庫,經過他和同事們的辛勤耕耘、佈道,Sybase IQ 逐漸在中國市場上有了一定的知名度和堅定的合作伙伴生態,支撐著中國農行、國家電網 SG186、中國移動經營分析等重要專案。

盧東明笑言:“在推廣列式資料庫時,基本上全部心思都花在 IQ 上了。當時有個同事跟我提到過有個很棒的資料庫產品叫 Cassandra,是個希臘女神的名字,我當時還質疑,怎麼可能有哪個資料庫比 IQ 還要好。”

作為一名資料庫領域的資深從業者,盧東明有著非常敏銳的技術嗅覺,同事不經意間的一句話,還是在他心中無形中形成了一個最初的線索。

一個機緣巧合下,盧東明瞭解到蘋果公司 iCloud 裡所有使用者 ID 和使用者行為的資料儲存和服務都是由 Cassandra 支撐的,這讓他十分驚訝。因為做了多年大資料專案,特別是對使用者行為分析頗有見地的他對 iCloud 裡的資料體量和結構的複雜程度都是有深度的理解的,他深知能夠被蘋果看上支援全球最大手機廠商的使用者行為記錄的資料庫一定要有點絕活的,那麼 Cassandra 究竟是憑什麼做到的呢?

2 “Cassandra 這麼好,我想讓更多人知道”

在經過了一段時間的調研後,盧東明有了的答案。

隨著谷歌、亞馬遜、阿里巴巴、蘋果和 Facebook 等網際網路新貴們的崛起,網路產生的資料量也呈爆炸式增長。傳統型別資料庫在應付海量,特別是超大規模和高併發 SNS 類的動態網站數量時顯得力不從心,分散式、高可用、去中心化等新型資料庫開始接下這些巨量資料處理需求。

在《Cassandra:The Definitive Guide》這本書裡,對 Cassandra 這樣一個 Apache 頂級專案,有一段概括性的描述定義了 Cassandra。它歸納了 Cassandra 的幾大特性,依次為:開源、分散式、去中心化、可擴充套件性、高可用、容錯性、可配置的一致性、行儲存。

拿分散式的特點來說,Cassandra 是全球最大的一種分散式的資料庫,它的整個架構是去中心化的,其擴充套件沒有所謂的 Master 節點,那也就沒有基於 Master 節點造成的瓶頸問題。此外,由於 Cassandra 的可線性擴充套件特性,只要按需求增加機器,去部署更多的節點,就可以支撐更多的使用者,提供相同的 SLA。

這些分散式、可線性擴充套件等特性很好地支撐 Cassandra 在一朵雲、多朵雲甚至在混合雲上部署,越是部署在一些複雜的混合雲架構裡邊,越能體現出它分散式資料庫的優越性。加之 Cassandra 優秀的讀寫能力能夠支撐大量的使用者的高效讀寫,種種優勢疊加起來使得 Cassandra 在海外使用者中備受讚譽。

比如海外銀行 Capital One、聯邦快遞 FedEx 公司、美國郵局、沃爾瑪、麥當勞等企業都將 Cassandra 作為核心資料庫大量部署在架構中,每年給蘋果帶來 158 億美金收入的 iCloud 也是 Cassandra 在支撐著。從蘋果公開的資料來看,全球 20 萬個節點來跑 Cassandra,其支撐的資料量大概是 100PB。

1PB 有多大?Adfonic 的 CTO Wes Biggs 給出了幾個直觀的計量描述:

假設手機播放 MP3 的編碼速度為平均每分鐘 1MB,而 1 首歌曲的平均時長為 4 分鐘,那麼 1PB 歌曲可以連續播放 2000 年;

如果智慧手機相機拍攝相片的平均大小為 3MB,列印照片的平均大小為 8.5 英寸,那麼總共 1PB 的照片的並排排列長度就達到 48000 英里——大約可以環繞地球 2 周;

支撐 100PB 的資料量,無疑是十分驚人的。

效能如此強大且在低延遲、可擴充套件和低成本等能力上表現同樣優異的 Cassandra 在國內的知名度遠不及國外。究其原因,是因為在國內,Cassandra 的背後缺乏一家能為它提供系統性、專業性支撐的商業公司,也沒有特定的資源來支援社群的發展以及推動使用者層面的認知。也正因為如此,盧東明下定決心要在國內推廣 Cassandra 資料庫,普惠更多開發者和企業。

盧東明稱,Cassandra 雖說目前有海外流行度高於國內的情況,其實國內的使用者已經遍佈各個行業。華為、奇虎 360、滴滴等企業技術底層也都是由 Cassandra 在支撐,真正算得上是為網際網路或雲時代而生的一款核心資料庫。

可以說,盧東明在職業生涯的後半程,抓住了 Cassandra 這個機會,這也是他選擇在這個時間點擔任 DataStax 中國區總經理的一個原因。

3 背靠 DataStax,Cassandra 有什麼不一樣了?

伴隨著業界對於 Cassandra 商業化、產品化的需求不斷高漲,2010 年 4 月,Apache Cassandra 專案主席 Jonathan Ellis 及其同事選擇在美國成立 DataStax 公司,是全球規模最大的 Cassandra 資料庫軟體開發和諮詢公司,已經服務過 600 多家全球巨頭公司,所涉行業更是遍佈金融、電信、證券、物聯網、移動網際網路、交通、物流、支付等領域。

DataStax 公司基於對開原始碼的整理,不斷測試、完善、提高資料管理系統,形成了企業版資料庫產品 DataStax Enterprise(DSE)。那麼,開源版本的 Cassandra 和商業版 DSE 之間的本質區別是什麼?

簡單來講,DSE 版本在開源的 Cassandra 基礎上增加了很多企業級特性。

比如,很多人在做資料的應用時,第一步是先把資料收集上來,第二步是將資料提供給各個使用者、APP 等完成讀寫的服務,第三步要對資料進行長期的積累和分析,這是以前資料倉庫、資料湖針對海量大資料的解決方案。

而在 DSE 版本里,實際上是內嵌了一系列提升效能給工具。比如開源界非常有名的實時分析引擎 Spark 和開源資料流產品 POSA,它們可以幫助 DSE 版本完成針對資料流的處理。因為經過多年的發展,很多資料不再以儲存為目的,而是以出發為目的,以流動為目的,就好比發現一隻股票價格的變化,你的目的不是為了把這個變化存下來,而是要把變化直接變成你交易的一個結果或者是一個交易的基礎。更重要的是,它裡面還內嵌了圖資料庫,幫助使用者完成使用者畫像分析智慧推薦等複雜任務。

DSE 版本也在 Cassandra 基礎上做了很大強度的優化,使得 DSE 的效能比開源版本在效能上有大概一倍多到兩倍的提升。

由於國際安全域性勢的日益複雜化,全球已經有 132 個國家跟地區制定了資料保護和隱私相關的法律法規,最近幾年國內也出臺了《資料安全法》、《個人資訊保護法》等保障使用者資料和隱私安全的法律法規,無論是企業還是個人,對資料安全的重視程度比以往任何時候都要高。為此,DSE 版本中也增加了對資料的加密服務,保證資料不僅要以大規模的方式儲存,更要以安全、加密的方式儲存。

DSE 版本不是一味在開源版本上增加、堆疊套件,而是以一種緊耦合的方式將內巢狀件與 DSE 深度相容,使用者不需要把資料從 Cassandra 搬到 Spark 裡,就可以用 Spark 去訪問 Cassandra 裡面的資料儲存,直接進行資料分析運算,因此,它更像是一個已經組合好的比較完整的資料平臺。

4 在國內市場,講好“新故事”

資料庫近幾年的火熱程度有目共睹。先是資料倉庫 Snowflake 以史上最大軟體 IPO 的 700 億美元上市,接著 PingCAP、巨杉網路等資料庫科創公司接連重新整理融資記錄,傳統大廠阿里、華為等也在市場上高舉高打,推廣自己的資料庫系統。

據中國信通院釋出的《2021 年資料庫發展研究報告》,預計到 2025 年,全球資料庫市場規模將達到 798 億美元,中國的 IT 總支出將佔全球 12.3%。信通院預計,中國資料庫市場在全球的佔比將在 2025 年接近中國 IT 總支出在全球的佔比,中國資料庫總規模將達到 688 億元,市場年複合增長率將是 23.4%。

這是一個競爭十分激烈且機遇滿滿的市場。目前國內約有 200 多個數據庫產品,盧東明感言:“我做資料庫這一行快 30 年了,我就沒有見過如此激烈的一個市場競爭。”

面對這樣一個幾乎一進來就要迅速擠入白熱化競爭中的市場大環境時,盧東明對自己要做的事情充滿信心,信心來自 Cassandra 強大的產品能力及 DataStax 全球的產品研發及支援體系。

盧東明舉了一個蘋果 AirTag 的例子:

一年前,蘋果推出了一個能綁在手機和錢包等隨身物件上的小環——AirTag,它的作用是幫助人們定位尋找到丟失的物件。一旦某個物件綁定了 AirTag,丟失後就可以用你的另外一臺 iOS 裝置去遠端定位它的位置,然後找到它。

AirTag 發射的訊號可以通過全球的 iOS 裝置網路發到 iCloud 上,甚至可以利用任何一臺路過的 iOS 裝置來傳送位置資訊,再通過 iCloud 服務讓主人的 iOS 裝置能定位到它,這個服務從資料層面來看,這是一個很恐怖的挑戰。

如果安卓手機廠商也做一個這類似 AirTag 這樣東西,去提供類似這種服務,資料上的挑戰會是什麼樣的?我們做過一個大概的計算。過去三年,領頭的幾大安卓廠商裝置的保有量大概是十億的體量

這十億的裝置裡如果有 20% 的人打開了定位服務,這些感測器大概一兩分鐘發出一個位置訊號頻率, 每天有 1440 分鐘,一年 365 天,每一個帶加密的位置資訊大致是幾十個位元組。算下來每一天的裸資料量就是

10 億 x 20% x (1440 / 2) x 365 x 64 = 9,216,000,000,000 位元組

即每天 9TB,一年就是 3PB。這還只是裸資料量,如果加上相關的索引 / 備份 / 加工資料等,很可能就是十幾個 PB,這是極其恐怖的一個數據量,你用什麼樣的資料庫來支撐這樣的一個體系,iCloud 做到了,華為的消費者雲做到了,其它的安卓廠商做到了嗎?面臨的挑戰用什麼來解決?

當下,我們所面對的資料呈現出全球分佈的特徵,每分鐘、每秒鐘都會有大量的資訊進來,如果要提供類似 AirTag 的服務,那資料庫的線性擴充套件能力、成本問題將是擺在手機廠商面前的核心挑戰。

除了蘋果外,華為的消費者雲底層使用的也是 Cassandra。Cassandra 支援了約 27 個華為產品,70 多個服務。據華為官網資訊顯示,華為在華為雲上部署的消費者雲的實際節點超過 3 萬個,它的資料量也超過了 20 個 PB,訪問量無疑是非常高的。

更重要的是,它能保證平均約個位數毫秒的超低延遲,在一般的 To C 的業務裡,能做到 100 毫秒內的延遲已實屬不易。

在全球分散式情況下,用一個簡單的資料架構來支撐所有分散式業務,是非常大的挑戰。因此,國內市場需要 Cassandra。

在對 DataStax 的規劃上,盧東明也有自己的一套方法論。他將此歸結為“三駕馬車”:

第一駕馬車是不遺餘力為開源 Cassandra 社群提供支援。目前國內的 Cassandra 開源社群已經建立並開始運營了。社群裡也有了一大批積極、活躍的開發者群體,他們渴望瞭解和學習更多與 Cassandra 相關的技術、知識,甚至還有人專門為 Cassandra 寫一些技術解析的文章。DataStax 進入國內後,可以更好地支援開發者們在社群中與專家交流,為他們答疑解惑,Cassandra 開源社群的落地,讓不瞭解、不會用 Cassandra 的開發者學會使用 Cassandra,這個過程就好像從 0 來到了 1,是盧東明三駕馬車戰略中最重要的第一步。

第二駕馬車是讓 DSE 企業版更好地賦能國內企業數字化轉型。目前國內 Cassandra 使用者使用的多是開源版本,但開源版本在眾多場景下無法很好地支撐特定生產環境以及核心業務,DSE 版本便可以彌補這方面的不足。DSE 版本不僅可以提供更專業、更加定製化的服務,還內嵌了多個實用套件,讓 Cassandra 與企業特定業務更融合。讓 Cassandra 使用者用上更好的企業版 DSE,好像從 1 到 10,是盧東明三駕馬車戰略中重要的第二步。

第三駕馬車是打造以 Cassandra 為基底的完整生態鏈。目前,一些企業使用者會把 Cassandra 部署在某個小專案或生產庫裡,但如何支撐更多的中國企業像蘋果、華為、360 一樣將 Cassandra 大規模地部署到業務中,則需要更多生態合作伙伴參與進來。需要企業級資料架構中的核心元件才能支撐複雜的分散式資料庫的應用。

這“三駕馬車”是盧東明規劃的讓 DataStax 在國內市場落地生根,枝繁葉茂最主要的三件事。

5 寫在最後

近年來,開源生態發展勢頭迅猛,在推動資訊科技產業創新,促進產業協作,加快各行業數字化程序方面發揮日益突出的作用。去年,開源首次寫入國家“十四五”規劃中,開源產業已然成為新的熱門領域。

開源軟體和開源社群一個最核心的特點是它能夠源源不斷地進行創新。因為它是一個完全開放的社群,可以把各方面的創新力量都匯聚起來,基於開源社群生長起來的軟體針對各國家和地區的適配性都比閉源軟體更有優越性。Cassandra 作為一款開源軟體,它也將一直以開源、開放的態度擁抱所有開發者。

盧東明強調,無論現在的產業大環境是雲原生、分散式還是開源,DataStax 都已經做好了全面的佈局,而且從 DataStax 總部角度來講,過去幾年也已經對國內市場做過冷靜和客觀的分析,在全球數字化轉型的大方向裡,國內市場絕對是不可缺少、不可忽視的一個市場,DataStax 全球業務副總裁 Harry Ault 表示:”我們進中國的決心是長期的,DataStax 也將在未來幾年、十幾年中深扎國內市場,為更多企業和開發者把技術困難解決好。

欲瞭解更多關於 Cassandra 資料庫及 DataStax 的資訊,請訪問下方連結或掃碼二維碼關注 DataStax 公眾號,共同交流。

DataStax Customer reference: https://www.datastax.com/enterprise-success

Casandra case study: https://cassandra.apache.org/_/case-studies.html

Bilibili 專區: https://space.bilibili.com/588274562

今日好文推薦

網際網路時代,人才迭代速度加快,工作越來越不好找,頭也越來越禿。在這個內卷的時代不用你東奔西走的找工作,咱們給你提供“一站式躺平服務”!InfoQ 寫作社群聯合拉勾招聘為你精選北上廣網際網路大廠崗位,涵蓋研發、產品、運營等崗位,提供專業就業輔導,有興趣就點選 閱讀原文 ,竭誠為你服務!

點個在看少個 bug   :point_down: