帶你來吃瓜!Andy Pavlo教授帶您一文回顧數據庫的2022年

語言: CN / TW / HK

編輯/翻譯:宇亭

校對:王學姣、李浩

本文是由數據庫界知名專家 Andy Pavlo教授寫的2022年數據庫回顧文章,這個系列從去年開始,非常經典,也比較系統的整理了一下數據庫界的大事件(當然,主要還是以國外的居多),StoneDB團隊對本文進行了翻譯,小編在一些鏈接部分加了註釋,方便大家理解相關內容,更好地瞭解全球的數據庫動態,當然,由於篇幅所限,我們這篇只翻譯前三大節的主要內容,想了解更多,推薦您閲讀原文:

https://ottertune.com/blog/2022-databases-retrospective/

又一年過去了,我還活着。既然如此,那麼我們現在來對過去一年數據庫領域的變化進行回顧和反思是再好不過了。

隨着 DBMS 廠商之間的基準測試之爭逐漸平息,這一年的數據庫領域可以稱得上“安靜”二字了。(小編注:這裏來自 Andy 在去年的回顧文章裏講的數據庫評測大戰,分別是 Databricks vs. Snowflake、Rockset vs. Apache Druid vs. ClickHouse、ClickHouse vs. TimescaleDB,感興趣可以閲讀原文)

前年(2021 年)的回顧文章我寫得很開心,所以我很高興能與你們分享 2022 年裏發生的大事件以及我對它們的看法。


一、大額數據庫融資已經放緩

Big Database Funding Has Slowed Big Time


正如我去年討論的那樣,2021 年是數據庫融資的豐年。隨着投資者繼續尋找下一個 Snowflake,大量資金被投入到建立新的數據庫初創企業中。2022 一開始我們便目睹了多家公司完成大規模融資,似乎 2022 會是 2021 的翻版。這場投資盛宴始於今年 2 月份,Timescale 獲得 1.1 億美元的 C 輪融資,Voltron Data 獲得 1.1 億美元的種子輪+A輪融資,Dbt Labs 獲得 2.22 億美元的 D 輪融資。Starburst 在 3 月份宣佈了 2.5 億美元的 D 輪融資,以擴大其 Trino 產品的規模。5 月份,Imply 給他們的 Druid 商業版募集到了 1 億美元的 D 輪融資。DataStax 在 6 月份的 IPO 中獲得了 1.15 億美元的融資。最後,SingleStore 在 7 月份公佈獲得了 1.16 億美元的 F 輪融資,然後在 10 月份又將該輪融資規模擴大了 3000 萬美元。還有幾家較小的公司在 2022 上半年完成的 A 輪融資也同樣令人印象深刻:包括 Neon 為他們的 Serverless PostgreSQL 籌集到了 3000 萬美元;ReadySet 為他們的查詢緩存層(Query Caching Layer)籌集了 2900 萬美元;Convex 為他們在 PostgreSQL 上構建的應用程序框架籌集了 2600 萬美元;QuestDB 為他們的時序數據庫籌集了 1500 萬美元。我們的 OtterTune 雖然沒有構建新的 DBMS 或相關基礎設施,但在 4 月份也籌集到了自己的 1200 萬美元 A 輪融資。


但到了 2022 年下半年,數據庫行業再無大規模融資發生。儘管有一些早期初創企業籌集到了較小規模的融資,但那些經驗更豐富的公司的融資規模沒有一個達到九位數(美元)。RisingWave 在 10 月份為他們的流處理引擎籌集了 3600 萬美元的 A 輪融資。Keebo 為他們的 Snowflake 查詢加速器籌集了 1050 萬美元的 A 輪融資。在 11月,我們看到了 MotherDuck 宣佈獲得了 4500 萬美元的種子+A 輪融資,用於將 DuckDB 的雲版本商業化,EdgeDB 也在 11 月宣佈了 1500 萬美元的 A 輪融資。最後,由 Morgan Hitchcock 兩兄弟成立的 SurrealDB 獲得了 600 萬美元的種子輪融資。我可能漏掉了其他一些融資信息,但我本來也並沒有打算在這裏做一個詳盡的列表。

小編注:你不做,我來做,哈哈哈哈

除此之外,數據庫領域唯一值得注意的其他金融事件就是 MariaDB 在 12 月災難性的公開發行(通過 SPAC),其股票價格在第一個交易日就下跌了 40%。

與 2021 年相比,造成 2022 年的大規模融資輪數減少的原因有二。最明顯的原因是整個科技行業已經降温,部分原因是對通貨膨脹、利率和加密經濟崩潰的擔憂。另一個原因是,在資金枯竭之前,所有有能力進行大規模融資的公司已經完成了資金的募集。例如,Starburst 在 2021 年籌集了 1 億美元的 C 輪融資後,於 2022 年籌集了 D 輪融資。在過去兩年裏進行了鉅額融資的數據庫公司需要儘快籌集更多資金,以保持增長的勢頭。也有其他人對這些公司獲得的驚人金額發表了評論。


壞消息是,除非科技行業有所改善,大型機構投資者開始再次將資金投入市場,否則這些公司將陷入困境。市場無法維持如此多的數據庫獨立軟件供應商 (ISV)。這些估值 10 億美元的公司繼續發展下去的結局只會是兩個極端:IPO 或是破產。對於大多數公司來説,收購它們的成本太高了(除非風投機構願意大幅削減成本)。此外,進行大型併購的主要科技公司(如亞馬遜、谷歌、微軟)已經有了自己的雲數據庫產品。因此,目前還不清楚誰將收購這些數據庫初創企業。舉個例子,亞馬遜每年可以從 Redshift 身上每年賺數十億美元,它沒有任何必要花 20 億美元(ClickHouse 2021 年的估值)收購 ClickHouse。這個問題並非 OLAP 數據庫公司獨有的,OLTP 數據庫公司很快也將面臨同樣的問題。


我並不是唯一一個對數據庫初創企業的命運做出如此可怕預測的人。Gartner 分析師預測,到 2025 年,50% 的獨立 DBMS 供應商將倒閉。我的觀點肯定不是完全客觀的,但我認為能夠生存下來的公司將是那些致力於改進/增強現有 DBMS 而不是取代它們的公司例如 dbt、ReadySet、Keebo 和 OtterTune)。


我無法評價 SPAC 的“快速上市”模式是好是壞,就像 MariaDB 所做的那樣。這類金融工具超出了我的專業領域(即數據庫)知識範疇。


二、區塊鏈數據庫仍然是一個愚蠢的想法

Blockchain Databases Are Still a Stupid Idea


市場上已經出現了各種各樣的狂熱觀點,宣稱 Web3 將如何徹底改變人們構建新應用的方式。我曾有一個學生衝出了我的課堂,就因為我教的是關係型數據庫而不是 Web3。(小編注:眾所周知,Andy 在 CMU 教授數據庫,沒錯,就是最經典的 CMU 15-445 系列課程,這課每年都在上,就在 2022 Fall 的第一節課上,當 Andy 介紹數據庫的 Data Model 種類時,一位同學站起來問怎麼 PPT 上沒有寫區塊鏈,區塊鏈是未來,比其他的 Data Model 都要好,應該加上,Andy 説區塊鏈不是一個 Data Model,應該算 implementation,再説我這課是教數據庫的,也不是教區塊鏈/Web3 的,兩人激辯一番,最後那位同學説區塊鏈是最 diao 的,你不加上我很遺憾,你擱這兒純純浪費了大家的時間,然後當場衝出了教室,場面一度非常尷尬,這個操作也是令人二丈和尚摸不着頭腦,Web3 的狂熱粉絲在此給 Andy 留下了深刻印象)Web3 運動的核心原則是將狀態存儲在區塊鏈數據庫中。區塊鏈本質上是去中心化的日誌結構數據庫(即賬本),它使用默克爾樹(也稱哈希樹)的一些變體和 BFT 共識協議來維護增量校驗和,以確定安裝到數據庫中的下一個更新。這些增量校驗和是區塊鏈確保數據庫日誌記錄不可變的方式:客户端使用這些校驗和來驗證以前的數據庫更新沒有被篡改。


區塊鏈是對以前一系列想法的巧妙融合。 但是,認為每個人都應該使用去中心化的賬本來構建他們的 OLTP 應用的想法是錯誤的。 (小編注:這裏 Andy 貼了個鏈接,內容是維基百科創始人 Jimmy Wales 在 Twitter 上的聲明:一個加密貨幣的大 V 説讓維基百科通過區塊鏈技術(用於存儲)和加密貨幣(用於激勵)運作,Jimmy 表示強烈反對,他認為數據已經存在數據庫裏了,有數據庫就夠了,區塊鏈技術很好,但可不是這樣用的,至於加密貨幣用於激勵——如果平台支持人們存款,就無法吸引那些真正對主題感興趣而做出貢獻的專家和愛好者,取而代之的是人們相互競爭以獲取金錢利益為目的來創建和編輯內容,這嚴重違反了維基百科的平台願景。當然了,Jimmy 個人其實也一直認為加密貨幣就是泡沫經濟,他多次公開表示不會支持在維基百科平台上使用區塊鏈技術和加密貨幣) 從數據庫的角度來看,除了加密貨幣之外,區塊鏈技術在任何實際用例上都不能提供比現有 DBMS 技術更好的功能。 此外,任何聲稱區塊鏈在數據庫中提供了比現有 DBMS 更好的安全性和可審計性的説法都是錯誤的。

因此,如果加密貨幣是區塊鏈數據庫的最佳案例,那麼實際上當在 2022 年加密市場面臨崩潰時,這個最佳案例也沒提供什麼幫助,反倒是進一步阻礙了區塊鏈數據的未來。在這裏,我將忽略 FTX 的崩潰,因為它看起來是赤裸裸的欺詐,與數據庫沒有任何關係。但是我要指出的是,與所有其他加密交易所一樣,FTX 並沒有在區塊鏈數據庫上運行業務,而是使用的 PostgreSQL。其他與加密貨幣無關的區塊鏈數據庫用例,如交易和遊戲平台,由於它們的不實用性或欺詐而逐漸失敗。

在評估一項技術時要遵循的一個規則是,一旦 IBM 為它做了電視廣吿,它就不再是“新”技術了。這意味着,如果在 IBM 開始宣傳某樣東西時,還沒有令人信服的用例,那麼就永遠不會有。例如,IBM 在 2002 年的一個商業廣吿中吹捧 Linux 是一個熱門的新事物,但那時已經有數以千計的公司將 Linux 作為他們的主要服務器操作系統(包括 Google)。因此,當 IBM 在 2018 年推出區塊鏈商業廣吿時,我知道這項技術不會超越加密貨幣,因為不存在去中心化區塊鏈可以解決而中心化 DBMS 無法解決的問題。IBM 今年宣佈關閉與航運巨頭馬士基(Maersk)合作的供應鏈 IT 基礎設施檢修項目(小編注:這裏引用的新聞標題是 Blockchain Fails to Gain Traction in the Enterprise也就不足為奇了(這也是他們在商業廣吿中大肆宣傳的事情)。


由受信任的機構控制只允許受信任的客户端直接連接精心編寫的事務性 DBMS 相比,區塊鏈的效率低得可怕。除了加密貨幣(見上文)或誘捕之類的非法活動外,幾乎所有現實世界的交互都是以這種方式工作的。我們需要信任他人才能擁有一個正常運轉的社會。例如,我授權託管 OtterTune 網站的公司收取我們的信用卡費用,而他們信任雲提供商託管他們的軟件。這些交易不需要區塊鏈數據庫。


工作量證明(Proof-of-Work, PoW)切換到能耗更低的權益證明(Proof-of-Stake, PoS)共識機制確實提高了區塊鏈數據庫的性能(小編注:這裏 Andy 舉了以太坊的例子:Ethereum switches to proof-of-stake consensus after completing The Merge)。但這隻會影響數據庫的吞吐量,區塊鏈事務延遲仍然以數十秒為單位測量。如果解決長延遲的方法是使用參與者更少的 PoS 區塊鏈,那麼應用程序還不如只使用 PostgreSQL,再對這些參與者進行身份驗證就好了。


大家可以看看 Tim Bray 寫的這篇很棒的文章(小編注:Tim Bray 是前AWS副總裁兼資深工程師,是XML的發明者,不過20年因為不滿亞馬遜疫情期間對待員工的方式憤然辭職,現在回老東家谷歌了,這篇博客主要是講 AWS 高層對區塊鏈的態度),他與AWS高層就區塊鏈是否有可行的落地用例進行了內部討論。請注意,他説 AWS 在2016年就得出結論,區塊鏈數據庫是一個有問題的解決方案,比 IBM 推出他們的商業廣吿早了兩年!儘管 AWS 最終在 2018 年發佈了它的 QLDB 服務,但它與區塊鏈不是一回事。QLDB 是一箇中心化的可驗證賬本,不使用 BFT 共識。客户對 QLDB 的採用並不是很理想,特別是與亞馬遜非常成功的 Aurora 系列產品相比。


附註1:我最近參加了 SFO 會議的一個小組討論(小編注:這裏是指 Andy 在22年10月參加了硅谷著名 VC 機構 Race Capital 組織的年度峯會,值得一提的是,Race曾投資了 FTX種子輪),SBF 也從巴哈馬飛來出席( 小編注:給不混幣圈的同學科普一下,SBF是人名縮寫,即 Sam Bankman-Fried,是 FTX 創始人兼首席執行官,2017 年開始涉足加密貨幣行業,僅用了4年時間累積了上百億美元的加密資產,並躋身福布斯全球富豪榜,不過,就在22年12月,SBF 被美國多個聯邦機構起訴通過 FTX 詐騙)。我當時留下來看了他的演講。當 SBF 上台時,觀眾們欣喜若狂。不過我當時 Slack 上的聊天記錄顯示,我對 SBF 對主持人問題的 “yep” 回答印象並不深刻。


附註2: 在FTX崩潰的三週前,有人向 Dana Van Aken 和我指出,OtterTune 擁有的全職工程師數量與FTX在巴哈馬的團隊相同。這個人吿訴我們,既然我們有相同數量的工程師,OtterTune 應該像 FTX 一樣更敏捷或者積極,現在應該已經有 10 億美元的 ARR 了。嘔吼~

三、值得關注的新數據庫系統

New Database Systems


今年有幾個主要的新數據庫被公佈。

Google AlloyDB

今年的重磅消息是谷歌雲在5月宣佈了新的數據庫服務 AlloyDB(小編注:沒錯,就是那個主打 HTAP 的雲數據庫)。與構建在 Spanner 之上不同,AlloyDB是PostgreSQL的一個修改版本,它分離了計算層和存儲層,並直接在存儲中支持 WAL 記錄處理。


Snowflake Unistore

在6月,Snowflake 宣佈了他們新的 Unistore 引擎(小編注:沒錯,就是那個支持 HTAP 的引擎),它具有“hybrid tables”,以支持低延遲事務的DML操作。當查詢更新表時,更改會同步到 Snowflake 的列式存儲中。SingleStore(前MemSQL) 的一些人有點生氣(小編注:這裏説的是 SingleStore 的總裁Domenic Ravita,可見國外數據庫圈還是蠻喜歡互懟的),嘲諷 Snowflake 在 HTAP 領域只是有一些專利,但沒有任何實際成果。


MySQL Heatwave

在甲骨文意識到亞馬遜從MySQL上賺的錢比他們多之後,他們最終決定在2020年為MySQL建立自己的雲服務。但是他們並沒有做一個RDS的克隆,而是用一個叫 Heatwave 的內存向量化 OLAP 引擎擴展了 MySQL。(小編注:這個和StoneDB正在做的事兒一樣~)去年,Oracle 宣佈他們的 MySQL 服務也支持了自動數據庫優化(小編注:這裏是指MySQL HeatWave加入了ML的功能,實現了 Autopilot),但與 OtterTune 提供的不同。今年,Oracle 終於意識到他們不是領先的雲供應商,開始選擇在 AWS 上提供 MySQL Heatwave 的支持了。


Velox

2020年,Meta 開始為 PrestoDB 構建新的執行引擎 Velox。兩年後,他們宣佈了這個項目,並發表了一篇關於它的 VLDB 論文(小編注:論文為《Velox: Meta's Unified Execution Engine》)。Velox 不是一個完整的 DBMS:它沒有SQL解析器、catalog、優化器或網絡支持。相反,它是一個具有內存池(memory pool)和存儲連接器(storage connectors)的 C++ 可擴展執行引擎。我們可以使用 Velox 來構建一個完整的數據庫管理系統。


InfluxDB IOx

就像 Meta 研發 Velox 一樣,在過去兩年裏,Influx 團隊一直在開發他們的新 IOx 引擎。最終,他們在去年10月宣佈這個新引擎正式發佈 GA 版本。InfluxDB 基於 DataFusion 和 Apache Arrow 從頭構建了 IOx。值得慶幸的是,在我 2017 年警吿過 Influx 的 CTO 使用 MMAP 是一個壞主意之後,他們在新系統中拋棄了 MMAP。

數據庫是我生命中第二重要的東西,所以我很高興看到去年的所有發展。

小編注


我對 AlloyDB 的看法是,它是一個簡潔的系統,包含了大量令人印象深刻的工程設計,但我覺得它並不新奇。AlloyDB 的架構類似於 Amazon Aurora 和 Neon,其中 DBMS 存儲有一個額外的計算層,可以獨立於計算節點處理 WAL 記錄。儘管谷歌雲已經有了一個可靠的數據庫組合(例如 Spanner 和 BigQuery ),但它覺得仍有必要構建 AlloyDB 來追趕亞馬遜和微軟。


值得關注的長期趨勢是 Velox、DataFusion 和 Polars 等框架的激增。再加上 Substrait 這樣的項目,這些查詢執行組件的商業化意味着所有OLAP數據庫在未來五年內將旗鼓相當。與其完全從頭開始構建一個新的數據庫,或者對現有系統進行硬分叉(例如 Firebolt 如何對 Clickhouse 進行分叉),我覺得還不如直接使用像 Velox 這樣的可擴展框架。這意味着每個數據庫都將具有與十年前 Snowflake 所特有的相同的向量化執行能力。由於在雲中,存儲層對每個人都是相同的(例如,Amazon 控制着 EBS/S3), 數據庫產品之間的關鍵區別將是難以量化的東西,如UI/UX和查詢優化。


StoneDB 開源地址:https://github.com/stoneatom/stonedb


StoneDB 社區官網:https://stonedb.io


添加小助手,加入社區交流羣

與數百位資深數據庫從業人員深度交流



StoneDB 數據庫啟航計劃正式開啟!帶你成為 StoneDB Contributor!
哪篇論文宣佈了 HTAP 數據庫的誕生?| StoneDB學術分享會#5
列存引擎 Tianmu 如何實現 Delete?| StoneDB 研發分享 #3
StoneDB 首席架構師李浩:如何選擇一款 HTAP 產品?

本文分享自微信公眾號 - StoneDB(StoneDB2021)。
如有侵權,請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閲讀的你也加入,一起分享。