華為雲蘇光牛:未來分散式資料庫憑事務+儲存破局,HTAP是特性但非萬能丨新創訪談

語言: CN / TW / HK

承載著業務快速發展與資料體量激增的重壓,資料庫在可用性、擴充套件性、相容性、穩定性等核心能力上被投注了越來越多的訴求與期望,面對這些由時代賦予資料庫廠商和企業使用者的新命題,解法顯然不止一種,但思路卻終歸一致——順勢而為,應變而變。由此,近年來,我們看到了分散式架構帶來的降本增效、雲原生技術帶來的彈性便捷,還看到了國產資料庫從外圍到核心業務系統應用的漸入佳境。這些看得見的變化僅僅只是開端,那些還未企及的變革,我們或許能從華為雲資料庫服務總經理蘇光牛的本次專訪中得到啟發。

專訪過程中,蘇光牛多次表現出對國產資料庫核心技術、使用者適配度的信心和肯定,但他同時也指出,展望未來發展,一款真正的企業級分散式資料庫,必定要在分散式事務和分散式儲存上取得更大的改進和突破,才能從根本上解決使用者的核心需求。此外,在國產資料庫後續的大浪淘沙中,生態建設及人才培養將是制勝關鍵,需要持之以恆的投入。

而對於企業使用者如何應對海量資料挑戰,進行資料庫改造和國產化替代,蘇光牛一語中的,指出大多數企業的擔憂並不在於資料庫本身,而在於“變化”,擔憂作出變化後帶來不可預測和不可控制的風險。他建議企業拋開傳統思想,用辯證的思維綜合衡量規模、成本、效率、安全、運維難度等問題,致力於將更多精力集中在應用和業務當中。

以下內容整理自dbaplus社群聯合發起人、新炬網路董事/副總經理程永新與華為雲資料庫服務總經理蘇光牛的獨家對話,希望能同時給到國產資料庫廠商和企業使用者更具體、更詳實、更適用的資料庫應用策略與發展建議。

新 創 訪 談

受訪嘉賓: 蘇光牛 (上圖左二),華為雲資料庫服務總經理,負責華為雲資料庫業務的戰略制定與發展,負責華為雲資料庫服務產品與解決方案的研發、運營和運維等。在資料庫領域、IT基礎設施、虛擬化和底層軟體具備豐富的開發經驗和團隊管理經驗,長期負責華為公司IT基礎設施的研究與開發、虛擬化、資料庫等解決方案的交付

採訪者: 程永新 (上圖左三),dbaplus社群聯合發起人,新炬網路董事/副總經理,擁有超過20年IT行業管理經驗,計算機本科、工商管理碩士及EMBA。

何為真正面向未來的分散式資料庫

分散式事務+分散式儲存齊頭並進,

HTAP是趨勢但並非萬能

程永新: 作為一種新興技術產品, 分散式資料庫 的成熟度還有待提升,很多人依然保持觀望態度,尤其是應用於核心系統,對此您有什麼建議?

蘇光牛: 從技術角度以及企業發展來看 ,隨著業務的快速發展和資料量的爆發式增長,傳統資料庫在容量、擴充套件性、可用性等方面都遇到了巨大的挑戰,只有分散式才能解決這些問題,才能滿足企業的核心需求。所以在技術層面,分散式資料庫是大勢所趨,是未來。

從產品創新的角度來看 ,傳統資料庫以Oracle為代表,在集中式架構上已經做得非常成熟和完善,而基於企業客戶當前的真實需求,分散式架構正是時代給予資料庫產品的新命題。

從商業落地的現狀來看 ,業界要對分散式資料庫有信心,要給分散式資料庫更多機會。以華為雲GaussDB為例,當前已經在1500+政企客戶規模商用,其中包括對資料庫產品綜合能力要求最為嚴苛的金融行業,GaussDB已經在國有6大行中的4家商用,並且應用在其核心業務系統中。經歷更多核心業務系統的打磨,產品能力也將進一步得以完善成熟。

程永新: 分散式資料庫目前有多種技術路線在同步發展,不同人口中的“分散式資料庫”可能代表不同的技術棧,主要被歸納為分散式中介軟體、分散式事務、分散式儲存這三大類。您認為未來的趨勢是這種多樣化持續發展,還是會最終統一為一種形態?或者說怎麼才是真正的分散式資料庫架構?

蘇光牛: 分散式中介軟體是介於上層應用和資料庫之間的一層架構,或者說更貼近於應用層。實際上,分散式中介軟體會造成應用複雜度的提升,而通過底層資料庫來實現分散式,應用開發者只需要關注資料庫提供的API和開放能力,降低了應用的複雜度,企業可以將更多資源投入到應用以及業務本身。

我們認為真正的分散式資料庫應該是分散式事務與分散式儲存的深度融合,這是分散式資料庫的典型特徵。 首先,分散式事務最大的特點就是解決效能問題,分散式資料庫要確保高可用必須在分散式事務上進行更多的改進;其次,分散式儲存也要重點突破,要做到在儲存上具備一定的計算能力,讓儲存去理解一定的資料結構。

華為雲GaussDB在分散式事務以及分散式儲存層面做了大量優化和創新,在分散式事務層面提升效能和資料一致性;在儲存層面充分利用儲存的計算能力,創新性地推出了近儲存資料處理(NDP, Near Data Processing),並結合並行處理(PQ, Parallel Processing),進一步提升了分散式資料庫效能。

程永新: 不少企業在經歷了資料庫拆分後,隨著對資料一致性和實時性要求的進一步提高,發現對資料庫整合的需求越來越強烈,最終又想回到集中式架構的懷抱。您認為企業該如何避免盲目跟風為了拆而拆,重新審視資料庫架構選型的合理性?

蘇光牛: 相比較集中式資料庫,分散式資料庫的擴充套件性、可靠性、可用性以及災備能力的增強,可以給企業的運維以及系統設計帶來更大的彈性。但 這不意味著一個分散式資料庫就可以滿足企業的所有訴求 ,而是要從業務、安全、容災、效能以及運維角度出發,綜合考量,選擇適合自身業務和應用場景的資料庫,設計合適的資料庫架構,不能為了拆而拆。

程永新: 說到合還是分這個話題,不得不提到近年來許多國內外資料庫廠商都在聚焦的HTAP,您如何看待這種可同時支援OLTP和OLAP的混合負載能力?會是未來資料庫主流發展方向嗎?

蘇光牛: HTAP是未來資料庫發展的一個方向,一個數據庫同時滿足企業對OLTP和OLAP的訴求,保證了查詢和分析結果的實時性,更好地支援業務決策的實時性和敏捷性,但是 需要注意以下三點:

  • 分散式資料庫是實現HTAP的最佳方案;

  • HTAP有一定的適用範圍,是在TP的基礎上增強了其AP能力,支援對查詢分析有時效性訴求的業務場景。另外,一個數據庫不可能儲存企業所有的資料;

  • 從企業的業務角度出發,複雜決策需要匯聚不同來源、不同型別的資料在一個集中點,需要通過專業的資料倉庫、資料湖或者湖倉一體的方案來構建專業的資料分析系統。

資料庫遷移的風險防控與選型建議

相容Oracle是個移動靶,

還容易把自身產品做成“四不像”

程永新: 更換資料庫存在不少挑戰,一是新產品、新架構帶來的風險,二是遷移改造中的不確定性,三是產品本身在穩定性上潛在的問題。應對這些情況,有沒有較為穩妥的遷移方式?

蘇光牛: 資料庫是底層軟體,上面是應用和中介軟體,下面是作業系統和硬體,所以資料庫尤其是異構資料庫的替換是一個非常複雜的系統性工程,在替換過程中會遇到各種各樣的問題,這些問題的解決不是靠某個工具或某個人就能搞定的, 比較穩妥的方式是把整個遷移過程細化、分解,針對每個階段都制定詳細的方案並做好驗證,能工具化的一定要工具化 ,因為工具出錯的概率比人要低很多,不能工具化的一定要找對應的專家來解決,過程中做好風險管理,及時閉環。

為了幫助客戶遷移,我們提供了多種工具,比如:

  • 資料庫遷移工具UGO,實現異構資料庫物件和應用遷移,語法的轉化率達到90%以上;提供14類核心物件的採集,是當前業界最全的物件採集工具;

  • 資料線上遷移工具DRS,能幫助客戶實現資料的線上遷移、資料校驗;

  • 流量回放工具,可實現對源端業務流量抓取,然後在目標端進行回放能力,確保遷移後業務的穩定性和效能。

程永新: 在不少“去O”專案中,為了儘量減少遷移工作,會選擇相容Oracle語法、甚至儲存過程的產品。此類產品確實減少了遷移工作量,但從長遠角度來看會是一個很好的選擇嗎?

蘇光牛: 的確,現在有很多資料庫廠商為了減少遷移工作量,主動或被動選擇了相容Oracle這個策略,但顯然這不是最好的選擇。首先, 相容Oracle是一個移動靶,永遠不可能做到100%相容 ,因為Oracle本身也在演進;其次, 做Oracle相容很容易把自己的產品做成一個“四不像” ,今天相容Oracle,明天就有可能相容DB2或SQL Server,這麼做反而會犧牲掉自身產品原生設計的優勢;另外, Oracle相容也可能存在法律風險 ,尤其是相容Oracle特有的語法,要慎重。

程永新: 站在使用者的角度看,目前各分散式資料庫廠商在產品技術實現上存在較大差異,並且沒有通用的使用標準,您有什麼選型建議?

蘇光牛: 我認為在產品選型時應該考慮以下幾個方面:

  • 廠商層面: 產品是否是長期戰略投入以及具備規模商用能力,是否有完整的產業生態、未來人才儲備,確保廠商有能力長期服務客戶並保證市場人才供給;

  • 技術層面: 產品的成熟度如何,是否經過核心商業系統對高可靠性、高可用性、安全性的打磨和考驗,是否有規模應用案例;

  • 外圍工具: 是否提供資料遷移、容災備份,以及完善的管理監控工具來幫助客戶更好地使用和管理資料庫;

  • 生態開放: 資料庫能力開放,客戶不被封閉生態所繫結。

雲化及國產化的勢在必行

擁抱雲架構,藉助國產資料庫優勢,

應變而變才能乘勢而上

程永新: 資料庫上雲是大勢所趨,但鑑於中國國情等特殊原因,金融、電信、政務等行業的資料不可能完全搬到公有云上,混合雲將成為中國企業用雲的主流模式。然而由於不同的雲資源壁壘難以打通,各業務系統架構也缺乏規模效應,會使混合雲運維與運營更加複雜,穩定性、資料一致性等問題得不到保障,可有較好的解決方法?

蘇光牛: 資料庫上雲已經是業界共識,即使客戶因為特殊原因無法將業務部署到公有云,最終也會採用混合雲或者雲化架構。 如今,我們面臨的是愈加龐大的IT系統場景,如果企業沒能及時轉變到雲架構的設計思路,依然用傳統思維去建設和應對大規模複雜IT系統,當遇到機器故障時就很容易釀成事故。混合雲或雲架構的彈性和易用性給企業運維帶來的好處是顯而易見的,但既然選擇這種特殊方式,就免不了要接受一定的運維成本,但相對於企業自行搭建一套負載均衡等平臺,無論是從人員成本、運維成本還是使用難度來說,整體下來其實都比用公有云要高。

為了滿足不同的客戶訴求,華為雲資料庫以公有云和華為雲Stack形式提供服務,客戶可以選擇適合業務模式的部署形式;而且雲上雲下版本、技術棧、API保持一致,客戶可以在合適的時間在混合雲和公有云之間遷移。

程永新: 圈子裡不乏這樣一些聲音,說目前市面上不少國產資料庫都是由MySQL和PostgreSQL魔改而來的,倒不如直接用MySQL或PostgreSQL。對此您有什麼看法?

蘇光牛: 這是一個產品應用場景的問題,開源資料庫產品和自研產品針對的應用場景和客戶訴求是不同的。 直接使用開源資料庫產品,要求企業自身具備一定的人才儲備和技術能力,熟悉產品的使用場景和技術細節 ,可以在產品出現問題而社群沒有修復的情況下,有能力解決問題。

開源資料庫對於初創期的資料庫廠商來說,的確是一個很好的範本和參考物件,但要作為一款企業級資料庫推出市面,真正滿足企業實際需求,其實需要做很多非功能性的屬性,包括效能、可安裝、可用性、易用性、安全性等,這些非功能性需求對資料庫來說佔比非常高,但開源產品是不具備的。

在華為雲上,我們提供了不同的資料庫服務來滿足不同應用場景的客戶訴求:

  • 華為雲RDS for MySQL、RDS for PostgreSQL、DDS文件資料庫服務(文件型別Mongo),基於開源打造的資料庫服務,主要面向資料規模較小、對效能要求不高的業務場景,提供極致價效比的解決方案。

  • 華為GaussDB系列,立足創新與自研,一方面擁抱併兼容MySQL等生態,另一方面打造開放的openGauss生態,主要面向政企客戶,滿足對高效能、高可靠、高安全以及服務能力等方面的訴求。 

程永新: 如今,資料庫國產化替代已不再停留於能不能的問題,而是對誰能交付得更快、投入成本更少、安全性更高的考量。您認為目前國產資料庫與Oracle為代表的國外商用資料庫還存在哪些差距?接下來國產資料庫該如何在技術、生態等層面消除使用者的後顧之憂?

蘇光牛: 首先,以Oracle為代表的傳統資料庫產品,經過多年發展和積累,產品能力完善,生態成熟。與之相比,目前國產資料庫在特性上仍然存在不少差距,但在實際的企業使用中,已經足夠滿足包括介面上、資料遷移上、應用改造上等大多數需求。而且隨著業務的增長,企業對資料庫的可用性、可靠性、效能以及擴充套件性提出了新的要求,傳統資料庫已經無法滿足,而 雲原生、分散式,則更適合企業當下及未來對資料庫的訴求 ,這也是以GaussDB為代表的國產資料庫的優勢所在。

在技術層面,其實國產資料庫的效能已不是問題,當然也不能盲目追求效能數字,很多特殊的優化手段在實際應用中根本無法使用,多數企業更多的擔憂其實在於變化,擔心變化後帶來不可預測和不可控制的風險。所以正如我前面所說,業界要給國產資料庫更多信心和機會,只有經歷過核心系統的不斷打磨,才能促進產品技術能力的進一步成熟。在生態層面,以GaussDB為例,我們通過產學研用全面結合,為業界培養未來資料庫人才,同時為開發者提供全方位的資源支援,上線GaussDB從初級到專家的培訓認證,以及與合作伙伴聯合開發解決方案,從全產業鏈打造生態,確保為使用者提供可靠的、持續的服務和支援。

以開源打造資料庫根技術

開源需要持之以恆的投入,

國產資料庫亟需人才的培養

程永新: 開源是近年資料庫領域非常火的一個詞,2020年華為就開源了openGauss,對於這種投入巨大且短期內較難收益的舉措,你們是出於怎樣的考量要和開發者、夥伴一起共建openGauss開源社群?

蘇光牛: 華為一直積極參與開源社群,是多個全球頂級開源專案的重要成員,在開源領域貢獻排名國內公司第一。

說到資料庫,華為在2001年就開始做資料庫,當時是為了滿足運營商業務需求,做的是一個記憶體資料庫。從2011年開始戰略投入,薈聚全球7大研究所、1000多名資料庫專業人才,結合華為軟硬全棧協同方面的優勢,先滿足華為自身極度複雜業務場景的需求。

在當前的大環境下,中國需要發展自己的資料庫根技術。基於華為多年參與、支援開源社群的積累, 我們將GaussDB單機主備能力開源,與合作伙伴、客戶、開發者共建、共享、共治openGauss開源社群,共同促進國內資料庫行業的快速發展,打造資料庫根技術。

程永新: 在開源至今一年多的時間裡,開源給你們帶來了什麼?

蘇光牛: 資料庫是一個生態型的產品,只有把生態做起來,才能形成共贏的局面。 從2020年6月開源到現在,openGauss社群吸引了2500多開發者、30000多使用者、20個興趣小組、6個城市使用者組,12家合作伙伴基於openGauss釋出了自有品牌資料庫,100家頭部企業加入社群,我們看到了一個蓬勃發展、越來越活躍的openGauss開源社群。

程永新: 您如何看待國產資料庫相繼開源的熱潮及未來發展?

蘇光牛: 開源將會促進國產資料庫的快速發展,對整個資料庫行業以及資料庫從業者都是有利的。但是 開源需要真正的開源,不是簡單的開放程式碼,而是需要長期的、大量的人員和資源投入,與業界共建社群、不斷改進產品 。長遠來看,只有像華為這樣將開源當作業務來做的才得以促進開源的持續發展,獲得生態的成功。

縱觀當下國產資料庫百花齊發的態勢,未來要想真正將資料庫產品做大做強,我認為核心在於人才。因為資料庫是一個對工程化要求特別高的東西,對程式碼精細化程度有非常高的標準,如何把成熟的理論在程式碼層面實現出來,既滿足高可用,又滿足高效能,還要滿足資料一致性等基本要求,並不是一件簡單的事情。所以 國產資料庫想保持向上的勢頭,未來發展必須注重資料庫核心人才的引入和培養。