挖掘非結構化數據潛能——向量數據庫的探索之路

語言: CN / TW / HK

IDC 預測,到 2025 年,中國的數據量將增長到 48.6ZB80% 是非結構化數據,並且將成為全球最大的數據圈。在我們的日常生活中,非結構化數據的查詢使用場景也越來越多見,比如以圖搜圖、視頻搜索等等。

隨着非結構化數據應用的增加,此類數據的處理分析需求也在隨之增加,而現有的數據庫產品絕大多數都是面向結構化數據的處理,非結構化數據處理工具寥寥。基於此現狀,Zilliz 2019 年開源了向量數據庫 Miivus,專注非結構化數據的處理。

9 15 日,Zilliz 合夥人和技術總監、LF AI&DATA 基金會技術諮詢委員會成員欒小凡以挖掘非結構化數據潛能——向量數據庫的探索之路為主題,全面介紹了非結構化數據處理與向量數據庫技術發展概況,以及 Zilliz 在數據庫技術雲服務上的探索。

此外,9 24 Zilliz 還將舉辦2022 非結構化數據大會,深度解讀非結構化數據處理技術。

以下正文部分為挖掘非結構化數據潛能——向量數據庫的探索之路主題直播回顧。

欒小凡

欒小凡是 Zilliz 合夥人和技術總監,同時是 LF AI & Data 基金會技術諮詢委員會成員。在加入 Zilliz 前,他在阿里雲擔任研發經理,負責 NoSQL 數據庫 Lindorm 的研發工作。此前,他曾先後在美國甲骨文公司和軟件定義存儲公司 Hedvig 擔任軟件工程師。欒小凡擁有康奈爾大學計算機工程碩士學位。

非結構化數據與向量數據庫

OSCHINA:非結構化數據的格式和標準非常多樣,而且在技術上它會比結構化信息更難以標準化和理解,目前非結構化數據的技術發展情況大概是怎樣的?

欒小凡:

我是做傳統數據庫出身的,非結構化數據對我來説,也是一個非常新的一個領域。

傳統的數據庫,無論是 OLTPOLAP 數據庫,還是 NoSQL 數據庫,主要面向的是一些結構化的數據,比如説像 stringint 等數值類型的。非架構化數據會更加多樣化,比如生活中常見的圖片、視頻,或者是推薦系統中的用户信息、商品信息,都被歸到非結構化數據範疇中。其實非結構化數據的體量在整個業界的規模是更大的,而且增長數獨也很快。

據調查報告顯示,到 2025 年,80% 以上的數據都會是非結構化數據。但傳統的數據庫沒辦法很好地去處理這種非結構化數據。所以其實我們在做大數據轉型的過程中,發現很多非結構化數據的價值被浪費了。因此我們現在的核心在於關注這個領域怎麼能利用 AI 和數據庫的技術,去賦能非結構化數據處理,幫助大家更好地去挖掘各種各樣的非結構化數據的核心價值。

那麼現在比較主流的非結構化數據處理方式,基本上都是通過一些深度學習的模型實現。因為非結構化數據本身的種類非常多,可能沒有辦法很容易地通過某一種規則去處理。傳統的結構化數據,通過排序或者聚合可以去做一些比較好的處理,它的算子方式相對來講比較統一。但非結構化數據由於種類很多,所以我們希望先把它統一成一種機器能夠理解、能夠處理的結構。那麼目前比較主流的方式,其實是通過一些深度學習的模型,把數據生成向量 embedding,然後再去做一些近鄰的匹配,那麼在高緯空間底下,如果這個向量的距離是相似的,我們就認為它代表非結構化數據的一些相似性。

舉個簡單的例子,我想做圖片搜索或者以圖搜圖,就可以把圖片經過深度學習模型轉化成一個向量。然後在高緯的向量空間裏,找到一些近似的向量。那麼這些近似的向量背後代表的那些圖片,可能就跟原始的想要查詢的圖片比較相似。

至於怎麼定義這個事情,很大程度上取決於你的深度學習模型,包括訓練的時候帶有哪些特徵等等。比如在做人臉識別的時候,可能會在訓練的時候特意給出一組相似的人臉樣本,和一組不相似的人臉樣本;或者在做物體識別的時候,給到的圖片分類裏還包括其他生物的圖,通過這種方式,把這個問題轉換成模型問題。

OSCHINA:向量數據庫作為挖掘非結構化數據的有效方法,在實踐中突破了哪些關鍵技術,遇到了哪些難點,目前發展的現狀大概是怎樣的?

欒小凡:

剛才的回答裏也提到,我們定義非結構化數據,最終需要把各種類型的數據轉換成機器更容易理解的一個形態,這個形態就是我們所説的向量。

向量數據庫其實就像傳統數據去處理一些關係型數據、結構化數據一樣,承擔的是非結構化數據的低成本存儲和高性能計算兩大核心能力。

就向量數據庫來講,我們認為它要具備三個特性:第一個就是它需要具備高維度的數據處理能力,這和傳統的數據庫有很大的區別,傳統數據庫去處理一些 string 或者字符、數值類型的時候,它的數據的維度往往是一維的。

近年來也出現了一些類似於時空數據庫,開始去處理二維或者三維的數據。但總的來講,傳統數據庫的數據的維度都比較低,在數據維度比較低的情況下,使用的一些索引,比如常見的像這個 B 數的索引、L S M 數的這些索引,可能在一個更高維度的數據上做相同索引,是不能達到效果的。所以對於向量數據庫來説,第一要找到適合處理高維數據的索引類型,這是第一個難點。

第二個難點,向量數據庫既然作為一個數據庫,那麼它本身應該是有一個比較好的數據管理能力的,因為大家都知道數據庫就是用來管理和檢索數據的,向量數據庫也不例外。那麼我們希望這個向量數據庫能夠給到用户過往使用數據庫產品的一些相同體驗和抽象概念。

比如向量數據庫裏有表的概念,也有日誌的概念,然後我們幫用户解決了怎麼去做持久化,怎麼做分佈式、做擴展、做高效查詢等等,怎麼把一些固定的查詢語句轉化成最終的執行結果。所有這些事情都是向量數據庫需要去解決的。

最後一點,回到向量數據庫本身的特性上來,向量數據庫有一個很重要的特點:對計算量的要求特別大。這種計算量主要是體現在:比如傳統數據庫處理一行數據可能是對一個 float 類型去做大小的比較,那麼對於這種高維度向量數據的操作來説,去計算歐式距離,簡單來講就是對一些數字做加減乘除、再平方、再開方,而且這個數據的維度又特別高,因此它對算力的要求是相對來講比較高的。

因此,在向量數據庫裏,我們也在利用一些定製的硬件,包括 C P U 並行計算,向量化計算來去加速查詢執行,這個可能也是向量數據庫本身面臨的一個比較大的挑戰。

Zilliz:堅持開源,服務上雲

OSCHINA:向量數據庫其實是 Zilliz 提出的一個新物種,聚焦到 Zilliz 本身,簡單給大家介紹下你們正在做的事情?

欒小凡:

我們是從 2018 年左右開始關注到非結構化數據這個領域的。

順着這個思路,我們第一時間就找到向量數據庫的突破點。當時正好在 AI 領域的高維數據檢索取得了一定的突破,Facebook 也提出了向量檢索的工具 faiss

在這個基礎上,面向用户需求,我們做的第一件事情就是做了一個向量數據庫,然後在已有的向量檢索的基礎上完善了整個向量數據的使用機制,包括用户的使用習慣。並且我們當時做了世界上第一個開源的向量數據庫,也就是 Milvus

接下來,我們做了兩件大事,一是開源 TowheeTowhee 項目的核心就是把非結構化數據轉換成向量的過程,我們也將其稱為非結構化數據的 ETL。那麼在這裏面,我們也是大量使用了開源模型,然後根據用户需求,提取用户數據中的關鍵信息和向量。

除了做開源的產品,我們公司還有另一個這個比較大的一個標籤,其實是做雲。我們面向公有云提出的 SaaS 的服務,這個服務裏也包含了我們的開源產品。那麼在未來的話,像 Towhee,包括圍繞着整個 Milvus 生態的一些其他開源項目,比如我們向量檢索的內核引擎 Knowhere,然後比如説我們的可視化的工具 Attu、還有 Feder,這些工具也都會在雲上上線。

OSCHINA:你是在什麼時候加入 Zilliz 的,選擇加入的原因是什麼?

欒小凡:

我是在 2020 年年初加入 Zilliz 的,其實也是機緣巧合。我個人之前一直在雲數據庫廠商,做數據庫相關的工作,之前更多的是做閉源的商業產品。

我加入 Zilliz 的原因:第一個,向量數據庫是一個相對來講非常新的賽道,相較其他數據庫賽道,其他數據庫賽道基本都有一個領先的王者,比如關係型數據庫大家會想到 MySQL,會想到 PostgreSQL,搜索領域會想到 Elasticseartch

而在向量數據庫領域,目前 Zilliz 是最早去做的一家,並且做到也算不錯,所以這對我來説是一個很好的機會,能夠去參與做一個世界領先的數據庫,對我也是一個比較大的挑戰。我本人也是從美國回到國內,所以其實蠻有信心,覺得今天中國的工程師是有能力做出一個可以讓全世界工程師一起去使用的產品。

第二個動力,其實 Zilliz 本身是一家做開源,也是一家做雲的公司,從我自己的背景來説,我過去對公有云和專有云都有一定的瞭解,我也一直都是個開源愛好者,也曾經參與過 Apache Hbase 的開發,也希望能有機會深度參與到一個開源社區裏面,去主導一個開源社區的發展。所以,Zilliz 也是一個能施展我自身才華的舞台,加入 Zilliz 之後也交到了許多志同道合的朋友,這也是我來 Zilliz 一個很大的收穫。

OSCHINA:你在這家開源商業化公司身負多重角色,包括 Zilliz 技術總監 / Milvus 項目 maintainer / 產品架構師。你是如何平衡這些不同角色的?現在你一天的工作內容和節奏大概是什麼樣的?

欒小凡:

如果大家有機會在開源領域工作的話,你的頭上永遠戴着兩頂帽子,一邊是在商業公司工作,另一邊同時又是在一個開源社區工作,並且這個開源社區不屬於這家商業公司,此時就需要去平衡好其中的工作時間分配,找到兩件事情間的契合點。

其實在 Zilliz,我覺得比較幸運的一個點就是我們的 CEO 星爵本身是一個有技術情懷的人,給了我們很大的空間,允許我們的工程師團隊花時間精力在開源社區裏面。當然 Milvus 本身就是我們捐贈給基金會的,這個項目就像是我們的親生兒子一樣,所以我們也會自發的話很多時間在這個項目上。

另一個我覺得很好的契合點就是,我們公司本身也確實在基於開源項目做商業化工作,所以項目本身的成功對我們自己做商業化成功也是非常有幫助的。那麼我們在日常工作中,工作重心也是隨着整個產品和項目的發展,一直在去做平衡和調整。可能在某個階段,比如社區發版的關鍵時刻,我會花更多精力在社區上面,和其他社區成員做更多溝通,幫助他們去找到一些解決問題的方法,與此同時我也會從公司的利益角度出發,去尋找一些公司和社區同時需要的東西去作為我們對社區的一種貢獻。

日常工作的話,我作為一個開源維護者來講,我相信可能很多做過開源的朋友都會有這個習慣,每天早晨到公司第一件事情就是查看、回覆郵件,我每天早晨大概會花半個小時在這件事情上。每天下午我也會留一段時間去做 code review,然後和其他同學去做討論和對齊。另外就是個人愛好,每天晚上如果沒有特殊的事情,我一般會寫寫代碼。目前我的工作職責裏不會要求我去寫代碼,寫代碼已經成為一個個人愛好,我還是希望能夠堅持給社區持續輸出一些代碼。

OSCHINA:開源項目的成長離不開貢獻者們長期的投入。Milvus 作為一個開源的向量數據庫,目前下載量已經突破 100 萬大關,是非常棒的成績!可以分享下你們在維護這個頂級開源項目的經驗嗎?

欒小凡:

剛剛有聊到,我加入 Zilliz,開源對我來説是一個很重要的吸引因素。當我真正跳進去去做事時,會發現事情往往也沒有那麼簡單。我覺得開源本身其實對人的心力、體力、腦力都是很有挑戰的一件事情。比如從體力上來講,我每天可能都會收到幾百封相關郵件,然後把所有的郵件全部讀完,很多需要回復,這對我來講就是挺有挑戰的一件事。與此同時,在整個社區裏,我作為架構師,還要去協調各種開發進度,比如所有項目是否都能跟得上 release 計劃等等。這些工作這些其實都是蠻花時間的。

從心理上來講,因為本身兼具做商業化和做開源兩個不同的職責。雖然説我們會盡力去找到一些共同點,但也必然存在一定的衝突。那麼怎麼樣能夠既滿足開源用户的需求,吸引到優質貢獻者、用户進入到社區中,這肯定是一個挑戰。但另一方面,也要去思考項目更長期的發展,怎麼保證項目能跟我們自己的商業化利益長期保持一致,這個其實還是挺有挑戰的。

但在這個過程中,很多開源用户給了我們很多支持。因為 Milvus 一直以來,包括最近的 2.01 版本都做了一些比較大膽的設計,其間也遇到了穩定性、性能等各方面的挑戰。在這個過程中,確實很多開源用户、開發者給了我們非常多的幫助和建議。這也是讓我們覺得做開源,做一個能在國際上有知名度和影響力的開源項目的意義所在。

OSCHINAZilliz 最近還有一個大動作就是推出了 Zilliz Cloud,測試版本最近剛剛上線,介紹下這個新產品吧。

欒小凡:

首先它的定位是一個非結構化數據處理的雲。這個雲裏面,最核心的產品就是我們剛才聊的比較多的——Milvus 向量數據庫。在我們的設想和規劃裏,非結構化數據和結構化數據本身的處理流程並沒有什麼不同,應該都是圍繞在一個數倉或者一個數據庫,然後通過工具去做數據轉換與處理。

我們現在的,也是從我們的開源向量數據庫出發,在數據庫的基礎上,打造一系列的服務,包括大家能感知到的 Web 前端的一些 Open API。中間可能大家感知不到,但是是非常重要的,這種資源調度、池化,共用等邏輯,以及面向整個非結構化數據處理的一些組件,比如説數據遷移、數據導入、數據備份。那我們推出的 Zilliz cloud,其實最主要的原因跟我們做 MilvusTowhee 都是一樣的,我們希望用户能夠在雲上,以較小的投入去處理遇到的各種各樣非結構化數據,並從中挖掘自身的業務價值。

現在 Zilliz Cloud 還在公測階段,我們目前主要在北美的 AWS 上做上線。如果大家對這個事情感興趣,想了解我們是怎麼提供 SaaS 服務的,或者對我們的技術細節感興趣,想了解更多 Zilliz Cloud 的相關信息,歡迎大家去做試用。

鏈接:https://zilliz.com/invitation

OSCHINA:上雲是很多開源項目實現商業價值的一個必經之路。可以介紹一下你們是怎麼看待開源產品的商業化,以及商業化上的整體戰略和路徑嗎?

欒小凡:

首先 Zilliz 就是一家商業公司,商業化是我們逃不開的話題。Zilliz 在很長一段時間內是專注做開源、專注做產品的。我們首先希望能做出一套世界領先的技術。另外就是,在向量數據庫的賽道,我們認為還沒有到大規模商業化的階段,需要先完成產品的打磨以及對用户的教育。

就目前的情況看,Milvus 作為一個開源項目,已經獲得了很多企業的認可,在全世界也有越來越多的用户開始關注向量數據這個領域,也有很多用户來問我們能不能通過雲服務去降低整個使用成本。那我們理解,現在可能已經到了一個推出雲服務的時間。而我們推出雲服務的動機,本質上還是希望用户能夠更好地使用向量數據庫去解決自身遇到的問題。

可能也有人會問,我們為什麼不能在開源產品上把這件事做得更好,而是一定要通過雲去提升用户體驗。這其實就回我們做雲服務的初心,其實整個雲上的代碼和軟件數據和傳統數據庫會有非常大的不同,在開源領域,我們沒有辦法假設所有用户都是在雲上使用這個數據庫,肯定有一些離線用户需求,那麼可能這部分用户的使用體驗沒有辦法像雲上用户一樣那麼簡介,這其實就是我們做雲服務一個很重要的目標,讓用户以最少的理解成本把產品用起來。

第二個很重要的點就是雲上的資源是無限的,我們就可以通過對一些索引節點的池化、數據的池化、或者是存儲計算的分離來優化數用户的使用體驗。比如從用户視角來看,可能對大量數據去建索引,這個時間就會變得很短;又或者我有了存儲計算分離之後,如果業務流量有很大的變化,那麼久能以很快的速度做擴縮容。這種雲的池化也是給用户帶來很好的體驗。

當然圍繞 Milvus 生態,我們也做了大量的生態工具,希望這些工具能幫到用户解決他們在生產環境中遇到的一些問題。在開源領域,我們依然會持續投入,把開源產品打造得更好用,我們希望無論是在雲上還是開源產品上,Milvus 都是能是用户在向量數據庫領域的一個最佳選擇。

OSCHINA:能長期堅持開源產品免費的公司,一定有它獨特的工程師文化。Zilliz 內部有着怎樣的工程師文化?

欒小凡:

我們是一家特別強調工程師文化的公司。主要體現在兩方面:

首先,公司的所有合夥人以及重要崗位的負責人都有工程師的背景。

當初加入Zilliz 時,星爵問我:你希不希望做一個能影響世界的產品?如果要做這個產品,你覺得你需要一些具備什麼能力的夥伴?這句話觸動了我。加入公司之後,我跟老闆形成了一個默契:我們一定是一家產品優先的公司。

在工程師文化裏,產品優先就意味着,公司希望所有人都對自己在做的事情有比較清晰的瞭解,並且知道自己做的事情在整個業務版圖裏,或者説在整個非結構化數據處理的版圖裏面到底有什麼樣的價值。

其次,公司非常鼓勵大家使用開源,包括第三方的一些 SaaS 服務。因為我們自己也是一家做 SaaS 的公司,依賴了大量的開源項目,包括 ParcelGrewnetysETCD,以及很多第三方的SaaS 服務。在使用開源的時候,我們一直鼓勵工程師積極向其他社區回饋。現在,公司有很多同學已經慢慢成長為在開源領域比較有影響力的一撥人。我們希望,無論是中國的開源,還是中國的 SaaS 領域,未來能有越來越多的 Ziiliz 同學繼續發光發熱。

OSCHINAZilliz 最近在學術界也取得了一些很好的成績,感覺公司內部的學術氛圍非常濃厚。可以給大家介紹一下這方面的情況嗎?

欒小凡:

公司自成立伊始就對學術比較重視,因為我們的創始人團隊都有學術背景。剛開始做向量數據庫的時候,我們就想過要發一些 paper,跟大家分享什麼是向量數據庫。在 SiGMA 2021 會議期間,我們提交一篇關於 Milvus 1.0 實現的論文,這也是業界最早介紹什麼是向量數據庫的論文。

在這篇論文裏,我們比較詳細地闡述了向量數據庫面臨的挑戰以及開發該數據庫的過程。此外還提出了 Milvus 1.0 面臨的生產模式 ,並得出了一些比較有意思的測試結果。

今年我們出了一篇新的 paper,它可能是業界第一個介紹雲原生向量數據庫的論文,比較詳細地介紹了 Milvus 2.0 設計,已經被 VLDB 2022 會議正式收錄。接下來我們會發布一些文章對論文進行解讀,幫助大家更好地理解我們為什麼要做雲原生向量數據庫。

與雲原生數據庫相比,向量數據庫面對的挑戰是截然不同的,因為向量數據對算力要求非常高。比如在構建向量索引時,操作完全是離線的,對算力資源、彈性的要求遠遠高於雲原生數據庫。對技術細節感興趣的同學可以去搜一下這篇論文。

OSCHINA:舉辦 2022 非結構化數據大會的契機是什麼?

欒小凡:

我們公司是向量數據庫包括非化數據領域的一個先行者,同時也是一個探索者。在整個非結構化數據處理的生態裏面,我們貢獻了兩個開源項目,一個是 Milvus,一個是 Towhee,未來還會貢獻更多的非結構化數據處理領域的項目。

一方面,我們希望能產生影響力,幫助我們的用户及生態合作伙伴更好地理解怎麼處理非結構化數據,以及在處理過程中需要什麼樣的能力及工具。

另一方面,希望能借此機會跟非結構化數據處理生態裏面的夥伴聊一下:大家是以什麼方式做非結構化數據處理的?在開源項目或者使用場景中需要哪些工具?可以給用户提供哪些能力?能否共同構建一個更好的生態,真正地把非結構化數據變成一個可以落地的概念,而不是僅僅停留在紙面上?

在這次會議上,我們還會正式發佈 Ziiliz Cloud 。我們也知道,很多用户對能夠託管的雲服務期盼已久。因為在非結構化數據領域,很多工具是散的,用户只能把各種各樣的開源組件拼接起來用,處理流程會比較繁瑣,難以管理,並且在穩定性、易用性方面還會遇到各種各樣的問題。 Ziiliz Cloud 的發佈之後,用户就有了更多的選擇。

我們也會分享一些 做 Ziiliz Cloud 時的思考,以及它能給用户提供的價值和功能,還會談一談怎麼在 AWS 或者跨雲的環境裏面,去構建起一個如此複雜的系統。

精彩問答

Q:現在市場上,有什麼面向用户端的向量數據庫應用案例?

欒小凡:

向量數據庫本身的應用場景還是非常廣泛的。非結構化數據本身的種類就很多,比如圖片、音頻、視頻、長文本等等。

最常見的互聯網領域應用場景就是搜索廣告推薦。傳統搜索往往基於標籤或倒排的數據,效果並不是特別好,因此越來越多的公司就開始引入向量化的多路召回,因為向量化對的數據表達能力要遠遠強於傳統的標籤或者關鍵詞檢索。

還有針對圖片或視頻的處理,比如去重、風控等等,以及多模態應用——根據圖片找文字或者根絕圖片找音頻,這些都是向量數據庫很大的應用場景。

在視頻領域還有一個繞不過去的應用場景——安防,其中涉及到人臉識別、指紋識別、聲紋識別,這些也是向量數據庫比較容易落地的應用場景。

當然還有一些比較有意思的場景。比如在生物製藥領域用向量數據庫幫助小分子藥物找到蛋白質上的靶點;在時序數據裏找到趨勢近似的歷史,實現時序預測。

我們的一個口號其實就是 everything to embedding,我們希望在現實生活中所有能看到的數據,都能通過 Towhee 把它變成向量數據,然後再基於 Milvus 發掘其中的價值。歡迎有特殊數據的用户來跟我們交流

Q:向量數據庫是一個比較新的概念,你們有過那種摸着石頭過河的經歷嗎?

欒小凡:

我們不是有過這種經歷,而是一直在摸着石頭過河。到現在為止,這條河可能也只過了一半,有時候甚至沒想清楚怎麼過得去。任何領域的先行者,都會面臨相同的問題,都在不斷地嘗試。

在嘗試的過程中,公司對學術的重視以及創始人的技術背景和學術背景,讓我們能夠更早地去看到未來方向。

2019 年我們做第一代數據庫的時候,看到了一些方向,並且在工程化的過程中,越來越多的預測得到了應驗。眼前來看,向量數據這個領域確實有很多不確定性,但如果抬起頭看得更遠一些,還是能看到一些方向的。

我們總結的另一個經驗是,要快速迭代。尤其是作為開源軟件,快速迭代能夠快速找到一幫用户,一起打磨產品。正是有了這些用户,我們的產品才能比較快速地去迭代,正是因為有了這種快速迭代,我們才能在一個新賽道找到自己的方向。三四年前剛開始做這件事的時候,沒有太多人能把向量數據庫最終的狀態想得很清楚,我們也是一步步根據用户的需求才找到了方向。

Q:你們是怎麼獲得首批客户的?一些產品都開源了,會不會很難讓用户去付費?

欒小凡:

我們把用户分為開源用户、付費用户兩部分。

對開源用户而言,最重要的事情就是要找到產品的獨特價值。因為 Milvus 瞄準的是一個比較新的領域,很多時候不是我們主動去聯繫用户,而是用户主動聯繫我們,希望能用我們的產品幫他們解決問題。我覺得無論是在創業還是做開源項目,在已經決定要往這個方向投入經歷之前,可以提前做一些產品宣傳,看看能否通過產品的核心價值吸引到一批用户。忠實用户會跟着產品一起成長,並且有足夠的耐心共同來解決很多問題。

至於商業轉化,我們公司還處於剛剛起步的狀態。我認為最關鍵的就是,要給付費用户提供更大的價值。我們的服務有公有云和開源的區別。開源產品已經能夠滿足大部分用户的業務訴求,但開源只能做到八十分。而云服務可以從八十分提升到一百分。因為雲服務有一些限制,可以讓我們更好地去設計整個產品,給用户提供很多附加價值。

Q:向量數據庫商業化的計劃是什麼?目標客户有哪幾類?市場上有沒有一些對應的競品?

欒小凡:

從選擇向量數據庫這個賽道就可以看出來,我們是一個有自己的品位和調性,比較相信自己判斷的一個公司。

在向量數據庫商業化這條路上,我們堅定地選擇在公有云上做 SaaS 服務這一方向。在國內,做公有云或者 SaaS 並不是一個特別主流的選擇。面對這種情況,我們的選擇是瞄準海外市場。所以,公司現在整個商業化產品都優先在 SaaS 上線。

公司的一個理念是,只做正確的事情,不做容易的事情。可能在國內獲得訂單比去海外做 SaaS 服務,從零到一會容易很多。但目前來看,國外用户對向量數據庫或非結構化數據處理的 SaaS 服務,不論是需求還是接受程度都會更高。我們選擇直接跟競爭對手在這個賽道上硬剛。

我們的主要競爭對手分為三類:

一是共有云廠商。我們是在共有云上做 SaaS 服務,跟 AWSGoogle、微軟有一定的競爭關係,他們也都有一些向量檢索。

二是搜索領域的特殊競爭對手。比如已經上市的 Elastic,幾十億美金估值的巨頭公司 Algolia。他們本身就是做搜索出身,現在也開始往向量檢索這個領域做一些探索。因為向量檢索提升業務效果很明顯。接下來三到五年,向量檢索應該會變成一個非常主流的選擇。

三可是跟我們同賽道的創業公司。目前我們公司還是處於比較領先的態勢。一方面,公司花了很長時間打磨產品,並且較早發佈了開源產品和雲服務;另一方面,得益於用户陪伴我們成長,我們也更加了解用户需求。因此,我們非常有信心能在向量數據庫這個賽道取得一定優勢。

Q:雲可以支持億級的向量搜索嗎?

欒小凡:

億級已經不是我們現在的目標了。在內部測試環境裏,我們都是以十億向量起步去做測試。

我們在設計 Milvus 系統時,是衝着百億規模甚至千億規模去設計的。現在真正落地的環境裏,幾十億比較常見,一些其他用户可能有百億規模甚至有千億規模的向量數據。所以億級不是一個特別有挑戰性的一個目標。

比較有挑戰性的一個問題是,在億級規模下,我們能做到多高的吞吐量?目前社區正在針對這一點持續優化。當然,我們在雲上藉助更多資源也可以實現萬級別甚至更高的QPS

成本依然是大家很關注的一個話題。所以接下來,我們會在產品層面繼續優化,希望能夠在今年年底或者明年初實現令人驚歎的性能指標,億級別數據也能實現過萬以上的QPS

Q:目前向量數據庫這個細分行業的瓶頸是在被什麼主導?Zilliz 開始選擇了一個非常細分的發展方向,現在又加入了 Towhee,感覺慢慢在形成生態。這種生態能夠打破瓶頸嗎?

欒小凡:

我覺得數據庫並不是一個細分領域,而是一個很大的領域,只是還在成長中。

至於瓶頸的話,我們也一直在等向量檢索領域出現一個 Killer APP,就像蘋果手機一樣。蘋果手機在早期推出的時候,大家可能也會對大屏幕很懷疑,這麼大的屏幕看起來也不錯,但它到底有什麼用?直到三四年以後微信、滴滴等這些 APP 出來了以後,大家發現大屏幕已經變成一個標配。

我們認為,可能向量數據庫正在處於技術主導的階段,很多應用場景沒能落地,主要是卡在產品本身,比如説向量數據庫性能無法滿足要求——用户有億級的數據量,但是現有的解決方案沒法用。如果我們解決了這個問題,那自然就會把行業推到下一步。我們會看到算法層面的大幅提升或者我們所説的 Killer APP 會出現。反過來,它們也會推動這個行業發展。

Q:現在 Zilliz 的產品基本上融合了深度學習、大數據處理、分佈式計算很多不同的技術。門檻這麼高,招到頂尖的技術人才是不是就會比較難?公司現在想要吸引什麼樣的人才加入呢?

欒小凡:

招聘一直是我們比較頭疼的一個話題。在國內做基礎設施的工程師,並不是特別的多。我們需要的不僅僅是懂數據庫,懂大數據,或者懂 AI 某一個賽道的人才,還有懂各種的技術複合型人才。為此我們花了非常多的時間,過去兩年,公司的人才密度逐漸提高。同事,我們也慢慢地放寬了自己的雷達。過去公司在上海,人才搜索範圍基本上就是在上海。之後公司又在杭州、北京設置了辦公室,主要就是為了擴展我們的人才雷達。今年,公司也正式到美國 San Francisco 組建工程師團隊。

另一方面,我們有一個原則,如果人才不好找的話,那就自己培養,所以特別注重工程師的培養。作為創業公司,我們一直堅持做校招,招聘了很多來自於清北,復交,華科,武大等國內頂尖高校的人才。我們花了很多的時間去培養加入公司的優秀的年輕人,如今他們已經在公司裏承擔了一些關鍵的崗位。

OSCHINA謝謝欒總的分享。今天直播只是簡單聊了聊 Zilliz 正在做的事情,接下來的重點是 9 月 24 日的 2022 非結構化數據大會,到時候會有更多更加深度和更加豐富的分享和大家見面。歡迎小夥伴們持續關注,也可以掃描我們的二維碼加入羣。謝謝大家。

掃碼添加小助手微信,回覆關鍵詞“大會”加羣