OpenPie 和 ChatGPT 聊聊雲上資料計算的那些事兒

語言: CN / TW / HK

要說時下科技圈最火的新技術話題,那就非 ChatGPT 莫屬了。由它引發的各類“人工智慧(AI)能否取代人工”的討論狂飆不停,拋開法律和道德層面的爭議,ChatGPT 確實可以準確地回答使用者大部分通用知識問題。那麼大家是否會好奇,ChatGPT 是依靠什麼獲得了這樣無所不知超能力呢? 

      

 

作為一款交流機器人,ChatGPT 的全稱是 Chat Generative Pre-trained Transformer生成預訓練轉換器),OpenAI 公司研發,並於2022年11月釋出。ChatGPT 使用了基於 GPT-3.5 (最新開放版本)架構的大型語言模型並通過強化學習Microsoft Azure 的超級計算機上進行訓練,然後過近端策略優化演算法進行微調引數量多達1750億個用一句話來概括:ChatGPT 背後,技術底座是大型語言模型,核心競爭力是算力  

                      

 

ChatGPT 對算力的需求之大可以通過這樣一組資料呈現,GPT-3.5的訓練使用Microsoft專門建設的 AI 計算系統,由1萬個 V100 GPU 組成的高效能網路叢集,總算力消耗約3640 PF-day,即假如每秒計算一千萬億次,需要計算3640天。於此同時,ChatGPT 的算力消耗也在不斷擴張,其大型語言模型經歷了三次迭代,GPT、GPT-2和GPT-3的引數量從1.17億增加到1750億,預訓練資料量從5GB增加到45TB,其中GPT-3訓練單次的成本就已經高達460萬美元。以實際場景為例,我們每問 ChatGPT 一個問題,它就需要花費幾美分來計算。所以對於 OpenAI 而言,如何持續不斷獲得算力支援制高昂的計算成本是至關重要的目前 ChatGPT 和 Microsoft 提供的系統是強繫結的關係OpenAI 表示無論現在還是將來,Microsoft Azure 都會是 ChatGPT 唯一指定的雲端計算供應商。這麼一來,Microsoft 的投資邏輯也就不言而喻了,我先借資金和算力給你,日後再靠你不斷擴張的算力需求來賺錢Microsoft非常清楚地意識到資料計算背後的商機 

 

 

換言之,哪怕獲得了這個複雜大模型的程式碼,也不是誰都可以跑得起來的。所以ChatGPT 的成功不僅是複雜演算法的功勞,更是依賴雲端計算服務的支撐,OpenAI Microsoft 獲得的不只是資金層面的支援,更是技術層面的系統優化,其中包括但不限於計算、儲存、資料庫和網路等方面的資源配置對於 ChatGPT 來說,藉助雲特點 Microsoft Azure 實現效能計算、資料儲存和處理全球可用性、彈性管理資源成本效益系統正常執行的基礎。比如近日 ChatGPT 身處輿論的風口浪尖,全球各地訪問網站的流量激增,Microsoft Azure 可以自動為模型提供更多資源( CPU 和記憶體),以處理增加的負載。相反流量下降時,它也可以縮減配置資源以節省成本與此同時ChatGPT 不需要建立自己的資料中心,可以從 Microsoft Azure 雲端計算服務那裡租用所需的資源,按需付費,省去了運維費用,將成本效益最大化。 

ChatGPT 的爆火反映的不AI 技術領域的突破,更是大資料行業應用發展趨勢。雲上資料計算、資源租賃代替購買是大方向,處理海量資料時通過動態彈性伸縮資源,助力企業實現降本增效,這也是 PieCloudDB Database 的設計初衷之一。

* 此回答僅供參考,請以官方產品描述為準  

 

利用雲端計算的技術變革,雲原生資料庫 PieCloudDB Database 可以實現 IT 系統從購買到租賃的轉變真正交付在PC機時代未能交付的大資料承諾。舉個例子,對於一類脈衝式場景(如雙十一),當天可能需要平日上百倍的算力來支援,PC 結構的設計迫使客戶不得不投入上百倍的機器,並且只為一年365天中的某幾天。這種情況下,客戶有兩種選擇,一是放棄脈衝式場景的資料計算,二是在前期投入龐大的資金,這也使得客戶的投入產出比下降、錯失了一些套利機會。尤其對於像 ChatGPT 這樣資源消耗極高的場景,如何平衡網站流量激增或下降時的資源需求,是保障公司有效利用資源、控制總體支出的必要前提。  

PieCloudDB儲存和計算各自作為兩個獨立變數,各自在雲端彈性伸縮使用者可以在雲端傳輸海量資料,雲中的儲存也會隨之自動增加,這個伸展過程無需使用者煩惱,PieCloudDB 可以自動實現如果使用者需要更大的算力,只需開啟更多的虛擬機器或者容器,PieCloudDB 會瞬間擴容。在使用者完成脈衝計算以後,可以關閉和縮小計算的叢集,從而節約在雲中的計算費用。通過計算與儲存的解耦合,得以實現資源的池化。使用者從而可以通過租賃的方式來使用池中的資源,按使用量進行付費。PieCloudDB 讓使用者可以專注於使用,無需考慮運維升級等工作。  

在這樣一個系統中,使用者會持續將所有資料儲存在雲有的應用和未來的應用真正實現資料共享,PieCloudDB 從而幫助使用者真正實現大資料願景(Big Data Promises Finally Come True)