OpenPie 和 ChatGPT 聊聊雲上數據計算的那些事兒

語言: CN / TW / HK

要説時下科技圈最火的新技術話題,那就非 ChatGPT 莫屬了。由它引發的各類“人工智能(AI)能否取代人工”的討論狂飆不停,拋開法律和道德層面的爭議,ChatGPT 確實可以準確地回答用户大部分通用知識問題。那麼大家是否會好奇,ChatGPT 是依靠什麼獲得了這樣無所不知超能力呢? 

      

 

作為一款交流機器人,ChatGPT 的全稱是 Chat Generative Pre-trained Transformer生成預訓練轉換器),OpenAI 公司研發,並於2022年11月發佈。ChatGPT 使用了基於 GPT-3.5 (最新開放版本)架構的大型語言模型並通過強化學習Microsoft Azure 的超級計算機上進行訓練,然後過近端策略優化算法進行微調參數量多達1750億個用一句話來概括:ChatGPT 背後,技術底座是大型語言模型,核心競爭力是算力  

                      

 

ChatGPT 對算力的需求之大可以通過這樣一組數據呈現,GPT-3.5的訓練使用Microsoft專門建設的 AI 計算系統,由1萬個 V100 GPU 組成的高性能網絡集羣,總算力消耗約3640 PF-day,即假如每秒計算一千萬億次,需要計算3640天。於此同時,ChatGPT 的算力消耗也在不斷擴張,其大型語言模型經歷了三次迭代,GPT、GPT-2和GPT-3的參數量從1.17億增加到1750億,預訓練數據量從5GB增加到45TB,其中GPT-3訓練單次的成本就已經高達460萬美元。以實際場景為例,我們每問 ChatGPT 一個問題,它就需要花費幾美分來計算。所以對於 OpenAI 而言,如何持續不斷獲得算力支持制高昂的計算成本是至關重要的目前 ChatGPT 和 Microsoft 提供的系統是強綁定的關係OpenAI 表示無論現在還是將來,Microsoft Azure 都會是 ChatGPT 唯一指定的雲計算供應商。這麼一來,Microsoft 的投資邏輯也就不言而喻了,我先借資金和算力給你,日後再靠你不斷擴張的算力需求來賺錢Microsoft非常清楚地意識到數據計算背後的商機 

 

 

換言之,哪怕獲得了這個複雜大模型的代碼,也不是誰都可以跑得起來的。所以ChatGPT 的成功不僅是複雜算法的功勞,更是依賴雲計算服務的支撐,OpenAI Microsoft 獲得的不只是資金層面的支持,更是技術層面的系統優化,其中包括但不限於計算、存儲、數據庫和網絡等方面的資源配置對於 ChatGPT 來説,藉助雲特點 Microsoft Azure 實現性能計算、數據存儲和處理全球可用性、彈性管理資源成本效益系統正常運行的基礎。比如近日 ChatGPT 身處輿論的風口浪尖,全球各地訪問網站的流量激增,Microsoft Azure 可以自動為模型提供更多資源( CPU 和內存),以處理增加的負載。相反流量下降時,它也可以縮減配置資源以節省成本與此同時ChatGPT 不需要建立自己的數據中心,可以從 Microsoft Azure 雲計算服務那裏租用所需的資源,按需付費,省去了運維費用,將成本效益最大化。 

ChatGPT 的爆火反映的不AI 技術領域的突破,更是大數據行業應用發展趨勢。雲上數據計算、資源租賃代替購買是大方向,處理海量數據時通過動態彈性伸縮資源,助力企業實現降本增效,這也是 PieCloudDB Database 的設計初衷之一。

* 此回答僅供參考,請以官方產品描述為準  

 

利用雲計算的技術變革,雲原生數據庫 PieCloudDB Database 可以實現 IT 系統從購買到租賃的轉變真正交付在PC機時代未能交付的大數據承諾。舉個例子,對於一類脈衝式場景(如雙十一),當天可能需要平日上百倍的算力來支持,PC 結構的設計迫使客户不得不投入上百倍的機器,並且只為一年365天中的某幾天。這種情況下,客户有兩種選擇,一是放棄脈衝式場景的數據計算,二是在前期投入龐大的資金,這也使得客户的投入產出比下降、錯失了一些套利機會。尤其對於像 ChatGPT 這樣資源消耗極高的場景,如何平衡網站流量激增或下降時的資源需求,是保障公司有效利用資源、控制總體支出的必要前提。  

PieCloudDB存儲和計算各自作為兩個獨立變量,各自在雲端彈性伸縮用户可以在雲端傳輸海量數據,雲中的存儲也會隨之自動增加,這個伸展過程無需用户煩惱,PieCloudDB 可以自動實現如果用户需要更大的算力,只需開啟更多的虛擬機或者容器,PieCloudDB 會瞬間擴容。在用户完成脈衝計算以後,可以關閉和縮小計算的集羣,從而節約在雲中的計算費用。通過計算與存儲的解耦合,得以實現資源的池化。用户從而可以通過租賃的方式來使用池中的資源,按使用量進行付費。PieCloudDB 讓用户可以專注於使用,無需考慮運維升級等工作。  

在這樣一個系統中,用户會持續將所有數據存儲在雲有的應用和未來的應用真正實現數據共享,PieCloudDB 從而幫助用户真正實現大數據願景(Big Data Promises Finally Come True)