OpenPie 和 ChatGPT 聊聊雲上數據計算的那些事兒
要説時下科技圈最火的新技術話題,那就非 ChatGPT 莫屬了。由它引發的各類“人工智能(AI)能否取代人工”的討論狂飆不停,拋開法律和道德層面的爭議,ChatGPT 確實可以準確地回答用户大部分的通用知識問題。那麼大家是否會好奇,ChatGPT 是依靠什麼獲得了這樣“無所不知”的超能力呢?
作為一款交流機器人,ChatGPT 的全稱是 Chat Generative Pre-trained Transformer(生成式預訓練轉換器),由 OpenAI 公司研發,並於2022年11月發佈。ChatGPT 使用了基於 GPT-3.5 (最新開放版本)架構的大型語言模型,並通過強化學習在 Microsoft Azure 的超級計算機上進行訓練,然後通過近端策略優化算法進行微調,參數量多達1750億個。用一句話來概括:ChatGPT 的背後,技術底座是大型語言模型,核心競爭力是算力。
ChatGPT 對算力的需求之大可以通過這樣一組數據呈現,GPT-3.5的訓練使用Microsoft專門建設的 AI 計算系統,由1萬個 V100 GPU 組成的高性能網絡集羣,總算力消耗約3640 PF-day,即假如每秒計算一千萬億次,需要計算3640天。於此同時,ChatGPT 的算力消耗也在不斷擴張,其大型語言模型經歷了三次迭代,GPT、GPT-2和GPT-3的參數量從1.17億增加到1750億,預訓練數據量從5GB增加到45TB,其中GPT-3訓練單次的成本就已經高達460萬美元。以實際場景為例,我們每問 ChatGPT 一個問題,它就需要花費幾美分來計算。所以對於 OpenAI 而言,如何持續不斷地獲得算力支持並控制高昂的計算成本是至關重要的。目前 ChatGPT 和 Microsoft 提供的系統是強綁定的關係,OpenAI 也表示:無論現在還是將來,Microsoft Azure 都會是 ChatGPT 唯一指定的雲計算供應商。這麼一來,Microsoft 的投資邏輯也就不言而喻了,我先借資金和算力給你,日後再靠你不斷擴張的算力需求來賺錢,Microsoft非常清楚地意識到了數據計算背後的商機。
換言之,哪怕獲得了這個複雜大模型的代碼,也不是誰都可以跑得起來的。所以,ChatGPT 的成功不僅是複雜算法的功勞,更是依賴了雲計算服務的支撐,OpenAI 從 Microsoft 獲得的不只是資金層面的支持,更是技術層面的系統優化,其中包括但不限於計算、存儲、數據庫和網絡等方面的資源配置。對於 ChatGPT 來説,藉助雲的特點在 Microsoft Azure 上實現高性能計算、數據存儲和處理、全球可用性、彈性管理資源、成本效益是系統正常運行的基礎。比如近日 ChatGPT 身處輿論的風口浪尖,全球各地訪問網站的流量激增,Microsoft Azure 可以自動為模型提供更多資源(如 CPU 和內存),以處理增加的負載。相反,當流量下降時,它也可以縮減配置資源以節省成本。與此同時,ChatGPT 也不需要建立自己的數據中心,可以從 Microsoft Azure 雲計算服務那裏租用所需的資源,按需付費,還省去了運維費用,將成本效益最大化。
ChatGPT 的爆火反映的不只是 AI 技術領域的突破,更是大數據在行業應用的發展趨勢。雲上數據計算、資源租賃代替購買是大方向,處理海量數據時通過動態彈性伸縮資源,助力企業實現降本增效,這也是 PieCloudDB Database 的設計初衷之一。
* 此回答僅供參考,請以官方產品描述為準
利用雲計算的技術變革,雲原生數據庫 PieCloudDB Database 可以實現 IT 系統從購買到租賃的轉變,真正交付在PC機時代未能交付的大數據承諾。舉個例子,對於一類脈衝式場景(如雙十一),當天可能需要平日上百倍的算力來支持,PC 結構的設計迫使客户不得不投入上百倍的機器,並且只為一年365天中的某幾天。這種情況下,客户有兩種選擇,一是放棄脈衝式場景的數據計算,二是在前期投入龐大的資金,這也使得客户的投入產出比下降、錯失了一些套利機會。尤其對於像 ChatGPT 這樣資源消耗極高的場景,如何平衡網站流量激增或下降時的資源需求,是保障公司有效利用資源、控制總體支出的必要前提。
在 PieCloudDB 裏,存儲和計算各自作為兩個獨立變量,各自在雲端彈性伸縮。用户可以在雲端傳輸海量數據,雲中的存儲也會隨之自動增加,這個伸展過程無需用户煩惱,PieCloudDB 可以自動實現。如果用户需要更大的算力,只需開啟更多的虛擬機或者容器,PieCloudDB 會瞬間擴容。在用户完成脈衝計算以後,可以關閉和縮小計算的集羣,從而節約在雲中的計算費用。通過計算與存儲的解耦合,得以實現資源的池化。用户從而可以通過租賃的方式來使用池中的資源,按使用量進行付費。PieCloudDB 讓用户可以專注於使用,無需考慮運維和升級等工作。
在這樣一個系統中,用户會持續將所有數據存儲在雲上,讓已有的應用和未來的應用真正實現數據共享,PieCloudDB 從而幫助用户真正實現大數據願景(Big Data Promises Finally Come True)。
- 數據科學在文本分析中的應用 :中英文 NLP(上)
- 『堅如磐石的 PieCloudDB』:透明加密模塊的設計與實現
- 後疫情時代,數據科學賦能旅遊行業服務質量提升
- OpenPie 和 ChatGPT 聊聊雲上數據計算的那些事兒
- 正式上市丨拓數派發布eMPP存算分離軟硬件一體機
- 『Postgres.Live 技術沙龍回顧』揭祕 PieCloudDB Database eMPP 架構設計
- PieCloudDB Database 雲上商業智能的最佳實踐
- 數據科學在量化金融中的應用:指數預測(下)
- 數據科學在量化金融中的應用:指數預測(上)
- 【DTCC 2022】雲原生數據庫PieCloudDB全新eMPP架構是如何煉成的
- 數據科學,為企業創造更大的數據價值
- 擁抱開放|OpenPie引領PostgreSQL中國代碼貢獻力