OpenPie 和 ChatGPT 聊聊雲上資料計算的那些事兒
要說時下科技圈最火的新技術話題,那就非 ChatGPT 莫屬了。由它引發的各類“人工智慧(AI)能否取代人工”的討論狂飆不停,拋開法律和道德層面的爭議,ChatGPT 確實可以準確地回答使用者大部分的通用知識問題。那麼大家是否會好奇,ChatGPT 是依靠什麼獲得了這樣“無所不知”的超能力呢?
作為一款交流機器人,ChatGPT 的全稱是 Chat Generative Pre-trained Transformer(生成式預訓練轉換器),由 OpenAI 公司研發,並於2022年11月釋出。ChatGPT 使用了基於 GPT-3.5 (最新開放版本)架構的大型語言模型,並通過強化學習在 Microsoft Azure 的超級計算機上進行訓練,然後通過近端策略優化演算法進行微調,引數量多達1750億個。用一句話來概括:ChatGPT 的背後,技術底座是大型語言模型,核心競爭力是算力。
ChatGPT 對算力的需求之大可以通過這樣一組資料呈現,GPT-3.5的訓練使用Microsoft專門建設的 AI 計算系統,由1萬個 V100 GPU 組成的高效能網路叢集,總算力消耗約3640 PF-day,即假如每秒計算一千萬億次,需要計算3640天。於此同時,ChatGPT 的算力消耗也在不斷擴張,其大型語言模型經歷了三次迭代,GPT、GPT-2和GPT-3的引數量從1.17億增加到1750億,預訓練資料量從5GB增加到45TB,其中GPT-3訓練單次的成本就已經高達460萬美元。以實際場景為例,我們每問 ChatGPT 一個問題,它就需要花費幾美分來計算。所以對於 OpenAI 而言,如何持續不斷地獲得算力支援並控制高昂的計算成本是至關重要的。目前 ChatGPT 和 Microsoft 提供的系統是強繫結的關係,OpenAI 也表示:無論現在還是將來,Microsoft Azure 都會是 ChatGPT 唯一指定的雲端計算供應商。這麼一來,Microsoft 的投資邏輯也就不言而喻了,我先借資金和算力給你,日後再靠你不斷擴張的算力需求來賺錢,Microsoft非常清楚地意識到了資料計算背後的商機。
換言之,哪怕獲得了這個複雜大模型的程式碼,也不是誰都可以跑得起來的。所以,ChatGPT 的成功不僅是複雜演算法的功勞,更是依賴了雲端計算服務的支撐,OpenAI 從 Microsoft 獲得的不只是資金層面的支援,更是技術層面的系統優化,其中包括但不限於計算、儲存、資料庫和網路等方面的資源配置。對於 ChatGPT 來說,藉助雲的特點在 Microsoft Azure 上實現高效能計算、資料儲存和處理、全球可用性、彈性管理資源、成本效益是系統正常執行的基礎。比如近日 ChatGPT 身處輿論的風口浪尖,全球各地訪問網站的流量激增,Microsoft Azure 可以自動為模型提供更多資源(如 CPU 和記憶體),以處理增加的負載。相反,當流量下降時,它也可以縮減配置資源以節省成本。與此同時,ChatGPT 也不需要建立自己的資料中心,可以從 Microsoft Azure 雲端計算服務那裡租用所需的資源,按需付費,還省去了運維費用,將成本效益最大化。
ChatGPT 的爆火反映的不只是 AI 技術領域的突破,更是大資料在行業應用的發展趨勢。雲上資料計算、資源租賃代替購買是大方向,處理海量資料時通過動態彈性伸縮資源,助力企業實現降本增效,這也是 PieCloudDB Database 的設計初衷之一。
* 此回答僅供參考,請以官方產品描述為準
利用雲端計算的技術變革,雲原生資料庫 PieCloudDB Database 可以實現 IT 系統從購買到租賃的轉變,真正交付在PC機時代未能交付的大資料承諾。舉個例子,對於一類脈衝式場景(如雙十一),當天可能需要平日上百倍的算力來支援,PC 結構的設計迫使客戶不得不投入上百倍的機器,並且只為一年365天中的某幾天。這種情況下,客戶有兩種選擇,一是放棄脈衝式場景的資料計算,二是在前期投入龐大的資金,這也使得客戶的投入產出比下降、錯失了一些套利機會。尤其對於像 ChatGPT 這樣資源消耗極高的場景,如何平衡網站流量激增或下降時的資源需求,是保障公司有效利用資源、控制總體支出的必要前提。
在 PieCloudDB 裡,儲存和計算各自作為兩個獨立變數,各自在雲端彈性伸縮。使用者可以在雲端傳輸海量資料,雲中的儲存也會隨之自動增加,這個伸展過程無需使用者煩惱,PieCloudDB 可以自動實現。如果使用者需要更大的算力,只需開啟更多的虛擬機器或者容器,PieCloudDB 會瞬間擴容。在使用者完成脈衝計算以後,可以關閉和縮小計算的叢集,從而節約在雲中的計算費用。通過計算與儲存的解耦合,得以實現資源的池化。使用者從而可以通過租賃的方式來使用池中的資源,按使用量進行付費。PieCloudDB 讓使用者可以專注於使用,無需考慮運維和升級等工作。
在這樣一個系統中,使用者會持續將所有資料儲存在雲上,讓已有的應用和未來的應用真正實現資料共享,PieCloudDB 從而幫助使用者真正實現大資料願景(Big Data Promises Finally Come True)。
- 資料科學在文字分析中的應用 :中英文 NLP(上)
- 『堅如磐石的 PieCloudDB』:透明加密模組的設計與實現
- 後疫情時代,資料科學賦能旅遊行業服務質量提升
- OpenPie 和 ChatGPT 聊聊雲上資料計算的那些事兒
- 正式上市丨拓數派發布eMPP存算分離軟硬體一體機
- 『Postgres.Live 技術沙龍回顧』揭祕 PieCloudDB Database eMPP 架構設計
- PieCloudDB Database 雲上商業智慧的最佳實踐
- 資料科學在量化金融中的應用:指數預測(下)
- 資料科學在量化金融中的應用:指數預測(上)
- 【DTCC 2022】雲原生資料庫PieCloudDB全新eMPP架構是如何煉成的
- 資料科學,為企業創造更大的資料價值
- 擁抱開放|OpenPie引領PostgreSQL中國程式碼貢獻力