一塊GPU搞定ChatGPT;ML系統入坑指南;理解GPU底層架構

語言: CN / TW / HK

 

1. 跑ChatGPT體量模型,從此只需一塊GPU

 

在發展技術,讓大模型掌握更多能力的同時,也有人在嘗試降低AI所需的算力資源。最近,一種名為FlexGen的技術因為「一塊RTX 3090跑ChatGPT體量模型」而獲得了人們的關注。

 

雖然FlexGen加速後的大模型看起來仍然很慢 —— 跑1750億參數的語言模型時每秒1個token,但令人印象深刻的是,它已經把不可能變成了可能。傳統上,大型語言模型(LLM)推理的高計算和內存要求使人們必須使用多個高端AI加速器進行訓練。本研究探索瞭如何將LLM推理的要求降低到一個消費級GPU並實現實用性能。

 

鏈接:

https://mp.weixin.qq.com/s/ZdW_jZov3bAcGc_9SqiL-A

 

2. ChatGPT數據集之謎

 

至今,OpenAI並沒有公開ChatGPT的相關訓練數據集來源和具體細節,一定程度上也暫時卡了追趕者的脖子,更何況,業界公認中文互聯網數據質量堪憂。本文作者則整理分析了2018年到2022年初從GPT-1到Gopher的相關大型語言模型的所有數據集相關信息,希望幫助有志於開發“類ChatGPT”模型的團隊少走一步彎路。

 

鏈接:

https://mp.weixin.qq.com/s/9vOc-OyqvzrO_w5LApurbg

 

3. ChatGPT背後的經濟賬

 

ChatGPT能否取代Google、百度這樣的傳統搜索引擎?為什麼中國不能很快做出ChatGPT?當前,對這些問題的探討大多囿於大型語言模型(LLM)的技術可行性,忽略或者非常粗糙地估計了實現這些目標背後的經濟成本,從而造成對LLM的開發和應用偏離實際的誤判。

 

本文作者從經濟學切入,詳細推導了類 ChatGPT模型 搜索的成本、訓練GPT-3以及繪製LLM成本軌跡的通用框架,為探討LLM成本結構和其未來發展提供了可貴的參考視角。

 

鏈接:

https://mp.weixin.qq.com/s/aAg1ptEkQ6ahdjs-3s_g3A

 

4. 解讀ChatGPT背後的技術重點:RLHF、IFT、CoT、紅藍對抗

 

近段時間,ChatGPT 橫空出世並獲得巨大成功,使得 RLHF、SFT、IFT、CoT 等這些晦澀的縮寫開始出現在普羅大眾的討論中。這些晦澀的首字母縮略詞究竟是什麼意思?為什麼它們如此重要?我們調查了相關的所有重要論文,以對這些工作進行分類,總結迄今為止的工作,並對後續工作進行展望。

 

鏈接:

https://zhuanlan.zhihu.com/p/602458131

 

5. 為什麼所有GPT-3復現都失敗了?使用ChatGPT你應該知道這些

 

為什麼所有公開的對 GPT-3 的復現都失敗了?我們應該在哪些任務上使用 GPT-3.5 或 ChatGPT?對於那些想要復現一個屬於自己的 GPT-3 或 ChatGPT 的人而言,第一個問題是關鍵的。第二個問題則對那些想要使用它們的人是重要的(下文提到 GPT-3,主要是指 GPT-3.5 或 InstructGPT 的最新版本,除了一些指向 GPT-3 原文的情況)。

 

鏈接:

https://mp.weixin.qq.com/s/fWe9RtP8qe8uxMSukeAjKA

 

6. 超越GPT 3.5的小模型來了

 

眾所周知,ChatGPT 是在 GPT-3.5 系列模型的基礎上微調而來的,我們看到很多研究也在緊隨其後緊追慢趕,但是,與 ChatGPT 相比,他們的新研究效果到底有多好?近日,亞馬遜發佈的一篇論文,他們提出了包含視覺特徵的 Multimodal-CoT,該架構在參數量小於 10 億的情況下,在 ScienceQA 基準測試中,比 GPT-3.5 高出 16 個百分點 (75.17%→91.68%),甚至超過了許多人類。

 

鏈接:

https://mp.weixin.qq.com/s/gv_FJD0aIpDNbky54unj2Q

 

7. 聊聊對大模型的一些看法

 

外行看熱鬧,內行看門道。邏輯鏈的把握,對長程上下文的捕捉和適應,以及生成語句的通順度,這幾點在作者試驗過的大量的case裏都得到了驗證,於是對於大模型這個技術方向"現實上的懷疑"也開始被打消了。

 

鏈接:

https://zhuanlan.zhihu.com/p/607680446

 

8. 一文理解大型語言模型的“上下文學習”

 

最近幾年大語言模型(LLM) 獲得了越來越多的關注,其中最知名的當屬 ChatGPT模型。ChatGPT模型展現了一些大模型才具備的突現能力(就是模型規模必須得增大到一定程度才會顯現的能力,比如至少百億級),其中一項能力就是上下文學習(In-Context Learning)。這也引發了研究人員對該能力產生原因的思考和探索。

 

鏈接:

https://mp.weixin.qq.com/s/sTTRl7QPyFDYVw4Jwzn9dQ

 

9. 理解GPU的底層架構

 

筆者是新進GPU行業從業者,之前在CPU芯片行業做一些底層軟件驅動開發工作,深知熟悉CPU的底層結構原理對驅動編寫和閲讀他人驅動代碼大有裨益,本文則介紹了GPU的底層工作原理。

 

鏈接:

https://zhuanlan.zhihu.com/p/598173226

 

10. ML System入坑指南

 

最近ChatGPT大火,越來越多開始關注大模型,但對於大模型落地,除了先進的算法,其背後的ML System(機器學習系統),從分佈式訓練到高效推理的完整鏈路同樣重要,好的基礎設施是應用爆發的基礎。本文主要圍繞作者學習的經歷來構築,希望能給希望入坑的新人一個指引,也給非Mlsys背景但感興趣的其他領域的同學一些啟發。

 

鏈接:

https://zhuanlan.zhihu.com/p/608318764

 

11. 開源機器學習軟件對AI的發展意味着什麼

 

過去十年,只要構建過ML模型的人都知道MLOSS至關重要,無論是Deepmind的研發工程師,還是印度的高中生都無一例外會使用開源軟件來構建模型。作者採訪了24名ML從業者,他們都給出了相同的答案:MLOSS工具在模型構建中的地位舉足輕重。

 

從業者都在免費使用MLOSS工具,也就意味着這類工具會對人工智能發展產生巨大影響。然而,探索MLOSS對AI發展影響的研究人員卻寥寥無幾。

 

鏈接:

https://mp.weixin.qq.com/s/7bB3_32h0jKBJ-8OGEiLSw

 

12. OneFlow源碼解析:靜態圖與運行時

 

OneFlow靜態圖的訓練效率遠高於動態圖(eager模式)。本文試圖通過一個簡單例子,結合 v0.8.0版本 的代碼,解讀一下靜態圖和運行時的實現機制。

 

鏈接:

https://mp.weixin.qq.com/s/3sR7fLWC80sG2nFToJa7vA

 

13. CUDA編程:矩陣乘運算從CPU到GPU

 

本文主要介紹用CUDA實現矩陣乘法運算(C = A x B)的幾個基本方法,幫助理解矩陣在GPU上面的運算與CPU上的有何異同,通過實踐上手CUDA的優化計算,相比基礎方法,能提速10倍以上。本文內容涉及到CUDA矩陣1D運算、2D運算、共享內存、CUBLAS的使用。

 

鏈接:

https://zhuanlan.zhihu.com/p/573271688

 

14. CUDA SASS彙編器:CuAssembler

 

儘管CuAssembler主要的目的是把nvdisasm的輸出重新轉回cubin,但它並不是從零開始寫彙編。作者推薦從CUDA C開始,除了kernel代碼外,其他初始化代碼都是儘量用Runtime API,這樣使用和修改都最簡單直接。

 

鏈接:

https://zhuanlan.zhihu.com/p/348234642

 

15. 全面碾壓AdamW:谷歌新出優化器內存小、效率高

 

來自谷歌、 UCLA 的研究者提出了一種通過程序搜索發現深度神經網絡訓練的優化算法的方法,進而發現 Lion(EvoLved Sign Momentum)優化器。


實現這一目標面臨兩個挑戰: 首先是在無限稀疏的程序空間中尋找高質量的算法; 其次是選擇可以從小型任務泛化到更大、SOTA 任務的算法。 為了應對這些挑戰。 該研究採用了一系列技術,包括具有熱啟動和重啟的進化搜索、抽象執行、funnel 選擇和程序簡化。

 

鏈接:

https://mp.weixin.qq.com/s/QK7mBxmjkNfWyLKiNhTL2Q

 

16. YOLOv5全面解析教程③:更快更好的邊界框迴歸損失

 

本文總結了邊界框迴歸中的三個幾何因素,即重疊面積(overlap area)、中心點距離(central point distance)和高寬比(aspect ratio),在此基礎上提出了完全IoU(CIoU)損失,從而促進了更快的收斂和更優的性能。

 

鏈接:

https://mp.weixin.qq.com/s/LIOnJqJj_GrpakKbLeWEDQ

 

17. 下載量突破10億,MinIO的開源啟示錄

 

在開源創業公司裏,MinIO的成長之路對其他開源企業/項目來説無疑是一個很好的參考範例。近期,他們的CMO Jonathan Symonds在一篇博客中分享了MinIO如何超越專有軟件公司,以及如何在未來鞏固自身優勢,重點闡述了他們在開源商業模式、產品、社區構建以及開源信仰方面的想法,這些內容或許值得開源社區的初創企業借鑑。

 

鏈接:

https://mp.weixin.qq.com/s/ecgooN_5ggM3lS6AXThEDg

 

 

其他人都在看

歡迎Star、試用OneFlow最新版本:https://github.com/Oneflow-Inc/oneflow/

 


 

 

本文分享自微信公眾號 - OneFlow(OneFlowTechnology)。
如有侵權,請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閲讀的你也加入,一起分享。