GPT-4問世;LLM訓練指南;純瀏覽器跑Stable Diffusion

語言: CN / TW / HK

 

1.多模GPT-4正式釋出:支援影象和文字輸入,效果超越ChatGPT

 

OpenAI的里程碑之作GPT-4終於釋出,這是一個多模態大模型(接受影象和文字輸入,生成文字)。主要能力有:

 

  • GPT-4可以更準確地解決難題,具有更廣泛的常識和解決問題的能力: 更具創造性和協作性;可以接受影象作為輸入並生成說明文字、分類和分析;能夠處理超過 25,000 個單詞的文字,允許長文內容建立、擴充套件對話以及文件搜尋和分析等用例。

 

  • GPT-4的高階推理能力超越了ChatGPT。

 

  • 在SAT等絕大多數專業測試以及相關學術基準評測中,GPT-4的分數高於ChatGPT。

 

 

  • GPT-4遵循GPT、GPT-2和GPT-3的研究路徑,利用更多資料和更多計算來建立越來越複雜和強大的語言模型(資料量和模型引數並未公佈)。

     

 

  • OpenAI花了6個月時間使GPT-4更安全、更具一致性。 在內部評估中,與GPT-3.5相比,GPT-4對不允許內容做出迴應的可能性降低82%,給出事實性迴應的可能性高40%。

     

     

  • 安全與對齊:引入了更多人類反饋資料進行訓練,以改進GPT-4的行為;不斷吸取現實世界使用的經驗教訓進行改進;GPT-4的高階推理和指令遵循能力加快的安全性研究工作。

 

OpenAI還開源了Evals框架(https://github.com/openai/evals),以自動評估AI模型效能,允許使用者報告模型中的缺點,以幫助其改進。

 

OpenAI表示,GPT-4仍然有許多正在努力解決的已知侷限性,例如社會偏見、幻覺和對抗性prompt。目前,OpenAI正在ChatGPT Plus上提供GPT-4,併為開發人員提供API以構建應用和服務。值得一提的是,微軟的New Bing早就用上了GPT-4。

 

連結:
API申請:https://openai.com/waitlist/gpt-4-api;

https://openai.com/product/gpt-4;
https://mp.weixin.qq.com/s/kA7FBZsT6SIvwIkRwFS-xw

 

2. OpenAI釋出通用人工智慧路線圖:AGI比想象中來得更快

 

在ChatGPT引爆科技圈之後,人們對於先進技術產生了更多期待,但一直有專家警告 AI 可能造成的危害。我們知道,OpenAI的使命是確保通用人工智慧 —— 比人類更聰明的AI系統,能夠造福全人類。近期,OpenAI釋出了「AGI 路線圖」,詳細解釋了這家前沿研究機構對通用人工智慧研究的態度。


連結:

https://mp.weixin.qq.com/s/zu1a9p3nDTdk_lZ_-y8XFA

 

3. 超越ChatGPT:大模型的智慧極限

 

在此前《 大型語言模型的湧現能力 》、《 ChatGPT進化的祕密 》兩篇文章中,符堯剖析了大型語言模型的突現能力和潛在優勢,大模型所帶來的“潛在的”正規化轉變,並拆解了ChatGPT演進的技術路線圖。

 

在本文中,作者以終為始分析了大模型的智慧極限及其演進維度。不同於刻舟求劍式只追求復現ChatGPT的經典網際網路產品思維,而是指出了OpenAI組織架構和尖端人才密度的重要性,更重要的是,分享了模型演化與產品迭代及其未來,思考了如何把最深刻、最困難的問題,用最創新的方法來解決。

 

連結:

https://mp.weixin.qq.com/s/PteNTHckNAP1iVq10JuONQ

 

4. 大型語言模型訓練指南

 

近年來,訓練越來越大的語言模型已成為常態(悟道2.0模型引數量已經到達1.75T ,為GPT-3的10倍)。但如何訓練大型語言模型的資訊卻很少查到 。

 

連結:

https://zhuanlan.zhihu.com/p/611325149

 

5. 大模型的三個基礎假設

 

1. 開源模型會大大降低准入門檻;2. 應用為王,模型為輔;3. 企業市場需要新的平臺服務

 

連結:

https://mp.weixin.qq.com/s/jC-_B_arDpm1dsEmJLZYIw

 

6. GPT-3/ChatGPT復現的經驗教訓

 

為什麼所有公開的對GPT-3的復現都失敗了?我們應該在哪些任務上使用GPT-3.5或ChatGPT?對於那些想要復現一個屬於自己的GPT-3或ChatGPT的人而言,第一個問題是關鍵的。第二個問題則對那些想要使用它們的人是重要的。

 

連結:

https://mp.weixin.qq.com/s/4B7wX0UhYjWGgozREa2b9w

 

7. ChatGPT搜尋的推理成本分析

 

實際上,每週推理ChatGPT的成本都超過了其訓練成本。目前ChatGPT每天的推理成本為700,000美元。如果直接將當前的ChatGPT整合到谷歌的每次搜尋當中,那麼谷歌的搜尋成本將大幅上升,達到360億美元。谷歌服務業務部門的年淨收入將從2022年的555億美元下降至195億美元。若將“類ChatGPT”的LLM部署到搜尋中,則意味著谷歌要將300億美元的利潤轉移到計算成本上。

 

連結:

https://mp.weixin.qq.com/s/JHIUc_3nfnxv-m_4YUC1Tw

 

8. ChatGPT模型引數≠1750億,有人用反證法進行了證明

 

本文將使用反證法來證明並支援上面的論點,只需要使用大學裡學到的一些理論知識。另外需要注意,還存在相反的問題,即有人聲稱ChatGPT只有X億個引數(X遠遠低於1750)。但是,這些說法無法得到驗證,因為說這些話的人通常是道聽途說。

 

連結:

https://mp.weixin.qq.com/s/lzIQ50GCKGEPu1Yzs-7FnQ

 

9. 從0到1,OpenAI的創立之路

 

最近,ChatGPT讓國內不少精英再一次感受到落後的緊迫感,不少創業團隊要打造“中國版的OpenAI”。我們不乏真正有抱負的創業者,但想象一下,如果在2015年已經有一支OpenAI團隊,Sam Altman和Greg Brockman這群人很可能會去打造另一支不同於它的“DeepMind”團隊,而不會稱自己要去打造“矽谷版的OpenAI”,並且是為了復現ChatGPT。

 

連結:

https://mp.weixin.qq.com/s/E1_30D9Jw1XHBQnrrSh4NQ

 

10. 清華朱軍團隊開源首個基於Transformer的多模態擴散大模型

 

當前的擴散模型DALL・E 2、Imagen、Stable Diffusion等在視覺創作上掀起一場革命,但這些模型僅僅支援文到圖的單一跨模態功能,離通用式生成模型還有一定距離。而多模態大模型將能夠打通各種模態能力,實現任意模態之間轉化,被認為是通用式生成模型的未來發展方向。

 

清華大學計算機系朱軍教授帶領的TSAIL團隊近期公開的一篇論文《One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale》,率先發布了對多模態生成式模型的一些探索工作,實現了任意模態之間的相互轉化。

 

連結:

https://mp.weixin.qq.com/s/B68hXlFxA9L5jiWiMrEEiA

 

11. 編譯器技術的演進與變革

 

在現代計算機系統中,編譯器已經成為一個必不可少的基礎軟體工具。程式設計師通過高階語言對底層硬體進行程式設計,而編譯器則負責將高階語言描述轉換為底層硬體可以執行的機器指令。編譯器在將應用程式翻譯到機器指令的過程中,還需要對程式進行等價變換,從而讓程式能夠更加高效地在硬體上執行。

 

連結:

https://mp.weixin.qq.com/s/wJxDPX-HwvhgnoksTXGyMg

 

12. AI開發大一統:谷歌OpenXLA開源,整合所有框架和AI晶片

 

如今,機器學習開發和部署受到碎片化的基礎設施的影響,這些基礎設施可能因框架、硬體和用例而異。這種相互隔絕限制了開發人員的工作速度,並對模型的可移植性、效率和生產化造成了障礙。通過建立與多種不同機器學習框架、硬體平臺共同工作的統一機器學習編譯器,OpenXLA可以加速機器學習應用的交付並提供更大的程式碼可移植性。

 

連結:

https://mp.weixin.qq.com/s/p8daMLluTQAEuj_HNzRA6Q

 

13. OpenAI Triton介紹

 

深度學習領域的新穎研究思想通常是使用原生框架運算子的組合來實現的。雖然方便,但這種方法通常需要建立許多臨時張量,這可能會損害神經網路的大規模效能。這些問題可以通過編寫專門的GPU核心來緩解,但由於GPU程式設計的許多複雜性,這樣做可能會非常困難。

 

儘管最近出現了各種系統以簡化此過程,但我們發現它們要麼過於冗長、缺乏靈活性,要麼生成程式碼的速度明顯慢於我們手動調整的基線。因此,一種最新的語言和編譯器由此就誕生了。

 

連結:

https://zhuanlan.zhihu.com/p/606435901

 

14. PyTorch視訊記憶體分配原理:以BERT為例

 

為什麼在nvidia-smi顯示的視訊記憶體和實際佔用不一致?模型訓練和推理視訊記憶體分別佔用多大?如何節約視訊記憶體,提高視訊記憶體利用率?Fp16有用嗎?可以節省多少視訊記憶體?如何估算模型佔用大小?這篇文章將會解決這些問題。

 

連結:

https://zhuanlan.zhihu.com/p/527143823

 

15. OneFlow原始碼解析:Eager模式下的SBP Signature推導

 

SBP是OneFlow中獨有的概念,其描述了張量邏輯上的資料與張量在真實物理裝置叢集上存放的資料之間的一種對映關係。SBP Signature即SBP簽名,是OneFlow中獨創且很重要的概念。

 

連結:

https://mp.weixin.qq.com/s/E2pL7OnMhcHjISJ_jcs9rA

 

16. 面向Web的機器學習編譯突破:純瀏覽器執行Stable Diffusion

 

本文介紹了Web Stable Diffusion。這是世界上的第一個通過深度學習編譯技術將 stable diffusion 完全執行在瀏覽器中的專案。模型的全部一切都執行在瀏覽器裡,無需雲端伺服器支援。

 

連結:

https://zhuanlan.zhihu.com/p/612517660

 

17. YOLOv5全面解析教程④:目標檢測模型精確度評估

 

連結:

https://mp.weixin.qq.com/s/nvfAU6TwTDoZhF8zFpCaOw

 

 

其他人都在看

歡迎Star、試用OneFlow: github.com/Oneflow-Inc/oneflow/

 


 

本文分享自微信公眾號 - OneFlow(OneFlowTechnology)。
如有侵權,請聯絡 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閱讀的你也加入,一起分享。