OneFlow v0.9.0正式釋出
今天是 OneFlow 開源的第 903 天,OneFlow v0.9.0 正式釋出。本次更新包含 640 個 commit,完整更新列表請檢視連結:http://github.com/Oneflow-Inc/oneflow/releases/tag/v0.9.0 ,歡迎下載體驗新版本,期待你的反饋。
OneFlow v0.9.0 主要包括以下新增亮點功能和優化:
1. PyTorch 相容性
OneFlow 對 PyTorch API 和 模型的相容性進一步提升。 新增與 PyTorch 對齊的 86 個 API 介面 和 運算元, 修復了 104 個運算元相容性相關的 bug。支援更多的 PyTorch 模型一鍵遷移成 OneFlow 模型,並獲得性能加速。
- 支援 Stable Diffusion、GLM、YOLOv5等模型一鍵遷移為 OneFlow 模型
- oneflow.load 支援直接載入 torch.save 的模型,模型遷移更方便
- 新增 oneflow.mock_torch 模組 與 mock 方法(http://docs.oneflow.org/master/cookies/oneflow_torch.html ),可以在不改變 PyTorch 的原始指令碼的情況下,一鍵遷移包含多個指令碼的複雜 PyTorch 模型。
2. 分散式程式設計易用性
Global Tensor 新增一系列方便分散式程式設計的介面與方法,並且修復了已知的相關 bug。
3. 支援自動並行
Graph 釋出自動並行新特性(version 1) , 支援在指定 Placement 下自動搜尋速度最快的 SBP 組合,使用 Global Tensor 編寫分散式模型無需糾結是資料並行、模型並行還是混合並行。
文件參見:
http://oneflow.readthedocs.io/en/master/auto_parallel.html
4. 效能優化
Graph 新增一系列與記憶體、執行速度、流水掩蓋、編譯速度相關的優化,提升效能,降低視訊記憶體開銷。
新增一系列運算元優化與系統優化, 包括 Eager 的指令排程、高效能 CUDA kernel 、多記憶體池打通 等。
相比原始的基於 PyTorch、DeepSpeed、Apex 的 GLM 實現,基於OneFlow v0.9.0 訓練 GLM-large(335M) 預訓練模型,在簡單調優後效能最高提升 3 倍,視訊記憶體節省 1/3。
而在 Stable Diffusion 推理的效能表現上,在 A100 顯示卡,無論是 PCIe 40GB 還是 SXM 80GB 的配置,相比其他深度學習框架或編譯器,OneFlow 的效能都是最快的。
5. 除錯功能
Graph 提供一系列輔助除錯的功能,包括:記憶體分析日誌、編譯階段進度顯示、計算圖展示等。
6. IR
OneFlow IR 支援 JIT 編譯 LR 程式碼、分散式描述 SBP signature 以及新增 OKL Dialect 等更多編譯優化功能。
7. OneFlow-ONNX 工具
OneFlow-ONNX v0.6.0 版本釋出,提升了轉換介面的易用性,開發了多個新的特性,並新增支援 6 種模型以及 20 餘種 Op,以及修復 6 個轉換過程中的 bug。pip install oneflow-onnx==0.6.0 一鍵安裝使用 。
倉庫地址:http://github.com/Oneflow-Inc/oneflow_convert
8. 報錯資訊提示
報錯資訊提示更加友好,支援高亮顯示報錯內容,簡化大量系統內部資訊細節,可以直觀地瞭解出錯的位置和型別。
完整版 OneFlow v0.9.0 更新內容請檢視:
http://github.com/Oneflow-Inc/oneflow/releases/tag/v0.9.0
感謝以下貢獻者:
liujuncheng, BBuf, wyg1997, jackalcooper, Flowingsun007, clackhan, daquexian, marigoold, lixinqi, guo-ran, hjchen2, strint, ouyangyu, MARD1NO, small1945, reygu, Ldpe2G, leaves-zwx, Yipeng1994, zhongshsh, lixiang007666, mosout, chengtbf, hhhfccz, doombeaker, howin98, xiacijie, farmerzhang1, shangguanshiyuan, JasonChen9, liufengwei0103, youxiudeshouyeren, laoliu97, EsdeathYZH, rejoicesyc, AsakusaRinne, LijunZhang01, Chenqll, xiezipeng-ML, simonJJJ, ShawnXuan
歡迎 Star、試用 OneFlow 最新版本:
http://github.com/Oneflow-Inc/oneflow/
- 如何看待PyTorch 2.0?
- 開源ChatGPT要來了;軟體2.0智慧革命;GLM、Diffusion模型大加速
- ChatGPT背後的經濟賬
- ChatGPT進化的祕密
- OneFlow v0.9.0正式釋出
- OneFlow原始碼解析:自動微分機制
- 大模型狂歡背後:AI基礎設施的“老化”與改造工程
- 李白:你的模型權重很不錯,可惜被我沒收了
- 進擊的PyTorch,和它背後的開源領袖
- Hugging Face:成為機器學習界的“GitHub”
- OneFlow的大模型分片儲存和載入策略
- CUDA入門教程;Transformer太火不是好事?;探求GPU極限效能的利器|AI系統前沿動態
- 深挖Cerebras:世界上最大AI晶片的架構設計
- OneFlow原始碼解析:Tensor型別體系與Local Tensor
- 逆向工程:揭示Google Colab未公開的祕密
- 一塊GPU訓練TB級推薦模型不是夢,OneEmbedding效能一騎絕塵
- GPU加速Pinterest推薦模型,引數量增加100倍,使用者活躍度提高16%
- OneFlow原始碼解析:Op、Kernel與直譯器
- 一種分散式深度學習程式設計新正規化:Global Tensor
- 大模型訓練難於上青天?效率超群、易用的“李白”模型庫來了