伯克利『全棧深度學習』2022最新課程;谷歌『基於Transformers的通用超引數優化』經驗分享;動圖編輯器;前沿論文 | ShowMeAI資訊日報

語言: CN / TW / HK

我報名參加金石計劃1期挑戰——瓜分10萬獎池,這是我的第X篇文章,點選檢視活動詳情

👀日報合輯 | 📆電子月刊 | 🔔公眾號下載資料 | 🍩@韓信子

工具&框架

🚧 『PyDeepFakeDet』Deepfake 換臉檢測庫

https://github.com/wangjk666/PyDeepFakeDet

PyDeepFakeDet 是由復旦大學視覺與學習實驗室開發的一個整合的、可擴充套件的 Deepfake 檢測工具。

其目標是提供最先進的 Deepfake 檢測模型,以及在常用的 Deepfake 資料集上訓練和評估新模型的介面。

🚧 『EasyCV』PyTorch 一站式計算機視覺工具箱

https://github.com/alibaba/EasyCV

EasyCV 是一個涵蓋多個領域的基於 Pytorch 的計算機視覺工具箱,聚焦自監督學習和視覺transformer關鍵技術,覆蓋主流的視覺建模任務例如影象分類,度量學習,目標檢測,關鍵點檢測等。

🚧 『Motionity』Web 介面的動圖編輯器

https://github.com/alyssaxuu/motionity

Motionity 是一個免費和開源的網路動畫編輯器。它是 After Effects 和 Canva 的混合體,具有強大的功能,如關鍵幀、遮蓋、過濾等,並集成了瀏覽內容的功能,輕鬆拖入你的影片即可處理。

🚧 『Jumanji』用 JAX 寫的行業驅動的硬體加速強化學習環境

https://github.com/instadeepai/jumanji

https://instadeepai.github.io/jumanji/

Jumanji 是一套用 JAX 編寫的強化學習(RL)環境,為行業驅動的研究提供乾淨、硬體加速的環境。 Jumanji 的高速環境能夠實現更快的迭代和更大規模的實驗,同時降低複雜性。Jumanji 起源於 InstaDeep 的研究團隊。

🚧 『OCRmyPDF』為掃描 PDF 增加 OCR 功能

https://github.com/ocrmypdf/OCRmyPDF

http://ocrmypdf.readthedocs.io/

PDF 是儲存和交換掃描檔案的最佳格式,但是難以修改。 OCRmyPDF 工具將影象處理和 OCR 文字識別功能應用於 PDF 編輯,輕鬆地為掃描的 PDF 檔案新增 OCR 文字層,使其能夠被搜尋或複製貼上。

博文&分享

👍 『Full Stack Deep Learning』伯克利·全棧深度學習·(2022 免費課程)

https://fullstackdeeplearning.com/course/2022/

https://www.youtube.com/playlist?list=PL1T8fO7ArWleMMI8KPJ_5D5XSlovTW_Ur

FSDL是一個學習社群,將人們聚集在一起,學習和分享全棧最佳實踐:從問題選擇、資料管理和選擇 GPU 到 Web 部署、監控和再培訓。這是2022年最新版『全棧深度學習課程』,內容包括:

  • ① 深度學習技術(包括CNN, RNN, Transformers等)
  • ② AI倫理內容(介紹responsible AI/Ethics的一些研究內容)
  • ③ 測試跟模型解釋(其中對測試部分的歸納非常系統)、AI部署和監控

課程安排如下

  • 第1講:課程願景和何時使用 ML
  • 第2講:開發基礎設施和工具
  • 第3講:故障排除和測試
  • 第4講:資料管理
  • 第5講:資料管理
  • 第6講:持續學習

實驗安排如下

  • 實驗1-3:CNN、Transformers、PyTorch Lightning
  • 實驗4:實驗管理
  • 實驗5:故障排除和測試
  • 實驗6:資料註釋
  • 實驗7:Web 部署
  • 實驗8:Web 部署

👍 『OptFormer: Towards Universal Hyperparameter Optimization with Transformers』基於 Transformers 的通用超引數優化

https://ai.googleblog.com/2022/08/optformer-towards-universal.html

超引數優化對機器學習非常重要,對於機器學習模型的效能具有決定性的作用。在 Google 公司內部,Google Vizier 作為預設使用的機器學習部署過程的超引數優化平臺,在過去 5 年中被呼叫超 1000 萬次。

這篇 Google 的部落格分享了 OptFormer 這一基於 Transformer 的超引數調整框架,使用靈活的、基於文字的表示,從Google Vizier 追蹤到的大規模優化資料中學習。

資料&資源

🔥 『Representation Learning for Reinforcement Learning』面向強化學習的表示學習相關文獻列表

https://github.com/fuyw/RepL4RL

🔥 『Awesome Stable-Diffusion』Stable Diffusion 模型相關資源大列表

https://github.com/awesome-stable-diffusion/awesome-stable-diffusion

研究&論文

公眾號後臺回覆關鍵字 日報,免費獲取整理好的論文合輯。

科研進展

  • 2022.08.04 『看圖說話』 Prompt Tuning for Generative Multimodal Pretrained Models
  • 2022.09.02 『看圖說話』 LiteDepth: Digging into Fast and Accurate Depth Estimation on Mobile Devices
  • 2022.08.31 『計算機視覺』 Dual-Space NeRF: Learning Animatable Avatars and Scene Lighting in Separate Spaces

⚡ 論文:Prompt Tuning for Generative Multimodal Pretrained Models

論文時間:4 Aug 2022

領域任務:Image Captioning, Visual Entailment, 看圖說話

論文地址:https://arxiv.org/abs/2208.02532

程式碼實現:https://github.com/ofa-sys/ofa

論文作者:Hao Yang, Junyang Lin, An Yang, Peng Wang, Chang Zhou, Hongxia Yang

論文簡介:Prompt tuning has become a new paradigm for model tuning and it has demonstrated success in natural language pretraining and even vision pretraining./調優prompt已成為模型調優的新正規化,它已在自然語言預訓練甚至視覺預訓練中顯示出成功。

論文摘要:調優prompt已成為模型調優的新正規化,它在自然語言預訓練甚至視覺預訓練中都表現出了成功。在這項工作中,我們探索了提示調諧向多模態預訓練的轉移,重點是生成性多模態預訓練模型,而不是對比性模型。具體來說,我們在統一的序列到序列的預訓練模型上實施提示調諧,以適應理解和生成任務。實驗結果表明,輕量級的提示調諧可以達到與微調相當的效能,並且超過了其他輕量級的調諧方法。此外,與微調模型相比,提示性調諧模型對對抗性攻擊表現出更好的魯棒性。我們進一步發現,包括提示長度、提示深度和重新引數化在內的實驗因素對模型效能有很大的影響,因此我們從經驗上對提示調諧的設定提出了建議。儘管觀察到了這些優點,我們仍然發現了提示調諧的一些侷限性,並相應地指出了未來研究的方向。程式碼可在 https://github.com/OFA-Sys/OFA 獲取。

⚡ 論文:LiteDepth: Digging into Fast and Accurate Depth Estimation on Mobile Devices

論文時間:2 Sep 2022

領域任務:Data Augmentation, Monocular Depth Estimation,資料增強

論文地址:https://arxiv.org/abs/2209.00961

程式碼實現:https://github.com/zhyever/litedepth

論文作者:Zhenyu Li, Zehui Chen, Jialei Xu, Xianming Liu, Junjun Jiang

論文簡介:Notably, our solution named LiteDepth ranks 2nd in the MAI&AIM2022 Monocular Depth Estimation Challenge}, with a si-RMSE of 0. 311, an RMSE of 3. 79, and the inference time is 37$ms$ tested on the Raspberry Pi 4./值得注意的是,我們名為LiteDepth的解決方案在MAI&AIM2022單眼深度估計挑戰賽}中排名第二,在Raspberry Pi 4上測試的si-RMSE為0.311,RMSE為3.79,推理時間為37ms。

論文摘要:單眼深度估計是計算機視覺界的一項重要任務。雖然很多成功的方法都取得了很好的效果,但它們中的大多數都是計算昂貴的,而且不適用於實時的裝置推斷。在本文中,我們的目標是解決單眼深度估計的更多實際應用,其中的解決方案不僅要考慮精度,還要考慮移動裝置上的推理時間。為此,我們首先開發了一個基於端到端學習的模型,其權重大小很小(1.4MB),推理時間很短(在Raspberry Pi 4上為27FPS)。然後,我們提出了一個簡單而有效的資料擴充策略,稱為R2 crop,以提高模型的效能。此外,我們觀察到,只用一個單一損失項訓練的簡單輕量級模型將遭受效能瓶頸。為了緩解這個問題,我們採用了多個損失項來在訓練階段提供足夠的約束。此外,通過一個簡單的動態再加權策略,我們可以避免耗時的損失項的超引數選擇。最後,我們採用了結構感知的蒸餾法來進一步提高模型的效能。值得注意的是,我們名為LiteDepth的解決方案在MAI&AIM2022單眼深度估計挑戰賽}中排名第二,si-RMSE為0.311,RMSE為3.79,在Raspberry Pi 4上測試的推理時間為37ms。值得注意的是,我們提供了該挑戰的最快解決方案。程式碼和模型將在 https://github.com/zhyever/LiteDepth 上釋出。

⚡ 論文:Dual-Space NeRF: Learning Animatable Avatars and Scene Lighting in Separate Spaces

論文時間:31 Aug 2022

領域任務計算機視覺

論文地址:https://arxiv.org/abs/2208.14851

程式碼實現:https://github.com/zyhbili/Dual-Space-NeRF

論文作者:YiHao Zhi, Shenhan Qian, Xinhao Yan, Shenghua Gao

論文簡介:Previous methods alleviate the inconsistency of lighting by learning a per-frame embedding, but this operation does not generalize to unseen poses./以前的方法通過學習每一幀的嵌入來緩解照明的不一致性,但這種操作並不能推廣到未見過的姿勢。

論文摘要:在一個典型的空間中對人體進行建模是捕捉和動畫的一種常見做法。但當涉及到神經輻射場(NeRF)時,在典範空間中學習靜態的NeRF是不夠的,因為即使場景照明是恆定的,當人移動時,身體的照明也會發生變化。以前的方法通過學習每一幀的嵌入來緩解光照的不一致性,但這種操作並不能推廣到未見過的姿勢。鑑於照明條件在世界空間中是靜態的,而人體在典型空間中是一致的,我們提出了一個雙空間的NeRF,用兩個MLPs在兩個獨立的空間中模擬場景照明和人體。為了連線這兩個空間,以前的方法大多依靠線性混合蒙皮(LBS)演算法。然而,動態神經場的LBS的混合權重是難以解決的,因此通常用另一個MLP來記憶,這對新的姿勢沒有通用性。雖然可以借用引數化網格的混合權重,如SMPL,但插值操作會引入更多的偽影。在本文中,我們建議使用巴里中心對映,它可以直接泛化到未見過的姿勢,並且令人驚訝地取得了比使用神經混合權重的LBS更好的結果。在Human3.6M和ZJU-MoCap資料集上的定量和定性結果表明了我們方法的有效性。

我們是 ShowMeAI,致力於傳播AI優質內容,分享行業解決方案,用知識加速每一次技術成長!

◉ 點選 日報合輯,在公眾號內訂閱話題 #ShowMeAI資訊日報,可接收每日最新推送。

◉ 點選 電子月刊,快速瀏覽月度合輯。

「其他文章」