伯克利『全棧深度學習』2022最新課程;谷歌『基於Transformers的通用超參數優化』經驗分享;動圖編輯器;前沿論文 | ShowMeAI資訊日報
我報名參加金石計劃1期挑戰——瓜分10萬獎池,這是我的第X篇文章,點擊查看活動詳情
工具&框架
🚧 『PyDeepFakeDet』Deepfake 換臉檢測庫
https://github.com/wangjk666/PyDeepFakeDet
PyDeepFakeDet 是由復旦大學視覺與學習實驗室開發的一個集成的、可擴展的 Deepfake 檢測工具。
其目標是提供最先進的 Deepfake 檢測模型,以及在常用的 Deepfake 數據集上訓練和評估新模型的接口。
🚧 『EasyCV』PyTorch 一站式計算機視覺工具箱
https://github.com/alibaba/EasyCV
EasyCV 是一個涵蓋多個領域的基於 Pytorch 的計算機視覺工具箱,聚焦自監督學習和視覺transformer關鍵技術,覆蓋主流的視覺建模任務例如圖像分類,度量學習,目標檢測,關鍵點檢測等。
🚧 『Motionity』Web 界面的動圖編輯器
https://github.com/alyssaxuu/motionity
Motionity 是一個免費和開源的網絡動畫編輯器。它是 After Effects 和 Canva 的混合體,具有強大的功能,如關鍵幀、遮蓋、過濾等,並集成了瀏覽內容的功能,輕鬆拖入你的視頻即可處理。
🚧 『Jumanji』用 JAX 寫的行業驅動的硬件加速強化學習環境
https://github.com/instadeepai/jumanji
https://instadeepai.github.io/jumanji/
Jumanji 是一套用 JAX 編寫的強化學習(RL)環境,為行業驅動的研究提供乾淨、硬件加速的環境。 Jumanji 的高速環境能夠實現更快的迭代和更大規模的實驗,同時降低複雜性。Jumanji 起源於 InstaDeep 的研究團隊。
🚧 『OCRmyPDF』為掃描 PDF 增加 OCR 功能
https://github.com/ocrmypdf/OCRmyPDF
http://ocrmypdf.readthedocs.io/
PDF 是存儲和交換掃描文件的最佳格式,但是難以修改。 OCRmyPDF 工具將圖像處理和 OCR 文字識別功能應用於 PDF 編輯,輕鬆地為掃描的 PDF 文件添加 OCR 文本層,使其能夠被搜索或複製粘貼。
博文&分享
👍 『Full Stack Deep Learning』伯克利·全棧深度學習·(2022 免費課程)
https://fullstackdeeplearning.com/course/2022/
https://www.youtube.com/playlist?list=PL1T8fO7ArWleMMI8KPJ_5D5XSlovTW_Ur
FSDL是一個學習社區,將人們聚集在一起,學習和分享全棧最佳實踐:從問題選擇、數據管理和選擇 GPU 到 Web 部署、監控和再培訓。這是2022年最新版『全棧深度學習課程』,內容包括:
- ① 深度學習技術(包括CNN, RNN, Transformers等)
- ② AI倫理內容(介紹responsible AI/Ethics的一些研究內容)
- ③ 測試跟模型解釋(其中對測試部分的歸納非常系統)、AI部署和監控
課程安排如下:
- 第1講:課程願景和何時使用 ML
- 第2講:開發基礎設施和工具
- 第3講:故障排除和測試
- 第4講:數據管理
- 第5講:數據管理
- 第6講:持續學習
實驗安排如下:
- 實驗1-3:CNN、Transformers、PyTorch Lightning
- 實驗4:實驗管理
- 實驗5:故障排除和測試
- 實驗6:數據註釋
- 實驗7:Web 部署
- 實驗8:Web 部署
👍 『OptFormer: Towards Universal Hyperparameter Optimization with Transformers』基於 Transformers 的通用超參數優化
https://ai.googleblog.com/2022/08/optformer-towards-universal.html
超參數優化對機器學習非常重要,對於機器學習模型的性能具有決定性的作用。在 Google 公司內部,Google Vizier 作為默認使用的機器學習部署過程的超參數優化平台,在過去 5 年中被調用超 1000 萬次。
這篇 Google 的博客分享了 OptFormer 這一基於 Transformer 的超參數調整框架,使用靈活的、基於文本的表示,從Google Vizier 追蹤到的大規模優化數據中學習。
數據&資源
🔥 『Representation Learning for Reinforcement Learning』面向強化學習的表示學習相關文獻列表
https://github.com/fuyw/RepL4RL
🔥 『Awesome Stable-Diffusion』Stable Diffusion 模型相關資源大列表
https://github.com/awesome-stable-diffusion/awesome-stable-diffusion
研究&論文
公眾號後台回覆關鍵字 日報,免費獲取整理好的論文合輯。
科研進展
- 2022.08.04 『看圖説話』 Prompt Tuning for Generative Multimodal Pretrained Models
- 2022.09.02 『看圖説話』 LiteDepth: Digging into Fast and Accurate Depth Estimation on Mobile Devices
- 2022.08.31 『計算機視覺』 Dual-Space NeRF: Learning Animatable Avatars and Scene Lighting in Separate Spaces
⚡ 論文:Prompt Tuning for Generative Multimodal Pretrained Models
論文時間:4 Aug 2022
領域任務:Image Captioning, Visual Entailment, 看圖説話
論文地址:https://arxiv.org/abs/2208.02532
代碼實現:https://github.com/ofa-sys/ofa
論文作者:Hao Yang, Junyang Lin, An Yang, Peng Wang, Chang Zhou, Hongxia Yang
論文簡介:Prompt tuning has become a new paradigm for model tuning and it has demonstrated success in natural language pretraining and even vision pretraining./調優prompt已成為模型調優的新範式,它已在自然語言預訓練甚至視覺預訓練中顯示出成功。
論文摘要:調優prompt已成為模型調優的新範式,它在自然語言預訓練甚至視覺預訓練中都表現出了成功。在這項工作中,我們探索了提示調諧向多模態預訓練的轉移,重點是生成性多模態預訓練模型,而不是對比性模型。具體來説,我們在統一的序列到序列的預訓練模型上實施提示調諧,以適應理解和生成任務。實驗結果表明,輕量級的提示調諧可以達到與微調相當的性能,並且超過了其他輕量級的調諧方法。此外,與微調模型相比,提示性調諧模型對對抗性攻擊表現出更好的魯棒性。我們進一步發現,包括提示長度、提示深度和重新參數化在內的實驗因素對模型性能有很大的影響,因此我們從經驗上對提示調諧的設置提出了建議。儘管觀察到了這些優點,我們仍然發現了提示調諧的一些侷限性,並相應地指出了未來研究的方向。代碼可在 https://github.com/OFA-Sys/OFA 獲取。
⚡ 論文:LiteDepth: Digging into Fast and Accurate Depth Estimation on Mobile Devices
論文時間:2 Sep 2022
領域任務:Data Augmentation, Monocular Depth Estimation,數據增強
論文地址:https://arxiv.org/abs/2209.00961
代碼實現:https://github.com/zhyever/litedepth
論文作者:Zhenyu Li, Zehui Chen, Jialei Xu, Xianming Liu, Junjun Jiang
論文簡介:Notably, our solution named LiteDepth ranks 2nd in the MAI&AIM2022 Monocular Depth Estimation Challenge}, with a si-RMSE of 0. 311, an RMSE of 3. 79, and the inference time is 37$ms$ tested on the Raspberry Pi 4./值得注意的是,我們名為LiteDepth的解決方案在MAI&AIM2022單眼深度估計挑戰賽}中排名第二,在Raspberry Pi 4上測試的si-RMSE為0.311,RMSE為3.79,推理時間為37ms。
論文摘要:單眼深度估計是計算機視覺界的一項重要任務。雖然很多成功的方法都取得了很好的效果,但它們中的大多數都是計算昂貴的,而且不適用於實時的設備推斷。在本文中,我們的目標是解決單眼深度估計的更多實際應用,其中的解決方案不僅要考慮精度,還要考慮移動設備上的推理時間。為此,我們首先開發了一個基於端到端學習的模型,其權重大小很小(1.4MB),推理時間很短(在Raspberry Pi 4上為27FPS)。然後,我們提出了一個簡單而有效的數據擴充策略,稱為R2 crop,以提高模型的性能。此外,我們觀察到,只用一個單一損失項訓練的簡單輕量級模型將遭受性能瓶頸。為了緩解這個問題,我們採用了多個損失項來在訓練階段提供足夠的約束。此外,通過一個簡單的動態再加權策略,我們可以避免耗時的損失項的超參數選擇。最後,我們採用了結構感知的蒸餾法來進一步提高模型的性能。值得注意的是,我們名為LiteDepth的解決方案在MAI&AIM2022單眼深度估計挑戰賽}中排名第二,si-RMSE為0.311,RMSE為3.79,在Raspberry Pi 4上測試的推理時間為37ms。值得注意的是,我們提供了該挑戰的最快解決方案。代碼和模型將在 https://github.com/zhyever/LiteDepth 上發佈。
⚡ 論文:Dual-Space NeRF: Learning Animatable Avatars and Scene Lighting in Separate Spaces
論文時間:31 Aug 2022
領域任務:計算機視覺
論文地址:https://arxiv.org/abs/2208.14851
代碼實現:https://github.com/zyhbili/Dual-Space-NeRF
論文作者:YiHao Zhi, Shenhan Qian, Xinhao Yan, Shenghua Gao
論文簡介:Previous methods alleviate the inconsistency of lighting by learning a per-frame embedding, but this operation does not generalize to unseen poses./以前的方法通過學習每一幀的嵌入來緩解照明的不一致性,但這種操作並不能推廣到未見過的姿勢。
論文摘要:在一個典型的空間中對人體進行建模是捕捉和動畫的一種常見做法。但當涉及到神經輻射場(NeRF)時,在典範空間中學習靜態的NeRF是不夠的,因為即使場景照明是恆定的,當人移動時,身體的照明也會發生變化。以前的方法通過學習每一幀的嵌入來緩解光照的不一致性,但這種操作並不能推廣到未見過的姿勢。鑑於照明條件在世界空間中是靜態的,而人體在典型空間中是一致的,我們提出了一個雙空間的NeRF,用兩個MLPs在兩個獨立的空間中模擬場景照明和人體。為了連接這兩個空間,以前的方法大多依靠線性混合蒙皮(LBS)算法。然而,動態神經場的LBS的混合權重是難以解決的,因此通常用另一個MLP來記憶,這對新的姿勢沒有通用性。雖然可以借用參數化網格的混合權重,如SMPL,但插值操作會引入更多的偽影。在本文中,我們建議使用巴里中心映射,它可以直接泛化到未見過的姿勢,並且令人驚訝地取得了比使用神經混合權重的LBS更好的結果。在Human3.6M和ZJU-MoCap數據集上的定量和定性結果表明了我們方法的有效性。
我們是 ShowMeAI,致力於傳播AI優質內容,分享行業解決方案,用知識加速每一次技術成長!
◉ 點擊 日報合輯,在公眾號內訂閲話題 #ShowMeAI資訊日報,可接收每日最新推送。
◉ 點擊 電子月刊,快速瀏覽月度合輯。
- 感謝飛書放過幕布!100個GPT-4實戰案例;GPT-4免費平替Poe;AI繪畫新手指南之SD篇;new Bing靠譜教程 | ShowMeAI日報
- whylogs工具庫的工業實踐!機器學習模型流程與效果監控 ⛵
- 脈脈瘋傳!2023年程序員生存指南;多款prompt效率加倍工具;提示工程師最全祕籍;AI裁員正在發生 | ShowMeAI日報
- 中國風?古典系?AI中文繪圖創作嚐鮮!⛵
- Python中內置數據庫!SQLite使用指南!
- Pandas中你一定要掌握的時間序列相關高級功能
- 數據科學家賺多少?數據全分析與可視化 ⛵
- 交互式儀表板!Python輕鬆完成!⛵
- ChatGPT!我是你的破壁人;比爾·蓋茨不看好Web3與元宇宙;FIFA押中4屆世界盃冠軍;GitHub今日熱榜 | ShowMeAI資訊日報
- ChatGPT要收費了;華爾街大裁員;阿里2023十大科技趨勢;小紅書元宇宙虛擬服飾被吐槽;GitHub今日熱榜 | ShowMeAI資訊日報
- AI創業時代!這9個方向有錢途;AIGC再添霸榜應用Lensa;美團SemEval2022冠軍方法分享;醫學圖像處理工具箱… | ShowMeAI資訊日報
- 噓!P站數據分析年報;各省市疫情感染進度條;愛奇藝推出元宇宙App;You推出AI聊天機器人;GitHub今日熱榜 | ShowMeAI資訊日報
- 美國公司裁員潮時間線◉科技寒冬可視化;3份報告回顧中國開發者2022;自動駕駛下半場,誰會衝出重圍 | ShowMeAI每週通訊 #005-01.07
- 副業月入過萬?數據有話説;掃地機器人發展到哪步了;疫情後要不要重返辦公室;淘寶元宇宙直播間;GitHub今日熱榜 | ShowMeAI資訊日報
- 大戰谷歌!微軟Bing引入ChatGPT;羊了個羊40萬年薪招研發;Debian徹底移除Python2;GitHub今日熱榜 | ShowMeAI資訊日報
- 酸了!樂視工作制改為四天半;高通新年裁員;AI繪畫公司開始倒閉;網易入股張藝謀元宇宙公司;GitHub今日熱榜 | ShowMeAI資訊日報
- 要麼幹要麼滾!推特開始裁員了;深度學習產品應用·隨書代碼;可分離各種樂器音源的工具包;Transformer教程;前沿論文 | ShowMeAI資訊日報
- 真實世界的人工智能應用落地——OpenAI篇 ⛵
- 陽過→陽康,數據裏的時代側影;谷歌慌了!看各公司如何應對ChatGPT;兩份優質AI年報;本週技術高光時刻 | ShowMeAI每週通訊 #003-12.24
- 用魔法打敗魔法!這件毛衣讓攝像頭看不到你;兩款酷炫的AI寫作軟件;快如閃電的B站下載工具;基於擴散模型的蛋白質設計 | ShowMeAI資訊日報