商湯OpenMMLab YOLO系列工具箱;慕尼黑工大『計算機視覺深度學習進階課』;伯克利『深度無監督學習課程』;前沿論文 | ShowMeAI資訊日報

語言: CN / TW / HK

持續創作,加速成長!這是我參與「掘金日新計劃 · 10 月更文挑戰」的第6天,點選檢視活動詳情

👀日報合輯 | 📆電子月刊 | 🔔公眾號下載資料 | 🍩@韓信子

工具&框架

🚧 『mmyolo』OpenMMLab YOLO 系列工具箱

https://github.com/open-mmlab/mmyolo

https://mmyolo.readthedocs.io/en/latest/

MMYOLO 是一個基於 PyTorch 和 MMDetection 的 YOLO 系列演算法開源工具箱。它是 OpenMMLab 專案的一部分。主分支程式碼目前支援 PyTorch 1.6 以上的版本。

🚧 『pe-bear』介面友好的PE檔案逆向工具

https://github.com/hasherezade/pe-bear

https://hshrzd.wordpress.com/pe-bear/

PE-bear 是一個跨平臺的PE檔案逆向工具。它的目標是為惡意軟體分析人員提供快速和靈活的『第一視角』,穩定並能夠處理異常的PE檔案。

🚧 『LAVIS』一站式語言-視覺智慧庫

https://github.com/salesforce/LAVIS

LAVIS 是一個用於 LAnguage-and-VISion(語言-視覺)智慧研究和應用的 Python 深度學習庫。這個庫的目的是為工程師和研究人員提供一個一站式的解決方案,為他們特定的多模態場景快速開發模型,並在標準和定製的資料集上進行基準測試。它有一個統一的介面設計,支援:

  • 10多個任務(檢索、字幕、視覺問題回答、多模態分類等)
  • 20多個數據集(COCO、Flickr、Nocaps、Conceptual Commons、SBU等)
  • 30多個經過預訓練的最先進的基礎語視模型的權重及其特定任務的適應性(包括ALBEF、BLIP、ALPRO、CLIP)

🚧 『Obsidian Tasks』Obsidian 知識庫的工作管理員

https://github.com/obsidian-tasks-group/obsidian-tasks

https://obsidian-tasks-group.github.io/obsidian-tasks/

Obsidian Tasks 是 Obsidian 知識庫的工作管理員,跟蹤與查詢任務,並在你想做的地方將它們標記為已完成。支援截止時間、重複性任務、完成日期、檢查表專案的子集和過濾。

🚧 『sherpa-ncnn』使用下一代Kaldi與ncnn的實時語音識別工具

https://github.com/k2-fsa/sherpa-ncnn

https://k2-fsa.github.io/sherpa/ncnn/index.html

sherpa-ncnn是使用下一代Kaldi與ncnn的實時語音識別工具,有訓練好的預訓練模型,對英文可以做很好的識別支撐,中文的支援也正在更新開發中。

博文&分享

👍 『(ADL4CV) Advanced Deep Learning for Computer Vision』 慕尼黑工業大學 · 計算機視覺深度學習進階課

https://www.showmeai.tech/article-detail/343

https://www.bilibili.com/video/BV1Tf4y1L7wg/

ADL4CV,全稱是 Advanced Deep Learning for Computer vision (ADL4CV),是慕尼黑工大講授的計算機視覺方向進階課程,覆蓋深度學習計算機視覺基礎之上的進階深度內容,包括:神經網路可解釋性、相似度與度量學習、自注意力與transformer、圖神經網路、生成模型與GAN、無監督學習、影片處理、遷移學習等。

ADL4CV; Advanced Deep Learning for Computer Vision; 計算機視覺深度學習進階課

課程主要面向深度學習計算機視覺進階內容,有深度學習和計算機視覺基礎的同學可以通過本課程進階,學習到更深入的CV研究方向和內容。課程包含以下主題:

  • Introduction to the course and projects(課程與專案介紹
  • Neural network visualization and interpretability(神經網路視覺化與可解釋性
  • Similarity Learning(相似度與度量學習
  • Attention and transformers(注意力與transformer
  • Graph neural networks(圖神經網路
  • Autoencoders & VAE(自編碼器與VAE
  • Generative models I(生成模型與GANI
  • Generative models II(生成模型與GANII
  • Videos, autoregressive models, multi-dimensionality(影片處理、自迴歸模型、高維
  • Domain Adaptation and Transfer Learning(自適應與遷移學習
ADL4CV; Advanced Deep Learning for Computer Vision; 計算機視覺深度學習進階課

課程對應的資料和影片公開放出,ShowMeAI 對課程資料進行了梳理,整理成這份完備且清晰的資料包:

課程公開資料為第1章~第10章的 📚『課件/Slides』,製作得非常專業和用心,如下圖所示。

ADL4CV; Advanced Deep Learning for Computer Vision; 計算機視覺深度學習進階課

👍 『(CS294) Deep Unsupervised Learning』Berkeley 伯克利 · 深度無監督學習課程

https://www.showmeai.tech/article-detail/344

https://www.bilibili.com/video/BV1uq4y1p7fG

深度學習的研究方向包括一個非常重要的主題:對無標籤資料的應用。CS294 是頂級名校 UC 伯克利的課程,針對無監督學習的場景展開,包括深度生成模型自監督學習兩大主題。其中,生成模型使得對自然影象、音訊波形和文字語料庫等高維原始資料進行真實建模成為可能;而自監督學習演算法在逐步縮小監督表示學習和非監督表示學習之間的差距。

ADL4CV; Advanced Deep Learning for Computer Vision; 計算機視覺深度學習進階課

CS294 課程涵蓋了許多當前的最新研究和模型,是研究生級課程。對無監督學習和深度學習感興趣的小夥伴可以重點關注這門課程。課程包含以下主題:

  • Autoregressive Models(自迴歸模型
  • Flow Models(流模型
  • Latent Variable Models(變分自動編碼器
  • Generative Adversarial Networks(生成對抗網路
  • Self-Supervised Learning(自監督學習
  • Semi-Supervised Learning(半監督學習
  • Unsupervised Distribution Alignment(無監督分佈對齊
  • Compression(壓縮
  • Learning from Text (OpenAI)(文字學習
  • Representation Learning in Reinforcement Learning(表徵學習
ADL4CV; Advanced Deep Learning for Computer Vision; 計算機視覺深度學習進階課

ShowMeAI 對課程資料進行了梳理,整理成這份完備且清晰的資料包:

📚 課件(PDF)。Lecture 1-23所有章節。

📚 課程示例程式碼(.ipynb檔案)。可colab執行。

📚 課程作業與解答(.ipynb檔案)。Homework 1-4。可colab執行。

📚 deepul(.py檔案)。示例程式碼與作業輔助函式

ADL4CV; Advanced Deep Learning for Computer Vision; 計算機視覺深度學習進階課

資料&資源

🔥 『How DALL·E 2 Works』 DALL·E 2工作原理通俗解析

http://adityaramesh.com/posts/dalle2/dalle2.html

🔥 『Satellite imagery datasets containing ships』包含船隻的衛星影象資料集列表

https://github.com/JasonManesis/Satellite-Imagery-Datasets-Containing-Ships

用於船舶檢測、分類、語義分割、例項分割任務的雷達和光學衛星資料集列表。

研究&論文

公眾號後臺回覆關鍵字 日報,免費獲取整理好的論文合輯。

科研進展

  • 2022.09.22 『少樣本學習』 Efficient Few-Shot Learning Without Prompts
  • 2022.08.29 『自監督學習』 CounTR: Transformer-based Generalised Visual Counting
  • 2022.07.17 『物體重建』 An Algorithm for the SE(3)-Transformation on Neural Implicit Maps for Remapping Functions

⚡ 論文:Efficient Few-Shot Learning Without Prompts

論文時間:22 Sep 2022

領域任務:Few-Shot Learning,少樣本學習

論文地址:https://arxiv.org/abs/2209.11055

程式碼實現:https://github.com/huggingface/setfit

論文作者:Lewis Tunstall, Nils Reimers, Unso Eun Seo Jo, Luke Bates, Daniel Korat, Moshe Wasserblat, Oren Pereg

論文簡介:This simple framework requires no prompts or verbalizers, and achieves high accuracy with orders of magnitude less parameters than existing techniques./這個簡單的框架不需要提示或口述者,並以比現有技術少幾個數量級的引數實現了高精確度。

論文摘要:最近的一些方法,如引數有效微調(PEFT)和模式利用訓練(PET),在標籤稀缺的情況下取得了令人印象深刻的結果。然而,它們很難被採用,因為它們受制於手工製作的提示語的高變異性,並且通常需要十億個引數的語言模型來實現高精確度。為了解決這些缺點,我們提出了SetFit(句子變換器微調),這是一個高效且無提示的框架,用於對句子變換器(ST)進行少量微調。SetFit的工作原理是,首先以對比連帶的方式,在少量的文字對上對預訓練的ST進行微調。然後,產生的模型被用來生成豐富的文字嵌入,這些嵌入被用來訓練一個分類頭。這個簡單的框架不需要任何提示或口頭語,並且以比現有技術少幾個數量級的引數實現了高精確度。我們的實驗表明,SetFit獲得了與PEFT和PET技術相當的結果,同時其訓練速度快了一個數量級。我們還表明,SetFit可以在多語言環境中應用,只需切換ST主體即可。我們的程式碼可在 https://github.com/huggingface/setfit 獲取,我們的資料集可在 https://huggingface.co/setfit 獲取。

⚡ 論文:CounTR: Transformer-based Generalised Visual Counting

論文時間:29 Aug 2022

領域任務:Object Counting, Self-Supervised Learning,物體計數自監督學習

論文地址:https://arxiv.org/abs/2208.13721

程式碼實現:https://github.com/Verg-Avesta/CounTR

論文作者:Chang Liu, Yujie Zhong, Andrew Zisserman, Weidi Xie

論文簡介:In this paper, we consider the problem of generalised visual object counting, with the goal of developing a computational model for counting the number of objects from arbitrary semantic categories, using arbitrary number of "exemplars", i. e. zero-shot or few-shot counting./在本文中,我們考慮了廣義的視覺物件計數問題,目的是開發一個計算模型,用於計數任意語義類別的物件數量,使用任意數量的 "典範",即0-sot或少數幾個sot計數。

論文摘要:在本文中,我們考慮了廣義視覺物體計數的問題,目的是開發一個計算模型,用於計數任意語義類別的物體數量,使用任意數量的 "典範",即零次或少數次計數。為此,我們做出了以下四個貢獻。(1)我們為通用的視覺物體計數引入了一種新的基於變換器的結構,稱為計數變換器(CounTR),它明確地捕捉了影象斑塊之間的相似性或與給定的 "典範 "的相似性,並採用了一種兩階段的訓練機制,首先通過自我監督學習對模型進行預訓練,然後在監督下進行微調。 (3) 我們提出了一個簡單的、可擴充套件的管道,用於合成具有大量例項或來自不同語義類別的訓練影象,明確地迫使模型利用給定的 "典範";(4) 我們對大規模計數基準進行了徹底的消融研究,例如 (4) 我們對大規模計數基準,如FSC-147,進行了徹底的消融研究,並在零和少量的設定中展示了最先進的效能。

⚡ 論文:An Algorithm for the SE(3)-Transformation on Neural Implicit Maps for Remapping Functions

論文時間:17 Jun 2022

領域任務:Object Reconstruction, Surface Reconstruction,物體重建表面重建

論文地址:https://arxiv.org/abs/2206.08712

程式碼實現:https://github.com/jarrome/imt_mapping

論文作者:Yijun Yuan, Andreas Nuechter

論文簡介:As our neural implicit map is transformable, our model supports remapping for this special map of latent features./由於我們的神經隱性圖是可轉換的,我們的模型支援對這種特殊的潛在特徵圖進行重對映。

論文摘要:隱性表徵由於其效率和靈活性而被廣泛用於物體重建。2021年,一種名為神經隱性圖的新結構被髮明用於增量重建。神經隱式圖緩解了以往線上三維密集重建的低效記憶體成本問題,同時產生了更好的質量。然而,神經隱含圖的侷限性在於它不支援重對映,因為在生成神經隱含圖後,掃描的幀被編碼為深度先驗。這意味著,這個生成過程是不可反轉的,深度先驗也是可轉換的。不可逆的特性使得它不可能應用迴圈封閉技術。% 我們提出了一種基於神經隱含圖的轉換演算法來填補這一空白。由於我們的神經隱性圖是可轉換的,我們的模型支援對這種特殊的潛在特徵圖進行重對映。實驗表明,我們的重對映模組能夠很好地將神經隱含圖轉化為新的姿勢。嵌入到SLAM框架中,我們的對映模型能夠解決迴圈閉合的重對映問題,並展示了高質量的表面重建。我們的實現可以在 https://github.com/Jarrome/IMT_Mapping 獲取,供研究界使用。

我們是 ShowMeAI,致力於傳播AI優質內容,分享行業解決方案,用知識加速每一次技術成長!

◉ 點選 日報合輯,在公眾號內訂閱話題 #ShowMeAI資訊日報,可接收每日最新推送。

◉ 點選 電子月刊,快速瀏覽月度合輯。

「其他文章」