小米釋出CyberOn仿生機器人;多倫多大學『3D和幾何深度學習』課程資料;英偉達神經場工具庫;商湯開源專案集錦;前沿論文 | ShowMeAI資訊日報

語言: CN / TW / HK

攜手創作,共同成長!這是我參與「掘金日新計劃 · 8 月更文挑戰」的第18天,點選檢視活動詳情

ShowMeAI日報系列全新升級!覆蓋AI人工智慧 工具&框架 | 專案&程式碼 | 博文&分享 | 資料&資源 | 研究&論文 等方向。點選檢視 歷史文章列表,在公眾號內訂閱話題 #ShowMeAI資訊日報,可接收每日最新推送。點選 專題合輯&電子月刊 快速瀏覽各專題全集。

🚗 小米自動駕駛首次亮相,首個『全尺寸人形仿生機器人』CyberOne 登場

8月11日,雷軍在2022年度『穿越人生低谷的感悟』演講中提到,小米自動駕駛技術的最新進展正式對外公佈,採用全棧自研演算法的技術佈局策略,能力覆蓋高速、城區、停車場等場景,並有創新性的泊車服務一體化方案。

小米仿生機器人首亮相,CyberOne『大腦』聰明,能感知45種人類語義情緒,分辨85種環境語義;『小腦』發達,小米自研全身控制演算法,協調運動21個關節自由度;『視覺』敏銳,Mi Sense視覺空間系統,三維重建真實世界;『四肢』強健,全身5種關節驅動,峰值扭矩300Nm。

工具&框架

🚧 『Kaolin Wisp』英偉達·基於Pytorch的神經場工具庫

https://github.com/NVIDIAGameWorks/kaolin-wisp

NVIDIA Kaolin Wisp 是一個 PyTorch 庫,為神經領域(包括 NeRF、NGLOD、instant-ngp 和 VQAD)研究提供一組常用的實用函式,包括資料集、影象 I/O、網格處理和光線實用功能,還附帶了用於構建複雜神經域的可微渲染器、可微資料結構等模組。

🚧 『Karmem』快速的二進位制序列化格式,比谷歌 Flatbuffers 更快,併為TinyGo 和 WASM 優化

https://github.com/inkeliz/karmem

Karmem 是一種快速的二進位制序列化格式,經過優化後發揮了 Golang、TinyGo 的最大效能,並對於可重複讀取、讀取相同型別的不同內容非常有效,極好地平衡了速度和易用性。Karmem 比 Google Flatbuffers 快十倍。

🚧 『EasyNLP』易於使用的綜合NLP工具包

https://github.com/alibaba/EasyNLP

https://www.yuque.com/easyx/easynlp/ds35qn

PAI 團隊推出了 EasyNLP 中文 NLP 演算法框架,具備易用且相容開源、大模型小樣本落地技術、大模型知識蒸餾技術等特性,有效解決了大模型在運用於實際場景中面臨的挑戰——模型引數量過大、資料量不足、泛化性等挑戰。

🚧 『Ecosystem』使用了 OpenMMLab 體系的開源專案

https://github.com/open-mmlab/ecosystem

https://openmmlab.com/codebase

本專案用於收錄使用了OpenMMLab體系的開源專案。

🚧 『Drogon』基於 C++14/17 的 Http 應用框架

https://github.com/drogonframework/drogon

Drogon 是一個基於C++14/17的 Http 應用框架,可以快速構建各種型別的 Web 應用服務端程式,支援Linux、macOS、FreeBSD,OpenBSD,HaikuOS 和 Windows 等作業系統。

博文&分享

👍 『Information Retrieval』神經資訊檢索/語義搜尋/雙向編碼器教程資料

https://github.com/kuutsav/information-retrieval

資訊檢索(Information Retrieval)是計算機系統響應使用者對特定主題基於文字的資訊查詢過程,是自然語言處理領域最早且仍然最重要的問題之一。Repo 包含了當前可用於資訊檢索的技術教程,並拓展到了模型技術/指標、近似最近鄰技術和向量資料庫等。

👍 『3D和幾何深度學習的機器學習方法』多倫多大學·課程資料

https://www.pair.toronto.edu/csc2547-w21/schedule

本課程『CSC 2547 Current Topics in Machine Learning Methods in 3D and Geometric Deep Learning』介紹深度學習方法和 3D 視覺技術的表示、學習演算法和生成模型,並將研究深度學習相關的幾何深度學習、流形學習等概念,以及 3D 特性在圖形、機器人、內容建立、混合現實、生物識別等領的諸多潛在應用。

資料&資源

🔥 『Multi modal Deep Learning』多模態深度學習進展追蹤

https://github.com/JingfengYang/Multi-modal-Deep-Learning

🔥 『StreamingQA』問答資料集

https://github.com/deepmind/streamingqa

研究&論文

公眾號回覆關鍵字日報,免費獲取整理好的論文合輯。

科研進展

  • 2022.07.25 『計算機視覺』 NeuriCam: Video Super-Resolution and Colorization Using Key Frames
  • 2022.04.14 『計算機視覺』 Masked Siamese Networks for Label-Efficient Learning
  • 2022.07.27 『計算機視覺』 GAUDI: A Neural Architect for Immersive 3D Scene Generation
  • 2022.07.22 『計算機視覺』 Neural-Sim: Learning to Generate Training Data with NeRF

⚡ 論文:NeuriCam: Video Super-Resolution and Colorization Using Key Frames

論文標題:NeuriCam: Video Super-Resolution and Colorization Using Key Frames

論文時間:25 Jul 2022

所屬領域計算機視覺

對應任務:Colorization,Super-Resolution,Total Energy,Video Super-Resolution,著色,超解析度,影片超解析度

論文地址:https://arxiv.org/abs/2207.12496

程式碼實現:https://github.com/vb000/neuricam

論文作者:Bandhav Veluri, Ali Saffari, Collin Pernu, Joshua Smith, Michael Taylor, Shyamnath Gollakota

論文簡介:Our idea is to design a dual-mode camera system where the first mode is low power (1. 1 ~ mW) but only outputs gray-scale, low resolution and noisy video and the second mode consumes much higher power (100 ~ mW) but outputs color and higher resolution images./我們的想法是設計一個雙模式攝像機系統,其中第一模式是低功率(1.1 ~ mW),但只輸出灰度、低解析度和有噪聲的影片,第二模式消耗更高的功率(100 ~ mW),但輸出彩色和高解析度的影象。

論文摘要:我們提出了NeuriCam,一個基於關鍵幀的影片超解析度和色彩化系統,以實現雙模式物聯網相機的低功耗影片捕獲。我們的想法是設計一個雙模式攝像機系統,其中第一模式是低功率(1.1 ~ mW),但只輸出灰度、低解析度和嘈雜的影片;第二模式消耗更高的功率(100 ~ mW),但輸出彩色和高解析度的影象。為了減少總的能量消耗,我們對高功率模式進行了嚴重的佔空比,使其每秒鐘只輸出一次影象。然後,來自該攝像系統的資料被無線傳輸到附近的一個插入式閘道器,在那裡我們執行實時神經網路解碼器,以重建更高解析度的彩色影片。為了實現這一目標,我們引入了一個注意力特徵過濾器機制,根據每個空間位置的特徵圖和輸入幀的內容之間的相關性,給不同的特徵分配不同的權重。我們使用現成的相機設計了一個無線硬體原型,並解決了包括丟包和視角不匹配等實際問題。我們的評估表明,我們的雙攝像頭硬體降低了攝像頭的能耗,同時比先前的影片超級解析度方法獲得了3.7~dB的平均灰度PSNR增益,比現有的顏色傳播方法獲得了5.6~dB的RGB增益。程式碼可在 https://github.com/vb000/NeuriCam 獲取。

⚡ 論文:Masked Siamese Networks for Label-Efficient Learning

論文標題:Masked Siamese Networks for Label-Efficient Learning

論文時間:14 Apr 2022

所屬領域計算機視覺

對應任務:Image Classification,Self-Supervised Image Classification,Self-Supervised Learning,Semi-Supervised Image Classification,影象分類,自監督影象分類,自監督學習,半自監督影象分類

論文地址:https://arxiv.org/abs/2204.07141

程式碼實現:https://github.com/facebookresearch/msn

論文作者:Mahmoud Assran, Mathilde Caron, Ishan Misra, Piotr Bojanowski, Florian Bordes, Pascal Vincent, Armand Joulin, Michael Rabbat, Nicolas Ballas

論文簡介:We propose Masked Siamese Networks (MSN), a self-supervised learning framework for learning image representations./我們提出了掩碼孿生網路(MSN),一個用於學習影象表徵的自監督學習框架。

論文摘要:我們提出了掩碼孿生網路(MSN),一個用於學習影象表徵的自監督學習框架。我們的方法是將包含隨機遮蔽塊的影象檢視的表徵與原始未遮蔽影象的表徵相匹配。這種自監督的預訓練策略在應用於視覺Transformer時特別具有可擴充套件性,因為網路只處理未被遮蔽的塊。因此,MSNs提高了聯合嵌入架構的可擴充套件性,同時產生了高語義水平的表徵,在低照度影象分類中表現出競爭性。例如,在ImageNet-1K上,只有5,000張註解的影象,我們的基礎MSN模型達到了72.4%的最高準確率,而在ImageNet-1K的1%的標籤下,我們達到了75.7%的最高準確率,為這個基準的自監督學習設定了一個新的先進水平。我們的程式碼是公開可用的。

⚡ 論文:GAUDI: A Neural Architect for Immersive 3D Scene Generation

論文標題:GAUDI: A Neural Architect for Immersive 3D Scene Generation

論文時間:27 Jul 2022

所屬領域計算機視覺

對應任務:Scene Generation,場景生成

論文地址:https://arxiv.org/abs/2207.13751

程式碼實現:https://github.com/apple/ml-gaudi

論文作者:Miguel Angel Bautista, Pengsheng Guo, Samira Abnar, Walter Talbott, Alexander Toshev, Zhuoyuan Chen, Laurent Dinh, Shuangfei Zhai, Hanlin Goh, Daniel Ulbricht, Afshin Dehghan, Josh Susskind

論文簡介:We introduce GAUDI, a generative model capable of capturing the distribution of complex and realistic 3D scenes that can be rendered immersively from a moving camera./我們推出了GAUDI,這是一個能夠捕捉複雜而逼真的3D場景分佈的生成模型,可以從移動的攝像機中進行沉浸式渲染。

論文摘要:我們推出了GAUDI,這是一個能夠捕捉複雜而逼真的3D場景分佈的生成模型,可以從移動的攝像機中進行沉浸式渲染。我們用一種可擴充套件但強大的方法來解決這個具有挑戰性的問題,我們首先優化一個潛在的表徵,將輻射場和攝像機的位置分開。然後,這個潛像表示被用來學習一個生成模型,該模型能夠無條件和有條件地生成三維場景。我們的模型通過消除攝像機姿勢分佈可以在不同樣本中共享的假設,概括了以前關注單一物體的工作。我們表明,GAUDI在多個數據集的無條件生成設定中獲得了最先進的效能,並允許在給定條件變數(如稀疏的影象觀測或描述場景的文字)的情況下有條件地生成三維場景。

⚡ 論文:Neural-Sim: Learning to Generate Training Data with NeRF

論文標題:Neural-Sim: Learning to Generate Training Data with NeRF

論文時間:22 Jul 2022

所屬領域計算機視覺

對應任務:object-detection,Object Detection,目標檢測

論文地址:https://arxiv.org/abs/2207.11368

程式碼實現:https://github.com/gyhandy/neural-sim-nerf

論文作者:Yunhao Ge, Harkirat Behl, Jiashu Xu, Suriya Gunasekar, Neel Joshi, Yale Song, Xin Wang, Laurent Itti, Vibhav Vineet

論文簡介:However, existing approaches either require human experts to manually tune each scene property or use automatic methods that provide little to no control; this requires rendering large amounts of random data variations, which is slow and is often suboptimal for the target domain./然而,現有的方法要麼需要人類專家手動調整每個場景屬性,要麼使用幾乎不提供控制的自動方法;這需要渲染大量的隨機資料變化,很慢而且對於目標領域來說往往是次優的。

論文摘要:訓練計算機視覺模型通常需要在一組不同的場景配置和屬性下收集和標記大量的影象。這個過程非常耗時,而且要確保採集的資料分佈能夠很好地對映到應用場景的目標域,這是一個挑戰。最近,合成數據已經成為解決這兩個問題的一種方式。然而,現有的方法要麼需要人類專家手動調整每個場景屬性,要麼使用幾乎不提供控制的自動方法;這需要渲染大量的隨機資料變化,很慢且對目標領域來說往往是次優的。我們提出了第一個完全可區分的合成數據管道,它在閉環中使用神經輻射場(NeRFs)與目標應用的損失函式。我們的方法按需生成資料,無需人力,以最大限度地提高目標任務的準確性。我們說明了我們的方法在合成和真實世界物體檢測任務上的有效性。我們還介紹了一個新的 "YCB-in-the-Wild "資料集和基準,為現實世界環境中不同姿勢的物體檢測提供了一個測試場景。

我們是 ShowMeAI,致力於傳播AI優質內容,分享行業解決方案,用知識加速每一次技術成長!點選檢視 歷史文章列表,在公眾號內訂閱話題 #ShowMeAI資訊日報,可接收每日最新推送。點選 專題合輯&電子月刊 快速瀏覽各專題全集。

「其他文章」