小米釋出CyberOn仿生機器人;多倫多大學『3D和幾何深度學習』課程資料;英偉達神經場工具庫;商湯開源專案集錦;前沿論文 | ShowMeAI資訊日報
攜手創作,共同成長!這是我參與「掘金日新計劃 · 8 月更文挑戰」的第18天,點選檢視活動詳情
ShowMeAI日報系列全新升級!覆蓋AI人工智慧 工具&框架 | 專案&程式碼 | 博文&分享 | 資料&資源 | 研究&論文 等方向。點選檢視 歷史文章列表,在公眾號內訂閱話題 #ShowMeAI資訊日報,可接收每日最新推送。點選 專題合輯&電子月刊 快速瀏覽各專題全集。
🚗 小米自動駕駛首次亮相,首個『全尺寸人形仿生機器人』CyberOne 登場
8月11日,雷軍在2022年度『穿越人生低谷的感悟』演講中提到,小米自動駕駛技術的最新進展正式對外公佈,採用全棧自研演算法的技術佈局策略,能力覆蓋高速、城區、停車場等場景,並有創新性的泊車服務一體化方案。
小米仿生機器人首亮相,CyberOne『大腦』聰明,能感知45種人類語義情緒,分辨85種環境語義;『小腦』發達,小米自研全身控制演算法,協調運動21個關節自由度;『視覺』敏銳,Mi Sense視覺空間系統,三維重建真實世界;『四肢』強健,全身5種關節驅動,峰值扭矩300Nm。
工具&框架
🚧 『Kaolin Wisp』英偉達·基於Pytorch的神經場工具庫
http://github.com/NVIDIAGameWorks/kaolin-wisp
NVIDIA Kaolin Wisp 是一個 PyTorch 庫,為神經領域(包括 NeRF、NGLOD、instant-ngp 和 VQAD)研究提供一組常用的實用函式,包括資料集、影象 I/O、網格處理和光線實用功能,還附帶了用於構建複雜神經域的可微渲染器、可微資料結構等模組。
🚧 『Karmem』快速的二進位制序列化格式,比谷歌 Flatbuffers 更快,併為TinyGo 和 WASM 優化
http://github.com/inkeliz/karmem
Karmem 是一種快速的二進位制序列化格式,經過優化後發揮了 Golang、TinyGo 的最大效能,並對於可重複讀取、讀取相同型別的不同內容非常有效,極好地平衡了速度和易用性。Karmem 比 Google Flatbuffers 快十倍。
🚧 『EasyNLP』易於使用的綜合NLP工具包
http://github.com/alibaba/EasyNLP
http://www.yuque.com/easyx/easynlp/ds35qn
PAI 團隊推出了 EasyNLP 中文 NLP 演算法框架,具備易用且相容開源、大模型小樣本落地技術、大模型知識蒸餾技術等特性,有效解決了大模型在運用於實際場景中面臨的挑戰——模型引數量過大、資料量不足、泛化性等挑戰。
🚧 『Ecosystem』使用了 OpenMMLab 體系的開源專案
http://github.com/open-mmlab/ecosystem
本專案用於收錄使用了OpenMMLab體系的開源專案。
🚧 『Drogon』基於 C++14/17 的 Http 應用框架
http://github.com/drogonframework/drogon
Drogon 是一個基於C++14/17的 Http 應用框架,可以快速構建各種型別的 Web 應用服務端程式,支援Linux、macOS、FreeBSD,OpenBSD,HaikuOS 和 Windows 等作業系統。
博文&分享
👍 『Information Retrieval』神經資訊檢索/語義搜尋/雙向編碼器教程資料
http://github.com/kuutsav/information-retrieval
資訊檢索(Information Retrieval)是計算機系統響應使用者對特定主題基於文字的資訊查詢過程,是自然語言處理領域最早且仍然最重要的問題之一。Repo 包含了當前可用於資訊檢索的技術教程,並拓展到了模型技術/指標、近似最近鄰技術和向量資料庫等。
👍 『3D和幾何深度學習的機器學習方法』多倫多大學·課程資料
http://www.pair.toronto.edu/csc2547-w21/schedule
本課程『CSC 2547 Current Topics in Machine Learning Methods in 3D and Geometric Deep Learning』介紹深度學習方法和 3D 視覺技術的表示、學習演算法和生成模型,並將研究深度學習相關的幾何深度學習、流形學習等概念,以及 3D 特性在圖形、機器人、內容建立、混合現實、生物識別等領的諸多潛在應用。
資料&資源
🔥 『Multi modal Deep Learning』多模態深度學習進展追蹤
http://github.com/JingfengYang/Multi-modal-Deep-Learning
🔥 『StreamingQA』問答資料集
http://github.com/deepmind/streamingqa
研究&論文
公眾號回覆關鍵字日報,免費獲取整理好的論文合輯。
科研進展
- 2022.07.25 『計算機視覺』 NeuriCam: Video Super-Resolution and Colorization Using Key Frames
- 2022.04.14 『計算機視覺』 Masked Siamese Networks for Label-Efficient Learning
- 2022.07.27 『計算機視覺』 GAUDI: A Neural Architect for Immersive 3D Scene Generation
- 2022.07.22 『計算機視覺』 Neural-Sim: Learning to Generate Training Data with NeRF
⚡ 論文:NeuriCam: Video Super-Resolution and Colorization Using Key Frames
論文標題:NeuriCam: Video Super-Resolution and Colorization Using Key Frames
論文時間:25 Jul 2022
所屬領域:計算機視覺
對應任務:Colorization,Super-Resolution,Total Energy,Video Super-Resolution,著色,超解析度,影片超解析度
論文地址:http://arxiv.org/abs/2207.12496
程式碼實現:http://github.com/vb000/neuricam
論文作者:Bandhav Veluri, Ali Saffari, Collin Pernu, Joshua Smith, Michael Taylor, Shyamnath Gollakota
論文簡介:Our idea is to design a dual-mode camera system where the first mode is low power (1. 1 ~ mW) but only outputs gray-scale, low resolution and noisy video and the second mode consumes much higher power (100 ~ mW) but outputs color and higher resolution images./我們的想法是設計一個雙模式攝像機系統,其中第一模式是低功率(1.1 ~ mW),但只輸出灰度、低解析度和有噪聲的影片,第二模式消耗更高的功率(100 ~ mW),但輸出彩色和高解析度的影象。
論文摘要:我們提出了NeuriCam,一個基於關鍵幀的影片超解析度和色彩化系統,以實現雙模式物聯網相機的低功耗影片捕獲。我們的想法是設計一個雙模式攝像機系統,其中第一模式是低功率(1.1 ~ mW),但只輸出灰度、低解析度和嘈雜的影片;第二模式消耗更高的功率(100 ~ mW),但輸出彩色和高解析度的影象。為了減少總的能量消耗,我們對高功率模式進行了嚴重的佔空比,使其每秒鐘只輸出一次影象。然後,來自該攝像系統的資料被無線傳輸到附近的一個插入式閘道器,在那裡我們執行實時神經網路解碼器,以重建更高解析度的彩色影片。為了實現這一目標,我們引入了一個注意力特徵過濾器機制,根據每個空間位置的特徵圖和輸入幀的內容之間的相關性,給不同的特徵分配不同的權重。我們使用現成的相機設計了一個無線硬體原型,並解決了包括丟包和視角不匹配等實際問題。我們的評估表明,我們的雙攝像頭硬體降低了攝像頭的能耗,同時比先前的影片超級解析度方法獲得了3.7~dB的平均灰度PSNR增益,比現有的顏色傳播方法獲得了5.6~dB的RGB增益。程式碼可在 http://github.com/vb000/NeuriCam 獲取。
⚡ 論文:Masked Siamese Networks for Label-Efficient Learning
論文標題:Masked Siamese Networks for Label-Efficient Learning
論文時間:14 Apr 2022
所屬領域:計算機視覺
對應任務:Image Classification,Self-Supervised Image Classification,Self-Supervised Learning,Semi-Supervised Image Classification,影象分類,自監督影象分類,自監督學習,半自監督影象分類
論文地址:http://arxiv.org/abs/2204.07141
程式碼實現:http://github.com/facebookresearch/msn
論文作者:Mahmoud Assran, Mathilde Caron, Ishan Misra, Piotr Bojanowski, Florian Bordes, Pascal Vincent, Armand Joulin, Michael Rabbat, Nicolas Ballas
論文簡介:We propose Masked Siamese Networks (MSN), a self-supervised learning framework for learning image representations./我們提出了掩碼孿生網路(MSN),一個用於學習影象表徵的自監督學習框架。
論文摘要:我們提出了掩碼孿生網路(MSN),一個用於學習影象表徵的自監督學習框架。我們的方法是將包含隨機遮蔽塊的影象檢視的表徵與原始未遮蔽影象的表徵相匹配。這種自監督的預訓練策略在應用於視覺Transformer時特別具有可擴充套件性,因為網路只處理未被遮蔽的塊。因此,MSNs提高了聯合嵌入架構的可擴充套件性,同時產生了高語義水平的表徵,在低照度影象分類中表現出競爭性。例如,在ImageNet-1K上,只有5,000張註解的影象,我們的基礎MSN模型達到了72.4%的最高準確率,而在ImageNet-1K的1%的標籤下,我們達到了75.7%的最高準確率,為這個基準的自監督學習設定了一個新的先進水平。我們的程式碼是公開可用的。
⚡ 論文:GAUDI: A Neural Architect for Immersive 3D Scene Generation
論文標題:GAUDI: A Neural Architect for Immersive 3D Scene Generation
論文時間:27 Jul 2022
所屬領域:計算機視覺
對應任務:Scene Generation,場景生成
論文地址:http://arxiv.org/abs/2207.13751
程式碼實現:http://github.com/apple/ml-gaudi
論文作者:Miguel Angel Bautista, Pengsheng Guo, Samira Abnar, Walter Talbott, Alexander Toshev, Zhuoyuan Chen, Laurent Dinh, Shuangfei Zhai, Hanlin Goh, Daniel Ulbricht, Afshin Dehghan, Josh Susskind
論文簡介:We introduce GAUDI, a generative model capable of capturing the distribution of complex and realistic 3D scenes that can be rendered immersively from a moving camera./我們推出了GAUDI,這是一個能夠捕捉複雜而逼真的3D場景分佈的生成模型,可以從移動的攝像機中進行沉浸式渲染。
論文摘要:我們推出了GAUDI,這是一個能夠捕捉複雜而逼真的3D場景分佈的生成模型,可以從移動的攝像機中進行沉浸式渲染。我們用一種可擴充套件但強大的方法來解決這個具有挑戰性的問題,我們首先優化一個潛在的表徵,將輻射場和攝像機的位置分開。然後,這個潛像表示被用來學習一個生成模型,該模型能夠無條件和有條件地生成三維場景。我們的模型通過消除攝像機姿勢分佈可以在不同樣本中共享的假設,概括了以前關注單一物體的工作。我們表明,GAUDI在多個數據集的無條件生成設定中獲得了最先進的效能,並允許在給定條件變數(如稀疏的影象觀測或描述場景的文字)的情況下有條件地生成三維場景。
⚡ 論文:Neural-Sim: Learning to Generate Training Data with NeRF
論文標題:Neural-Sim: Learning to Generate Training Data with NeRF
論文時間:22 Jul 2022
所屬領域:計算機視覺
對應任務:object-detection,Object Detection,目標檢測
論文地址:http://arxiv.org/abs/2207.11368
程式碼實現:http://github.com/gyhandy/neural-sim-nerf
論文作者:Yunhao Ge, Harkirat Behl, Jiashu Xu, Suriya Gunasekar, Neel Joshi, Yale Song, Xin Wang, Laurent Itti, Vibhav Vineet
論文簡介:However, existing approaches either require human experts to manually tune each scene property or use automatic methods that provide little to no control; this requires rendering large amounts of random data variations, which is slow and is often suboptimal for the target domain./然而,現有的方法要麼需要人類專家手動調整每個場景屬性,要麼使用幾乎不提供控制的自動方法;這需要渲染大量的隨機資料變化,很慢而且對於目標領域來說往往是次優的。
論文摘要:訓練計算機視覺模型通常需要在一組不同的場景配置和屬性下收集和標記大量的影象。這個過程非常耗時,而且要確保採集的資料分佈能夠很好地對映到應用場景的目標域,這是一個挑戰。最近,合成數據已經成為解決這兩個問題的一種方式。然而,現有的方法要麼需要人類專家手動調整每個場景屬性,要麼使用幾乎不提供控制的自動方法;這需要渲染大量的隨機資料變化,很慢且對目標領域來說往往是次優的。我們提出了第一個完全可區分的合成數據管道,它在閉環中使用神經輻射場(NeRFs)與目標應用的損失函式。我們的方法按需生成資料,無需人力,以最大限度地提高目標任務的準確性。我們說明了我們的方法在合成和真實世界物體檢測任務上的有效性。我們還介紹了一個新的 "YCB-in-the-Wild "資料集和基準,為現實世界環境中不同姿勢的物體檢測提供了一個測試場景。
我們是 ShowMeAI,致力於傳播AI優質內容,分享行業解決方案,用知識加速每一次技術成長!點選檢視 歷史文章列表,在公眾號內訂閱話題 #ShowMeAI資訊日報,可接收每日最新推送。點選 專題合輯&電子月刊 快速瀏覽各專題全集。
- Pandas中你一定要掌握的時間序列相關高階功能
- 資料科學家賺多少?資料全分析與視覺化 ⛵
- 互動式儀表板!Python輕鬆完成!⛵
- ChatGPT!我是你的破壁人;比爾·蓋茨不看好Web3與元宇宙;FIFA押中4屆世界盃冠軍;GitHub今日熱榜 | ShowMeAI資訊日報
- ChatGPT要收費了;華爾街大裁員;阿里2023十大科技趨勢;小紅書元宇宙虛擬服飾被吐槽;GitHub今日熱榜 | ShowMeAI資訊日報
- AI創業時代!這9個方向有錢途;AIGC再添霸榜應用Lensa;美團SemEval2022冠軍方法分享;醫學影象處理工具箱… | ShowMeAI資訊日報
- 噓!P站資料分析年報;各省市疫情感染進度條;愛奇藝推出元宇宙App;You推出AI聊天機器人;GitHub今日熱榜 | ShowMeAI資訊日報
- 美國公司裁員潮時間線◉科技寒冬視覺化;3份報告回顧中國開發者2022;自動駕駛下半場,誰會衝出重圍 | ShowMeAI每週通訊 #005-01.07
- 副業月入過萬?資料有話說;掃地機器人發展到哪步了;疫情後要不要重返辦公室;淘寶元宇宙直播間;GitHub今日熱榜 | ShowMeAI資訊日報
- 大戰谷歌!微軟Bing引入ChatGPT;羊了個羊40萬年薪招研發;Debian徹底移除Python2;GitHub今日熱榜 | ShowMeAI資訊日報
- 酸了!樂視工作制改為四天半;高通新年裁員;AI繪畫公司開始倒閉;網易入股張藝謀元宇宙公司;GitHub今日熱榜 | ShowMeAI資訊日報
- 要麼幹要麼滾!推特開始裁員了;深度學習產品應用·隨書程式碼;可分離各種樂器音源的工具包;Transformer教程;前沿論文 | ShowMeAI資訊日報
- 真實世界的人工智慧應用落地——OpenAI篇 ⛵
- 陽過→陽康,資料裡的時代側影;谷歌慌了!看各公司如何應對ChatGPT;兩份優質AI年報;本週技術高光時刻 | ShowMeAI每週通訊 #003-12.24
- 用魔法打敗魔法!這件毛衣讓攝像頭看不到你;兩款酷炫的AI寫作軟體;快如閃電的B站下載工具;基於擴散模型的蛋白質設計 | ShowMeAI資訊日報
- 一文讀懂!異常檢測全攻略!從統計方法到機器學習 ⛵
- 私藏!資深資料專家SQL效率優化技巧
- 熱載入技術:修改Python程式碼並實時檢視結果 ⛵
- 員工離職困擾?來看AI如何解決,基於人力資源分析的 ML 模型構建全方案
- 買定離手!AI預測英雄聯盟S12冠軍;微軟使用AI提高農業生產效率;程式語言的自動生成;機器學習核方法入門·電子書;前沿論文 | ShowMeAI資訊日報