小米發佈CyberOn仿生機器人;多倫多大學『3D和幾何深度學習』課程資料;英偉達神經場工具庫;商湯開源項目集錦;前沿論文 | ShowMeAI資訊日報
攜手創作,共同成長!這是我參與「掘金日新計劃 · 8 月更文挑戰」的第18天,點擊查看活動詳情
ShowMeAI日報系列全新升級!覆蓋AI人工智能 工具&框架 | 項目&代碼 | 博文&分享 | 數據&資源 | 研究&論文 等方向。點擊查看 歷史文章列表,在公眾號內訂閲話題 #ShowMeAI資訊日報,可接收每日最新推送。點擊 專題合輯&電子月刊 快速瀏覽各專題全集。
🚗 小米自動駕駛首次亮相,首個『全尺寸人形仿生機器人』CyberOne 登場
8月11日,雷軍在2022年度『穿越人生低谷的感悟』演講中提到,小米自動駕駛技術的最新進展正式對外公佈,採用全棧自研算法的技術佈局策略,能力覆蓋高速、城區、停車場等場景,並有創新性的泊車服務一體化方案。
小米仿生機器人首亮相,CyberOne『大腦』聰明,能感知45種人類語義情緒,分辨85種環境語義;『小腦』發達,小米自研全身控制算法,協調運動21個關節自由度;『視覺』敏鋭,Mi Sense視覺空間系統,三維重建真實世界;『四肢』強健,全身5種關節驅動,峯值扭矩300Nm。
工具&框架
🚧 『Kaolin Wisp』英偉達·基於Pytorch的神經場工具庫
https://github.com/NVIDIAGameWorks/kaolin-wisp
NVIDIA Kaolin Wisp 是一個 PyTorch 庫,為神經領域(包括 NeRF、NGLOD、instant-ngp 和 VQAD)研究提供一組常用的實用函數,包括數據集、圖像 I/O、網格處理和光線實用功能,還附帶了用於構建複雜神經域的可微渲染器、可微數據結構等模塊。
🚧 『Karmem』快速的二進制序列化格式,比谷歌 Flatbuffers 更快,併為TinyGo 和 WASM 優化
https://github.com/inkeliz/karmem
Karmem 是一種快速的二進制序列化格式,經過優化後發揮了 Golang、TinyGo 的最大性能,並對於可重複讀取、讀取相同類型的不同內容非常有效,極好地平衡了速度和易用性。Karmem 比 Google Flatbuffers 快十倍。
🚧 『EasyNLP』易於使用的綜合NLP工具包
https://github.com/alibaba/EasyNLP
https://www.yuque.com/easyx/easynlp/ds35qn
PAI 團隊推出了 EasyNLP 中文 NLP 算法框架,具備易用且兼容開源、大模型小樣本落地技術、大模型知識蒸餾技術等特性,有效解決了大模型在運用於實際場景中面臨的挑戰——模型參數量過大、數據量不足、泛化性等挑戰。
🚧 『Ecosystem』使用了 OpenMMLab 體系的開源項目
https://github.com/open-mmlab/ecosystem
https://openmmlab.com/codebase
本項目用於收錄使用了OpenMMLab體系的開源項目。
🚧 『Drogon』基於 C++14/17 的 Http 應用框架
https://github.com/drogonframework/drogon
Drogon 是一個基於C++14/17的 Http 應用框架,可以快速構建各種類型的 Web 應用服務端程序,支持Linux、macOS、FreeBSD,OpenBSD,HaikuOS 和 Windows 等操作系統。
博文&分享
👍 『Information Retrieval』神經信息檢索/語義搜索/雙向編碼器教程資料
https://github.com/kuutsav/information-retrieval
信息檢索(Information Retrieval)是計算機系統響應用户對特定主題基於文本的信息查詢過程,是自然語言處理領域最早且仍然最重要的問題之一。Repo 包含了當前可用於信息檢索的技術教程,並拓展到了模型技術/指標、近似最近鄰技術和矢量數據庫等。
👍 『3D和幾何深度學習的機器學習方法』多倫多大學·課程資料
https://www.pair.toronto.edu/csc2547-w21/schedule
本課程『CSC 2547 Current Topics in Machine Learning Methods in 3D and Geometric Deep Learning』介紹深度學習方法和 3D 視覺技術的表示、學習算法和生成模型,並將研究深度學習相關的幾何深度學習、流形學習等概念,以及 3D 特性在圖形、機器人、內容創建、混合現實、生物識別等領的諸多潛在應用。
數據&資源
🔥 『Multi modal Deep Learning』多模態深度學習進展追蹤
https://github.com/JingfengYang/Multi-modal-Deep-Learning
🔥 『StreamingQA』問答數據集
https://github.com/deepmind/streamingqa
研究&論文
公眾號回覆關鍵字日報,免費獲取整理好的論文合輯。
科研進展
- 2022.07.25 『計算機視覺』 NeuriCam: Video Super-Resolution and Colorization Using Key Frames
- 2022.04.14 『計算機視覺』 Masked Siamese Networks for Label-Efficient Learning
- 2022.07.27 『計算機視覺』 GAUDI: A Neural Architect for Immersive 3D Scene Generation
- 2022.07.22 『計算機視覺』 Neural-Sim: Learning to Generate Training Data with NeRF
⚡ 論文:NeuriCam: Video Super-Resolution and Colorization Using Key Frames
論文標題:NeuriCam: Video Super-Resolution and Colorization Using Key Frames
論文時間:25 Jul 2022
所屬領域:計算機視覺
對應任務:Colorization,Super-Resolution,Total Energy,Video Super-Resolution,着色,超分辨率,視頻超分辨率
論文地址:https://arxiv.org/abs/2207.12496
代碼實現:https://github.com/vb000/neuricam
論文作者:Bandhav Veluri, Ali Saffari, Collin Pernu, Joshua Smith, Michael Taylor, Shyamnath Gollakota
論文簡介:Our idea is to design a dual-mode camera system where the first mode is low power (1. 1 ~ mW) but only outputs gray-scale, low resolution and noisy video and the second mode consumes much higher power (100 ~ mW) but outputs color and higher resolution images./我們的想法是設計一個雙模式攝像機系統,其中第一模式是低功率(1.1 ~ mW),但只輸出灰度、低分辨率和有噪聲的視頻,第二模式消耗更高的功率(100 ~ mW),但輸出彩色和高分辨率的圖像。
論文摘要:我們提出了NeuriCam,一個基於關鍵幀的視頻超分辨率和色彩化系統,以實現雙模式物聯網相機的低功耗視頻捕獲。我們的想法是設計一個雙模式攝像機系統,其中第一模式是低功率(1.1 ~ mW),但只輸出灰度、低分辨率和嘈雜的視頻;第二模式消耗更高的功率(100 ~ mW),但輸出彩色和高分辨率的圖像。為了減少總的能量消耗,我們對高功率模式進行了嚴重的佔空比,使其每秒鐘只輸出一次圖像。然後,來自該攝像系統的數據被無線傳輸到附近的一個插入式網關,在那裏我們運行實時神經網絡解碼器,以重建更高分辨率的彩色視頻。為了實現這一目標,我們引入了一個注意力特徵過濾器機制,根據每個空間位置的特徵圖和輸入幀的內容之間的相關性,給不同的特徵分配不同的權重。我們使用現成的相機設計了一個無線硬件原型,並解決了包括丟包和視角不匹配等實際問題。我們的評估表明,我們的雙攝像頭硬件降低了攝像頭的能耗,同時比先前的視頻超級分辨率方法獲得了3.7~dB的平均灰度PSNR增益,比現有的顏色傳播方法獲得了5.6~dB的RGB增益。代碼可在 https://github.com/vb000/NeuriCam 獲取。
⚡ 論文:Masked Siamese Networks for Label-Efficient Learning
論文標題:Masked Siamese Networks for Label-Efficient Learning
論文時間:14 Apr 2022
所屬領域:計算機視覺
對應任務:Image Classification,Self-Supervised Image Classification,Self-Supervised Learning,Semi-Supervised Image Classification,圖像分類,自監督圖像分類,自監督學習,半自監督圖像分類
論文地址:https://arxiv.org/abs/2204.07141
代碼實現:https://github.com/facebookresearch/msn
論文作者:Mahmoud Assran, Mathilde Caron, Ishan Misra, Piotr Bojanowski, Florian Bordes, Pascal Vincent, Armand Joulin, Michael Rabbat, Nicolas Ballas
論文簡介:We propose Masked Siamese Networks (MSN), a self-supervised learning framework for learning image representations./我們提出了掩碼孿生網絡(MSN),一個用於學習圖像表徵的自監督學習框架。
論文摘要:我們提出了掩碼孿生網絡(MSN),一個用於學習圖像表徵的自監督學習框架。我們的方法是將包含隨機遮蔽塊的圖像視圖的表徵與原始未遮蔽圖像的表徵相匹配。這種自監督的預訓練策略在應用於視覺Transformer時特別具有可擴展性,因為網絡只處理未被遮蔽的塊。因此,MSNs提高了聯合嵌入架構的可擴展性,同時產生了高語義水平的表徵,在低照度圖像分類中表現出競爭性。例如,在ImageNet-1K上,只有5,000張註解的圖像,我們的基礎MSN模型達到了72.4%的最高準確率,而在ImageNet-1K的1%的標籤下,我們達到了75.7%的最高準確率,為這個基準的自監督學習設定了一個新的先進水平。我們的代碼是公開可用的。
⚡ 論文:GAUDI: A Neural Architect for Immersive 3D Scene Generation
論文標題:GAUDI: A Neural Architect for Immersive 3D Scene Generation
論文時間:27 Jul 2022
所屬領域:計算機視覺
對應任務:Scene Generation,場景生成
論文地址:https://arxiv.org/abs/2207.13751
代碼實現:https://github.com/apple/ml-gaudi
論文作者:Miguel Angel Bautista, Pengsheng Guo, Samira Abnar, Walter Talbott, Alexander Toshev, Zhuoyuan Chen, Laurent Dinh, Shuangfei Zhai, Hanlin Goh, Daniel Ulbricht, Afshin Dehghan, Josh Susskind
論文簡介:We introduce GAUDI, a generative model capable of capturing the distribution of complex and realistic 3D scenes that can be rendered immersively from a moving camera./我們推出了GAUDI,這是一個能夠捕捉複雜而逼真的3D場景分佈的生成模型,可以從移動的攝像機中進行沉浸式渲染。
論文摘要:我們推出了GAUDI,這是一個能夠捕捉複雜而逼真的3D場景分佈的生成模型,可以從移動的攝像機中進行沉浸式渲染。我們用一種可擴展但強大的方法來解決這個具有挑戰性的問題,我們首先優化一個潛在的表徵,將輻射場和攝像機的位置分開。然後,這個潛像表示被用來學習一個生成模型,該模型能夠無條件和有條件地生成三維場景。我們的模型通過消除攝像機姿勢分佈可以在不同樣本中共享的假設,概括了以前關注單一物體的工作。我們表明,GAUDI在多個數據集的無條件生成設置中獲得了最先進的性能,並允許在給定條件變量(如稀疏的圖像觀測或描述場景的文本)的情況下有條件地生成三維場景。
⚡ 論文:Neural-Sim: Learning to Generate Training Data with NeRF
論文標題:Neural-Sim: Learning to Generate Training Data with NeRF
論文時間:22 Jul 2022
所屬領域:計算機視覺
對應任務:object-detection,Object Detection,目標檢測
論文地址:https://arxiv.org/abs/2207.11368
代碼實現:https://github.com/gyhandy/neural-sim-nerf
論文作者:Yunhao Ge, Harkirat Behl, Jiashu Xu, Suriya Gunasekar, Neel Joshi, Yale Song, Xin Wang, Laurent Itti, Vibhav Vineet
論文簡介:However, existing approaches either require human experts to manually tune each scene property or use automatic methods that provide little to no control; this requires rendering large amounts of random data variations, which is slow and is often suboptimal for the target domain./然而,現有的方法要麼需要人類專家手動調整每個場景屬性,要麼使用幾乎不提供控制的自動方法;這需要渲染大量的隨機數據變化,很慢而且對於目標領域來説往往是次優的。
論文摘要:訓練計算機視覺模型通常需要在一組不同的場景配置和屬性下收集和標記大量的圖像。這個過程非常耗時,而且要確保採集的數據分佈能夠很好地映射到應用場景的目標域,這是一個挑戰。最近,合成數據已經成為解決這兩個問題的一種方式。然而,現有的方法要麼需要人類專家手動調整每個場景屬性,要麼使用幾乎不提供控制的自動方法;這需要渲染大量的隨機數據變化,很慢且對目標領域來説往往是次優的。我們提出了第一個完全可區分的合成數據管道,它在閉環中使用神經輻射場(NeRFs)與目標應用的損失函數。我們的方法按需生成數據,無需人力,以最大限度地提高目標任務的準確性。我們説明了我們的方法在合成和真實世界物體檢測任務上的有效性。我們還介紹了一個新的 "YCB-in-the-Wild "數據集和基準,為現實世界環境中不同姿勢的物體檢測提供了一個測試場景。
我們是 ShowMeAI,致力於傳播AI優質內容,分享行業解決方案,用知識加速每一次技術成長!點擊查看 歷史文章列表,在公眾號內訂閲話題 #ShowMeAI資訊日報,可接收每日最新推送。點擊 專題合輯&電子月刊 快速瀏覽各專題全集。
- whylogs工具庫的工業實踐!機器學習模型流程與效果監控 ⛵
- 脈脈瘋傳!2023年程序員生存指南;多款prompt效率加倍工具;提示工程師最全祕籍;AI裁員正在發生 | ShowMeAI日報
- 中國風?古典系?AI中文繪圖創作嚐鮮!⛵
- Python中內置數據庫!SQLite使用指南!
- Pandas中你一定要掌握的時間序列相關高級功能
- 數據科學家賺多少?數據全分析與可視化 ⛵
- 交互式儀表板!Python輕鬆完成!⛵
- ChatGPT!我是你的破壁人;比爾·蓋茨不看好Web3與元宇宙;FIFA押中4屆世界盃冠軍;GitHub今日熱榜 | ShowMeAI資訊日報
- ChatGPT要收費了;華爾街大裁員;阿里2023十大科技趨勢;小紅書元宇宙虛擬服飾被吐槽;GitHub今日熱榜 | ShowMeAI資訊日報
- AI創業時代!這9個方向有錢途;AIGC再添霸榜應用Lensa;美團SemEval2022冠軍方法分享;醫學圖像處理工具箱… | ShowMeAI資訊日報
- 噓!P站數據分析年報;各省市疫情感染進度條;愛奇藝推出元宇宙App;You推出AI聊天機器人;GitHub今日熱榜 | ShowMeAI資訊日報
- 美國公司裁員潮時間線◉科技寒冬可視化;3份報吿回顧中國開發者2022;自動駕駛下半場,誰會衝出重圍 | ShowMeAI每週通訊 #005-01.07
- 副業月入過萬?數據有話説;掃地機器人發展到哪步了;疫情後要不要重返辦公室;淘寶元宇宙直播間;GitHub今日熱榜 | ShowMeAI資訊日報
- 大戰谷歌!微軟Bing引入ChatGPT;羊了個羊40萬年薪招研發;Debian徹底移除Python2;GitHub今日熱榜 | ShowMeAI資訊日報
- 酸了!樂視工作制改為四天半;高通新年裁員;AI繪畫公司開始倒閉;網易入股張藝謀元宇宙公司;GitHub今日熱榜 | ShowMeAI資訊日報
- 要麼幹要麼滾!推特開始裁員了;深度學習產品應用·隨書代碼;可分離各種樂器音源的工具包;Transformer教程;前沿論文 | ShowMeAI資訊日報
- 真實世界的人工智能應用落地——OpenAI篇 ⛵
- 陽過→陽康,數據裏的時代側影;谷歌慌了!看各公司如何應對ChatGPT;兩份優質AI年報;本週技術高光時刻 | ShowMeAI每週通訊 #003-12.24
- 用魔法打敗魔法!這件毛衣讓攝像頭看不到你;兩款酷炫的AI寫作軟件;快如閃電的B站下載工具;基於擴散模型的蛋白質設計 | ShowMeAI資訊日報
- 一文讀懂!異常檢測全攻略!從統計方法到機器學習 ⛵