攜手創作，共同成長！這是我參與「掘金日新計劃 · 8 月更文挑戰」的第15天，點選檢視活動詳情

ShowMeAI日報系列全新升級！覆蓋AI人工智慧工具&框架 | 專案&程式碼 | 博文&分享 | 資料&資源 | 研究&論文等方向。點選檢視 歷史文章列表，在公眾號內訂閱話題 #ShowMeAI資訊日報，可接收每日最新推送。點選 專題合輯&電子月刊 快速瀏覽各專題全集。

工具&框架

🚧 『Lite.AI.ToolKit』開箱即用的C++ AI工具箱

http://github.com/DefTruth/lite.ai.toolkit

Lite.Ai.ToolKit 是一個根據個人興趣整理的C++工具箱，包括 100+ 流行的開源 AI 模型，蓋目標檢測、人臉檢測、人臉識別、語義分割、摳圖等領域。對使用者友好，開箱即用。

🚧 『Colossal AI』整合高效並行技術的 AI 大模型訓練系統

http://github.com/hpcaitech/ColossalAI

Colossal AI 提供了一系列並行訓練元件，提供的工具可以在幾行程式碼內快速開始分散式訓練和推理，使其像普通的單GPU模型一樣簡單。

🚧 『solo-learn』Pytorch Lightning 無監督視覺表示學習自監督方法庫

http://github.com/lavoiems/simplicial-embeddings

本 Repo 是『Simplicial Embeddings for Self-supervised Learning and Downstream Classification』一文的配套程式碼，是自我監督學習庫『solo-learn』的一個分支。

🚧 『DeepVision3D』點雲理解的開源工具箱

http://github.com/dvlab-research/DeepVision3D

DeepVision3D 是 Deep Vision Lab 開發的用於點雲理解的開源工具箱，集成了流行的公開 3D 程式碼庫，包括OpenPCDet、 MMDetection3D，並開發了 DVClassification 和 DVSegmentation，以促進對室外/室內物體檢測、形狀分類和語義分割等多種 3D 理解任務的研究。

🚧 『Graphic』資料視覺化圖表工具庫

http://github.com/entronad/graphic

Graphic 是一個數據視覺化語法和 Flutter 圖表庫，對美感和實用性做了很好的平衡，並且具有高度互動性和可定製性，可以輕鬆定製自己的元素、工具提示、註釋等。

博文&分享

👍 『多感測器定位融合』學習筆記

http://github.com/kahowang/sensor-fusion-for-localization-and-mapping

👍 『健康學習到150歲』人體系統調優不完全指南

http://github.com/zijie0/HumanSystemOptimization

http://hubermanlab.com/

通過一系列的學習，逐漸有種學習了各種人類的“組成和操作原理”的感覺。通過一系列的工具和實踐，我們也可以像調優軟體程式那樣來“調優”我們自身的人體系統。這篇文章就來介紹睡眠、飲食、心態與動力、學習與專注、長壽等相關的知識內容。

資料&資源

🔥 『SOTA Deep Anomaly Detection』最新異常檢測演算法實現大列表

http://github.com/GuansongPang/SOTA-Deep-Anomaly-Detection

Repo 是文獻中 SOTA 深度異常檢測方法的實現集合，持續更新中。

🔥 『Geospatial Data Science』地理空間資料科學·課程資料

http://github.com/mszell/geospatialdatascience

http://learnit.itu.dk/local/coursebase/view.php?ciid=940

本 Repo 是課程『Geospatial Data Science』的學習資料，課程介紹了基於資料科學的地理空間資料分析方法，包括GIS的資料結構和原理、地圖投影和測量、收集和預處理大規模地理空間資料、最先進的 GDS 計算工具、空間網路分析、地理空間資料科學家可用的主要方法、這些技術在應用環境中的實際應用等。

研究&論文

公眾號回覆關鍵字日報，免費獲取整理好的論文合輯。

科研進展

2022.07.08 『計算機視覺』 An Improved One millisecond Mobile Backbone

2022.07.26 『計算機視覺』 Monocular 3D Object Detection with Depth from Motion

2022.07.27 『計算機視覺』 AvatarPoser: Articulated Full-Body Pose Tracking from Sparse Motion Sensing

2022.07.25 『計算機視覺』 CelebV-HQ: A Large-Scale Video Facial Attributes Dataset

⚡ 論文：An Improved One millisecond Mobile Backbone

論文時間：8 Jun 2022

所屬領域：計算機視覺

對應任務：Image Classification，object-detection，Object Detection，Semantic Segmentation，影象分類，物體檢測，目標檢測，語義分割

論文地址：http://arxiv.org/abs/2206.04040

程式碼實現：http://github.com/apple/ml-mobileone , http://github.com/federicopozzi33/MobileOne-PyTorch

論文作者：Pavan Kumar Anasosalu Vasu, James Gabriel, Jeff Zhu, Oncel Tuzel, Anurag Ranjan

論文簡介：Furthermore, we show that our model generalizes to multiple tasks - image classification, object detection, and semantic segmentation with significant improvements in latency and accuracy as compared to existing efficient architectures when deployed on a mobile device./此外，我們還表明，我們的模型可以通用於多種任務--影象分類、物體檢測和語義分割，與現有的高效架構相比，部署在移動裝置上的延遲和準確性都有明顯的改善。

論文摘要：用於移動裝置的高效神經網路骨幹通常針對FLOPs或引數計數等指標進行優化。然而，當部署在移動裝置上時，這些指標可能與網路的延遲沒有什麼關聯。因此，我們通過在移動裝置上部署幾個適合移動的網路，對不同的指標進行了廣泛的分析。我們識別並分析了近期高效神經網路的架構和優化瓶頸，並提供了緩解這些瓶頸的方法。為此，我們設計了一個高效的骨幹網路MobileOne，其變體在iPhone12上的推理時間低於1毫秒，在ImageNet上的準確率高達75.9%。我們表明，MobileOne在高效的架構中實現了最先進的效能，同時在移動端上快了許多倍。我們最好的模型在ImageNet上獲得了與MobileFormer相似的效能，同時速度快了38倍。在相似的延遲下，我們的模型在ImageNet上獲得了比EfficientNet高出2.3%的最高準確率。此外，我們還表明，我們的模型可以通用於多種任務--影象分類、物件檢測和語義分割，與現有的高效架構相比，在部署在移動裝置上時，延遲和準確率都有明顯的改善。

⚡ 論文：Monocular 3D Object Detection with Depth from Motion

論文時間：26 Jul 2022

所屬領域：計算機視覺

對應任務：3D Object Detection，Depth Estimation，Monocular 3D Object Detection，object-detection，Object Detection，三維物體檢測，深度估計，單目三維物體檢測，物體檢測，物體檢測

論文地址：http://arxiv.org/abs/2207.12988

程式碼實現：http://github.com/tai-wang/depth-from-motion

論文作者：Tai Wang, Jiangmiao Pang, Dahua Lin

論文簡介：Perceiving 3D objects from monocular inputs is crucial for robotic systems, given its economy compared to multi-sensor settings./從單目輸入中感知3D物體對機器人系統至關重要，因為與多感測器設定相比，它更經濟。

論文摘要：從單目輸入感知三維物體對於機器人系統來說是至關重要的，因為與多感測器設定相比，它是經濟的。這是很困難的，因為單一影象不能為預測絕對深度值提供任何線索。在雙目3D物體檢測方法的啟發下，我們利用攝像機自我運動提供的強大幾何結構來進行準確的物體深度估計和檢測。我們首先對這個一般的雙視角案例進行了理論分析，並注意到兩個挑戰。1）多個估計的累積誤差使直接預測難以實現；2）由靜態攝像機和匹配模糊性造成的固有困境。因此，我們建立了具有幾何感知成本量的立體對應關係，作為深度估計的替代方法，並進一步用單眼理解來補償它，以解決第二個問題。我們的框架被命名為 "來自運動的深度"（DfM），然後使用所建立的幾何體將二維影象特徵提升到三維空間，並檢測其中的三維物體。我們還提出了一個無姿態的DfM，以使其在攝像機姿態不可用時也能使用。我們的框架在KITTI基準上以很大的幅度超越了最先進的方法。詳細的定量和定性分析也驗證了我們的理論結論。程式碼將釋出在 http://github.com/Tai-Wang/Depth-from-Motion 。

⚡ 論文：AvatarPoser: Articulated Full-Body Pose Tracking from Sparse Motion Sensing

論文時間：27 Jul 2022

所屬領域：計算機視覺

對應任務：Mixed Reality，Pose Estimation，Pose Tracking，混合現實，姿勢估計，姿勢跟蹤

論文地址：http://arxiv.org/abs/2207.13784

程式碼實現：http://github.com/eth-siplab/avatarposer

論文作者：Jiaxi Jiang, Paul Streli, Huajian Qiu, Andreas Fender, Larissa Laich, Patrick Snape, Christian Holz

論文簡介：In this paper, we present AvatarPoser, the first learning-based method that predicts full-body poses in world coordinates using only motion input from the user's head and hands./在本文中，我們介紹了AvatarPoser，這是第一個基於學習的方法，只用使用者的頭和手的運動輸入就能預測世界座標中的全身姿勢。

論文摘要：今天的混合現實頭戴式顯示器追蹤使用者在世界空間中的頭部姿勢，以及使用者在增強現實和虛擬現實場景中的雙手互動。雖然這足以支援使用者的輸入，但不幸的是，它將使用者的虛擬表現僅僅侷限於他們的上半身。因此，目前的系統求助於浮動的虛擬化身，其侷限性在協作環境中尤為明顯。為了從稀疏的輸入源中估計全身的姿勢，先前的工作在骨盆或下半身加入了額外的跟蹤器和感測器，這增加了設定的複雜性並限制了在移動環境中的實際應用。在本文中，我們提出了AvatarPoser，這是第一個基於學習的方法，只用使用者的頭和手的運動輸入就能預測世界座標中的全身姿勢。我們的方法建立在Transformer編碼器的基礎上，從輸入訊號中提取深層特徵，並將全域性運動與學習的區域性關節方向解耦，以指導姿勢估計。為了獲得類似於運動捕捉動畫的準確的全身運動，我們使用反運動學的優化程式來完善手臂關節的位置，以匹配原始跟蹤輸入。在我們的評估中，AvatarPoser在大型運動捕捉資料集（AMASS）的評估中取得了新的最先進的結果。同時，我們的方法的推理速度支援實時操作，為Metaverse應用提供了一個實用的介面來支援整體的虛擬化身控制和表現。

⚡ 論文：CelebV-HQ: A Large-Scale Video Facial Attributes Dataset

論文時間：25 Jul 2022

所屬領域：計算機視覺

對應任務：Face Generation，Unconditional Video Generation，Video Generation，人臉生成，無約束視訊生成，視訊生成

論文地址：http://arxiv.org/abs/2207.12393

程式碼實現：http://github.com/celebv-hq/celebv-hq

論文作者：Hao Zhu, Wayne Wu, Wentao Zhu, Liming Jiang, Siwei Tang, Li Zhang, Ziwei Liu, Chen Change Loy

論文簡介：Large-scale datasets have played indispensable roles in the recent success of face generation/editing and significantly facilitated the advances of emerging research fields./大規模的資料集在最近的人臉生成/編輯的成功中發揮了不可或缺的作用，並大大促進了新興研究領域的進步。

論文摘要：大型資料集在近期人臉生成/編輯的成功中發揮了不可或缺的作用，並極大地促進了新興研究領域的發展。然而，學術界仍然缺乏一個具有多樣化面部屬性註釋的視訊資料集，這對人臉相關視訊的研究至關重要。在這項工作中，我們提出了一個具有豐富面部屬性註釋的大規模、高質量和多樣化的視訊資料集，名為高質量名人視訊資料集（CelebV-HQ）。CelebV-HQ包含35,666個解析度至少為512x512的視訊片段，涉及15,653個身份。所有的片段都是用83個面部屬性手動標註的，涵蓋了外觀、動作和情緒。我們從年齡、種族、亮度穩定性、運動平滑度、頭部姿勢多樣性和資料質量等方面進行了綜合分析，以證明CelebV-HQ的多樣性和時間一致性。此外，它的多功能性和潛力在兩個代表性的任務上得到了驗證，即無條件視訊生成和視訊面部屬性編輯。此外，我們設想了CelebV-HQ的未來潛力，以及它將給相關研究方向帶來的新機遇和挑戰。資料、程式碼和模型是公開可用的。專案頁面：http://celebv-hq.github.io 。

我們是 ShowMeAI，致力於傳播AI優質內容，分享行業解決方案，用知識加速每一次技術成長！點選檢視 歷史文章列表，在公眾號內訂閱話題 #ShowMeAI資訊日報，可接收每日最新推送。點選 專題合輯&電子月刊 快速瀏覽各專題全集。

100+開箱即用的AI工具箱；程式設計師150歲長壽指南;『地理空間資料科學』課程資料；Graphic資料視覺化圖表庫；前沿論文 | ShowMeAI資訊日報