科技部等6部門發文,推動AI場景創新;『精益副業』教程式設計師優雅做副業;『可擴充套件系統』設計全教程;人物動作資料集;前沿論文 | ShowMeAI資訊日報

語言: CN / TW / HK

攜手創作,共同成長!這是我參與「掘金日新計劃 · 8 月更文挑戰」的第20天,點選檢視活動詳情

ShowMeAI日報系列全新升級!覆蓋AI人工智慧 工具&框架 | 專案&程式碼 | 博文&分享 | 資料&資源 | 研究&論文 等方向。點選檢視 歷史文章列表,在公眾號內訂閱話題 #ShowMeAI資訊日報,可接收每日最新推送。點選 專題合輯&電子月刊 快速瀏覽各專題全集。

📢 科技部等六部門:加快『場景創新』,以人工智慧高水平應用,促進經濟高質量發展

科技部等六部門8月12日公佈了《關於加快場景創新以人工智慧高水平應用促進經濟高質量發展的指導意見》(以下簡稱《指導意見》),指出推動人工智慧場景創新對於促進人工智慧更高水平應用,更好支撐高質量發展具有重要意義。

《指導意見》規定了企業主導、創新引領、開放融合、協同治理的基本原則,以重大應用場景加速湧現、場景驅動技術創新成效顯著、場景創新合作生態初步形成、場景驅動創新模式廣泛應用為發展目標,鼓勵在製造、農業、物流、金融、商務、家居等重點行業深入挖掘人工智慧技術應用場景,促進智慧經濟高階高效發展。

工具&框架

🚧 『IMAR Vision Datasets Tools』IMAR視覺資料工具

https://github.com/sminchisescu-research/imar_vision_datasets_tools

這個工具專案包含了處理和視覺化IMAR視覺資料集的工具,具體的資料集包括:CHI3D、FlickrCI3D、HumanSC3D、FlickrSC3D 和 Fit3D。專案中還包含了作者釋出的三維重建挑戰的評估伺服器的程式碼,包含『Close Interactions Reconstruction/近距離互動重建』、『Complex Self-Contact Reconstruction/複雜的自我接觸重建』和『Fitness Exercises Reconstruction/健身運動重建』。

🚧 『lkki』一個用於定義和執行多容器Docker應用程式的工具

https://github.com/jlkiri/ikki

Ikki是一個用於定義和執行多容器Docker應用程式的工具。它與Docker Compose有一些類似和不同之處。

🚧 『Datatile』資料管理、驗證、總結和視覺化工具庫

https://github.com/polyaxon/datatile

Datatile 是一個用於資料管理、驗證、總結和視覺化的工具庫,它包含 DataFrameSummary 物件,對 pandas 原有的資料總結總覽功能describe做了拓展。包括『屬性』和『函式』兩個層面:

在『屬性』層面: - dfs.columns_stats:每一列的計數、uniques、missing、missing_perc,以及型別。 - dsf.columns_types:對列的型別進行統計 - dfs[column]:更深入的列的摘要

在『函式』層面: - summary():用上面屬性裡提到的 columns_stats 值對 describe() 函式進行了拓展。

🚧 『pdf-diff』PDF檔案diff工具,可顯示兩個pdf文件的差別

https://github.com/serhack/pdf-diff

pdf-diff 是一個用於視覺化兩個 pdf 檔案之間差異的工具。作者做這個工具,主要是想幫助那些通常在幾個 pdf 檔案上花費大量時間去比對的編輯們。

博文&分享

👍 『The System Design Primer』系統設計入門教程,學習如何設計可擴充套件系統

https://github.com/donnemartin/system-design-primer

The System Design Primer是一份面試教程資料,主要針對「系統設計」方向,在很多科技公司中,除了程式碼面試,系統設計也是技術面試過程中的一個必要環節。本教程包含實踐常見的系統設計面試題並且提供相應的參考答案和示例。

👍 『精益副業』程式設計師如何優雅地做副業

https://github.com/easychen/lean-side-bussiness

http://r.ftqq.com/lean-side-bussiness/index.html

本書擴充套件了《程式設計師如何優雅地掙零花錢》的基本內容,將其放到更大的副業視角;同時引入經過網際網路行業驗證的『精益創業』流程,並優化為副業專用的精益副業流程。書籍以實際案例為主,包含為什麼副業特別重要、如何優雅地做副業、知識和人脈的變現、精益副業流程、精益獨立開發實踐、精益網課變現實踐等部分。

資料&資源

🔥 『Bandai Namco Research Motiondataset』Bandai Namco的人物動作資料集

https://github.com/BandaiNamcoResearchInc/Bandai-Namco-Research-Motiondataset

Bandai-Namco-Research-Motiondataset是一份資料集,包含了不同的任務動作內容,如日常活動、戰鬥和舞蹈;有活躍、疲憊等等風格。這些可以作為MST(運動風格遷移)模型的訓練資料。

研究&論文

公眾號回覆關鍵字日報,免費獲取整理好的論文合輯。

科研進展

  • 2022.07.27 『計算機視覺』 Cross-Attention of Disentangled Modalities for 3D Human Mesh Recovery with Transformers
  • 2022.07.25 『計算機視覺』 Dive into Big Model Training
  • 2022.07.27 『計算機視覺』 Break and Make: Interactive Structural Understanding Using LEGO Bricks
  • 2022.07.25 『自然語言處理』 μKG: A Library for Multi-source Knowledge Graph Embeddings and Applications

⚡ 論文:Cross-Attention of Disentangled Modalities for 3D Human Mesh Recovery with Transformers

論文時間:27 Jul 2022

所屬領域計算機視覺

對應任務:Human Mesh Recovery,人體3D mesh復原

論文地址:https://arxiv.org/abs/2207.13820

程式碼實現:https://github.com/postech-ami/fastmetro

論文作者:Junhyeong Cho, Kim Youwang, Tae-Hyun Oh

論文簡介:Transformer encoder architectures have recently achieved state-of-the-art results on monocular 3D human mesh reconstruction, but they require a substantial number of parameters and expensive computations./Transformer編碼器架構最近在單目三維人體網格重建上取得了最先進的成果,但它們需要大量的引數和昂貴的計算。

論文摘要:Transformer編碼器架構最近在單目3D人體mesh重建上取得了最先進的成果,但它們需要大量的引數和昂貴的計算。由於巨大的記憶體開銷和緩慢的推理速度,很難將這種模型部署到實際使用中。在本文中,我們提出了一種新型的Transformer編碼器-解碼器架構,用於從單一影象進行3D人體mesh結構重建,稱為FastMETRO。我們發現基於編碼器的Transformer的效能瓶頸是由令牌設計引起的,它在輸入令牌之間引入了高複雜性的相互作用。我們通過一個編碼器-解碼器架構來分解這些相互作用,這使得我們的模型需要更少的引數和更短的推理時間。此外,我們通過注意力遮蔽和網格上取樣操作強加了人體形態關係的先驗知識,這導致了更快的收斂和更高的準確性。我們的FastMETRO提高了準確性和效率的帕累託前沿,在Human3.6M和3DPW上明顯優於基於影象的方法。此外,我們在FreiHAND上驗證了其通用性。

⚡ 論文:Dive into Big Model Training

論文時間:25 Jul 2022

所屬領域計算機視覺

對應任務:Self-Supervised Learning,自監督學習

論文地址:https://arxiv.org/abs/2207.11912

程式碼實現:https://github.com/qhliu26/bm-training

論文作者:Qinghua Liu, Yuxiang Jiang

論文簡介:We summarize the existing training methodologies into three main categories: training parallelism, memory-saving technologies, and model sparsity design./我們將現有的訓練方法總結為三大類:訓練的並行性、節省記憶體的技術和模型的稀疏性設計。

論文摘要:模型規模的不斷擴大和效能的不斷提高預示著大模型時代的到來。在這份報告中,我們通過深入研究訓練目標和訓練方法,探討大模型訓練的內容和方式。具體來說,訓練目標描述瞭如何利用網路規模的資料來開發基於自監督學習的能力極強、規模極大的模型,而基於分散式訓練的訓練方法則描述瞭如何使大模型訓練成為現實。我們將現有的訓練方法總結為三大類:訓練並行化、記憶體節省技術和模型稀疏性設計。訓練並行可以根據發生並行的維度分為資料並行、流水線並行和張量並行。節省記憶體的技術與訓練並行是正交的和互補的。而模型稀疏性設計在計算成本不變的情況下進一步擴大了模型規模。持續更新的大模型訓練列表資源可在 https://github.com/qhliu26/BM-Training 獲取。

⚡ 論文:Break and Make: Interactive Structural Understanding Using LEGO Bricks

論文時間:27 Jul 2022

所屬領域計算機視覺

論文地址:https://arxiv.org/abs/2207.13738

程式碼實現:https://github.com/aaronwalsman/ltron,https://github.com/aaronwalsman/ltron-torch-eccv22

論文作者:Aaron Walsman, Muru Zhang, Klemen Kotar, Karthik Desingh, Ali Farhadi, Dieter Fox

論文簡介:We pair this simulator with a new dataset of fan-made LEGO creations that have been uploaded to the internet in order to provide complex scenes containing over a thousand unique brick shapes./我們將這個模擬器與上傳到網際網路上的粉絲製作的樂高作品的新資料集配對,以提供包含一千多個獨特磚塊形狀的複雜場景。

論文摘要:對具有複雜空間關係的幾何結構的視覺理解是人類智力的一個基本組成部分。作為兒童,我們不僅從觀察中學習如何推理結構,而且還通過與我們周圍的世界互動--把東西拆開,再把它們裝回去。對結構和組成進行推理的能力使我們不僅能夠建造東西,而且能夠理解和反向設計複雜的系統。為了推進基於零件的幾何理解的互動式推理研究,我們提出了一個使用樂高積木的具有挑戰性的新的組裝問題,我們稱之為 "分解和製造"。在這個問題中,代理被賦予一個樂高模型,並試圖通過互動式的檢查和拆卸來理解其結構。檢查結束後,代理人必須通過使用低階動作原語從頭開始重建模型來證明其理解。為了促進對這個問題的研究,我們建立了LTRON,一個完全互動式的三維模擬器,允許學習代理組裝、拆卸和操縱樂高模型。我們將這個模擬器與上傳到網際網路上的粉絲製作的樂高作品的新資料集配對,以提供包含一千多個獨特磚塊形狀的複雜場景。我們為解決這個問題邁出了第一步,使用序列對序列模型,為如何在這個具有挑戰性的問題上取得進展提供指導。我們的模擬器和資料可在 github.com/aaronwalsman/ltron 獲取。額外的訓練程式碼和PyTorch例子可在 github.com/aaronwalsman/ltron-torch-eccv22 獲取。

⚡ 論文:μKG: A Library for Multi-source Knowledge Graph Embeddings and Applications

論文時間:23 Jul 2022

所屬領域自然語言處理

對應任務:Entity Alignment,Entity Typing,Graph Embedding,Graph Question Answering,Knowledge Graph Embedding,Knowledge Graph Embeddings,Knowledge Graphs,Link Prediction,Question Answering,Representation Learning,實體對齊,實體型別,圖嵌入,圖回答,知識圖嵌入,知識圖嵌入,知識圖,連結預測,問題回答,表達學習

論文地址:https://arxiv.org/abs/2207.11442

程式碼實現:https://github.com/nju-websoft/mukg

論文作者:Xindi Luo, Zequn Sun, Wei Hu

論文簡介:It is useful for a thorough comparison and analysis of various embedding models and tasks./它有助於對各種嵌入模型和任務進行全面的比較和分析。

論文摘要:本文介紹了μKG,一個用於知識圖譜上表徵學習的開源Python庫。μKG支援多源知識圖的聯合表示學習(也支援單一知識圖)、多個深度學習庫(PyTorch和TensorFlow2)、多個嵌入任務(連結預測、實體對齊、實體型別和多源連結預測)以及多種平行計算模式(多程序和多GPU計算)。它目前實現了26個流行的知識圖譜嵌入模型,並支援16個基準資料集。μKG提供了嵌入技術的高階實現,簡化了不同任務的管道。μKG比現有的知識圖譜嵌入庫更全面。它對於各種嵌入模型和任務的全面比較和分析是非常有用的。我們表明,聯合學習的嵌入可以極大地幫助以知識為動力的下游任務,如多跳知識圖譜問答。我們將緊跟相關領域的最新發展,並將其納入μKG。

我們是 ShowMeAI,致力於傳播AI優質內容,分享行業解決方案,用知識加速每一次技術成長!點選檢視 歷史文章列表,在公眾號內訂閱話題 #ShowMeAI資訊日報,可接收每日最新推送。點選 專題合輯&電子月刊 快速瀏覽各專題全集。

「其他文章」