特斯拉人形機器人『擎天柱』將亮相AI DAY;Go語言絕美圖文教程;正則表示式的救星網站;食品Logo檢測資料集;前沿論文 | ShowMeAI資訊日報

語言: CN / TW / HK

攜手創作,共同成長!這是我參與「掘金日新計劃 · 8 月更文挑戰」的第29天,點選檢視活動詳情

ShowMeAI日報系列全新升級!覆蓋AI人工智慧 工具&框架 | 專案&程式碼 | 博文&分享 | 資料&資源 | 研究&論文 等方向。點選檢視 歷史文章列表,在公眾號內訂閱話題 #ShowMeAI資訊日報,可接收每日最新推送。點選 專題合輯&電子月刊 快速瀏覽各專題全集。

📢 特斯拉將於9月30日舉辦 2022 AI DAY,擎天柱原型機亮相工作

據 Tesla 官方微博和 Twitter 釋出的資訊,2022年 AI DAY 將於北美時間9月30日開幕。從馬斯克的推文及官方推廣資訊來看,Optimus (擎天柱) 人形機器人將會成為今年特斯拉 AI DAY 的亮點。

Optimus 最初命名為 Tesla Bot,更名大概是受到了變形金剛的影響!2021年 AI DAY 上初次亮相的 Optimus,已經非常引人注目,穿著白色緊身衣,帶著閃亮的面罩黑色,酷似外星舞者。 作為特斯拉押寶和優先開發的產品,馬斯克對其也寄予厚望,稱在未來特斯拉機器人將變得比汽車更有價值。非常期待 Optimus 在今年 AI DAY 中的表現!

工具&框架

🚧 『minimum Redundancy Maximum Relevance』mRMR 高效特徵選擇演算法

https://github.com/smazzanti/mrmr

mRMR(minimum Redundancy Maximum Relevance,最小冗餘度-最大相關性)是一種特徵選擇演算法,為給定的機器學習任務找到最小的相關特徵子集。mRMR 對建模帶來諸多幫助:減少記憶體消耗、縮短所需時間、提高效能、提高結果的可解釋性。這裡同步介紹兩篇作者所寫的mRMR介紹文章。

第一篇『“MRMR” Explained Exactly How You Wished Someone Explained to You』介紹了 Uber 機器學習平臺如何使用 mRMR 演算法尋找最小最優特徵子集。

第二篇『Feature Selection: How to Throw Away 95% of Your Features and Get 95% Accuracy』介紹了 mRMR 在MNIST資料集上效果——只需要 40 個畫素即可獲得超過 95% 的準確率。

🚧 『TotalSegmentator』對 CT 影象中 104 種重要解剖結構進行可靠分割的工具

https://github.com/wasserth/TotalSegmentator

https://totalsegmentator.com/

TotalSegmentator 是一個醫療影像工具庫,用於分割 CT 影象中的104個類別(27個器官 + 59個骨骼 + 10組肌肉 + 8組血管)。

TotalSegmentator 由各種不同的CT影象訓練得來(不同的掃描器、機構、協議等),因此對大多數影象都是適用的。

🚧 『Aquarel』輕鬆設定 matplotlib 視覺化風格

https://github.com/lgienapp/aquarel

Aquarel是一個用於視覺化的輕量級模板引擎,也是 Matplotlibs 的 rcparams 包裝器,使繪圖的樣式變得簡單。Aquarel 模板可以通過程式設計定義,並以 JSON 格式進行序列化和共享。具體的一些視覺化效果如下圖所示,依次為 arctic、boxy、minimal、umbra 的 dark 和 light 兩種風格:

🚧 『Pylustrator』以可復現的方式為論文準備插圖的軟體

https://github.com/rgerum/pylustrator

Pylustrator 是一個以可復現方式為論文準備插圖的軟體,它提供了一個互動式介面,幫你找到資料呈現在出版物中的最佳方式,新增的格式和造型等可以通過自動生成程式碼檔案。該檔案可以準確地再現圖形,而無需在外部程式中進行內容調整。特別的,如果你需要將將多個圖形進行組合,Pylustrator可以將不同的子圖形組合成一個圖形。

🚧 『Paddle3D』飛槳官方開源的端到端深度學習3D感知套件

https://github.com/PaddlePaddle/Paddle3D

Paddle3D 是飛槳官方開源的端到端深度學習3D感知套件,涵蓋了許多前沿和經典的3D感知模型,支援多種模態和多種任務,可以助力開發者便捷地完成 『自動駕駛』 領域模型 從訓練到部署的全流程應用。

Paddle3D具備豐富的模型庫、靈活的框架設計、端到端全流程、工業級部署方案、無縫銜接Apollo等特性,支援多種任務型別,提供從資料處理、模型搭建、訓練調優到部署落地的全流程能力,並且可以無縫對接Apollo自動駕駛平臺。

博文&分享

👍 『正則表示式例項蒐集』通過例項來學習正則表示式

https://github.com/jaywcjlove/regexp-example

https://wangchujiang.com/regexp-example/

正則表示式有用但是難記。這個 Repo 提供了正則表示式的例項蒐集功能,幫助你通過例項來學習正則表示式。如果有一些基礎知識,通過例項理解,將會更快速入門,寫出自己的正則。對應的例項網站,可以快速進行正則例項的驗證和查詢。

如果對正則表示式的基礎還不熟悉,推薦學習GitHub 的 50K Star專案『Learn regex the easy way』(https://github.com/ziishaned/learn-regex),這個倉庫教程被翻譯成十幾種語言了,也包含了中文翻譯,它通過極其簡單的例項,幫助你理解正則基礎語法規則。

👍 『Go Course』Go語言入門與進階課程

https://github.com/karanpratapsingh/go-course

https://www.karanpratapsingh.com/courses/go

Go(也稱為Golang)是 Google 於 2007 年開發並於 2009 年開源的一種程式語言,只有 25 個關鍵字,易於閱讀、編寫和維護,發展迅速且有一個活躍的社群。

Go 旨在將靜態語言的功效、速度、安全性與動態語言的易於程式設計相結合,使程式設計再次變得更加有趣。因此,語言功能強大且非常適合分散式系統,可以用於後端開發、雲端計算以及最近的資料科學等領域。

課程分為 4 個章節,以『圖文+程式碼』的方式講解 Go 語言的重要知識點,直觀易懂。這裡以『Interfaces』一節為例,對系列的呈現和風格做簡要介紹。

資料&資源

🔥 『Awesome Weakly Supervised Semantic Segmentation Papers』弱監督語義分割相關論文資源列表

https://github.com/PengtaoJiang/Awesome-Weakly-Supervised-Semantic-Segmentation-Papers

🔥 『FoodLogoDet 1500』面向多尺度特徵解耦網路食品Logo檢測的大規模資料集

https://github.com/hq03/FoodLogoDet-1500-Dataset

食品標識檢測因有著廣泛的現實應用,例如自助商店的食品推薦、電子商務平臺的侵權檢測等。FoodLogoDet-1500 是大型公開食品標識資料集,包含 1,500 個類別、約 100,000 張影象和約 150,000 個手動註釋的食品標識物件,用於支援食品標識檢測演算法的開發和模型訓練。

下圖分別顯示了『類別數量的排序分佈』和『各類別的統計資訊』,可以看到 FoodLogoDet-1500 在不同食品標識類別之間的分佈是不平衡的,這對使用少量樣本進行有效的食品標識檢測提出了挑戰。

研究&論文

公眾號回覆關鍵字日報,免費獲取整理好的論文合輯。

科研進展

  • 2022.08.15 『語言模型』LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale
  • 2022.08.18 『音樂生產』Musika! Fast Infinite Waveform Music Generation
  • 2022.08.14 『影片修補』Flow-Guided Transformer for Video Inpainting
  • 2022.08.17 『影象生成』Paint2Pix: Interactive Painting based Progressive Image Synthesis and Editing

⚡ 論文:LLM.int8: 8-bit Matrix Multiplication for Transformers at Scale

論文時間:15 Aug 2022

領域任務:Language Modelling, Linguistic Acceptability,語言模型

論文地址:https://arxiv.org/abs/2208.07339

程式碼實現:https://github.com/timdettmers/bitsandbytes

論文作者:Tim Dettmers, Mike Lewis, Younes Belkada, Luke Zettlemoyer

論文簡介:We develop a procedure for Int8 matrix multiplication for feed-forward and attention projection layers in transformers, which cut the memory needed for inference by half while retaining full precision performance./我們為transformers中的前饋層和注意投影層開發了一個Int8矩陣乘法程式,它將推理所需的記憶體減少了一半,同時保留了全精度效能。

論文摘要:大型語言模型已被廣泛採用,但推理時需要大量的GPU記憶體。我們為transformers中的前饋和注意投影層開發了一個Int8矩陣乘法程式,它將推理所需的記憶體減少了一半,同時保留了全精度效能。用我們的方法,一個175B引數的16/32位檢查點可以被載入,轉換為Int8,並立即使用,而不會出現效能下降。這一點是通過理解和繞過transformer語言模型中高度系統化的突發特徵的特性而實現的,這些特徵主導著注意力和transformer的預測效能。為了應對這些特徵,我們開發了一個由兩部分組成的量化程式:LLM.int8()。我們首先使用向量量化,對矩陣乘法中的每個內積單獨使用歸一化常數,對大多數特徵進行量化。然而,對於出現的異常值,我們還包括一個新的混合精度分解方案,該方案將異常值特徵維度隔離到16位的矩陣乘法中,同時仍有超過99.9%的值是以8位乘法的。使用LLM.int8(),我們根據經驗表明有可能在引數高達175B的LLM中進行推理,而不會出現任何效能下降。這一結果使這種模型更容易獲得,例如,使其有可能在具有消費級GPU的單一伺服器上使用OPT-175B/BLOOM。

⚡ 論文:Musika! Fast Infinite Waveform Music Generation

論文標題

論文時間:18 Aug 2022

領域任務:Music Generation,音樂生產

論文地址:https://arxiv.org/abs/2208.08706

程式碼實現:https://github.com/marcoppasini/musika

論文作者:Marco Pasini, Jan Schlüter

論文簡介:We release the source code and pretrained autoencoder weights at github. com/marcoppasini/musika, such that a GAN can be trained on a new music domain with a single GPU in a matter of hours./我們在github.com/marcoppasini/musika釋出了原始碼和預訓練的自動編碼器權重,這樣就可以在幾個小時內用一個GPU對一個新的音樂領域進行GAN訓練。

論文摘要:使用者可控的快速音樂生成可以實現新的音樂創作或表演方式。然而,最先進的音樂生成系統需要大量的資料和計算資源進行訓練,而且推理速度很慢。這使得它們對於實時互動使用來說不切實際。在這項工作中,我們介紹了Musika,這是一個音樂生成系統,可以使用單個GPU對數百小時的音樂進行訓練,並允許在CPU上比實時生成任意長度的音樂。我們通過首先用對抗性自動編碼器學習譜圖大小和相位的緊湊可逆表示,然後針對特定的音樂領域在這個表示上訓練生成對抗網路(GAN)來實現這一目標。一個潛在的座標系統可以平行地生成任意長的節選序列,而一個全域性背景向量可以使音樂在時間上保持風格的一致性。我們進行了定量評估,以評估生成樣本的質量,並展示了在鋼琴和電子音樂生成中使用者控制的選項。我們在 github.com/marcoppasini/musika 上釋出了原始碼和預訓練的自動編碼器權重,這樣就可以在幾個小時內用一個GPU在一個新的音樂領域訓練GAN。

⚡ 論文:Flow-Guided Transformer for Video Inpainting

論文時間:14 Aug 2022

領域任務:Video Inpainting,影片修補

論文地址:https://arxiv.org/abs/2208.06768

程式碼實現:https://github.com/hitachinsk/fgt

論文作者:Kaidong Zhang, Jingjing Fu, Dong Liu

論文簡介:Especially in spatial transformer, we design a dual perspective spatial MHSA, which integrates the global tokens to the window-based attention./特別是在空間transformer中,我們設計了一個雙視角的空間MHSA,它將全域性標記與基於視窗的注意力結合起來。

論文摘要:我們提出了一種流引導的transformer,它創新性地利用了光學流暴露的運動差異來指導transformer中的注意力檢索,以實現高保真影片的繪製。更特別的是,我們設計了一個新的光流完成網路,通過利用本地時間視窗的相關光流特徵來完成被破壞的光流。有了完整的光流,我們在影片幀中傳播內容,並採用流引導的transformer來合成其餘的損壞區域。我們沿時間和空間維度對transformer進行解耦,這樣我們就可以很容易地整合本地相關的已完成的光流量,只指示空間注意力。此外,我們設計了一個光流加權模組,以精確控制已完成的光流對每個空間transformer的影響。為了提高效率,我們在空間和時間transformer中都引入了視窗劃分策略。特別是在空間transformer中,我們設計了一個雙視角的空間MHSA,它將全域性標記整合到基於視窗的關注中。大量的實驗從質量和數量上證明了所提方法的有效性。程式碼可在 https://github.com/hitachinsk/FGT 獲取。

⚡ 論文:Paint2Pix: Interactive Painting based Progressive Image Synthesis and Editing

論文時間:17 Aug 2022

領域任務:Image Generation,影象生成

論文地址:https://arxiv.org/abs/2208.08092

程式碼實現:https://github.com/1jsingh/paint2pix

論文作者:Jaskirat Singh, Liang Zheng, Cameron Smith, Jose Echevarria

論文簡介:In particular, we propose a novel approach paint2pix, which learns to predict (and adapt) "what a user wants to draw" from rudimentary brushstroke inputs, by learning a mapping from the manifold of incomplete human paintings to their realistic renderings./特別地,我們提出了一種新穎的方法paint2pix,它通過學習從不完整的人類繪畫流形到其現實渲染的對映,來預測(和適應)使用者從基本的筆觸輸入中 "想畫什麼"。

論文摘要:用使用者的塗鴉進行可控的影象合成是計算機視覺界非常感興趣的一個話題。在本文中,我們首次研究了從不完整和原始的人類繪畫中合成逼真的影象的問題。特別是,我們提出了一種新穎的方法paint2pix,它通過學習從不完整的人類繪畫流形到其現實渲染的對映,來預測(並適應)使用者從原始筆觸輸入中 "想要畫什麼"。當與最近在自主繪畫代理方面的工作結合使用時,我們表明paint2pix可以用於從頭開始的漸進式影象合成。在這個過程中,paint2pix允許新手逐步合成所需的影象輸出,而只需要少數粗略的使用者塗鴉來準確地引導合成過程的軌跡。此外,我們發現我們的方法也為真實的影象編輯提供了驚人的便利,並且允許使用者通過新增一些位置良好的筆觸來進行各種自定義的細粒度編輯。補充影片和演示可在 https://1jsingh.github.io/paint2pix 檢視。

我們是 ShowMeAI,致力於傳播AI優質內容,分享行業解決方案,用知識加速每一次技術成長!點選檢視 歷史文章列表,在公眾號內訂閱話題 #ShowMeAI資訊日報,可接收每日最新推送。點選 專題合輯&電子月刊 快速瀏覽各專題全集。

「其他文章」