特斯拉人形機器人『擎天柱』將亮相AI DAY;Go語言絕美圖文教程;正則表達式的救星網站;食品Logo檢測數據集;前沿論文 | ShowMeAI資訊日報

語言: CN / TW / HK

攜手創作,共同成長!這是我參與「掘金日新計劃 · 8 月更文挑戰」的第29天,點擊查看活動詳情

ShowMeAI日報系列全新升級!覆蓋AI人工智能 工具&框架 | 項目&代碼 | 博文&分享 | 數據&資源 | 研究&論文 等方向。點擊查看 歷史文章列表,在公眾號內訂閲話題 #ShowMeAI資訊日報,可接收每日最新推送。點擊 專題合輯&電子月刊 快速瀏覽各專題全集。

📢 特斯拉將於9月30日舉辦 2022 AI DAY,擎天柱原型機亮相工作

據 Tesla 官方微博和 Twitter 發佈的信息,2022年 AI DAY 將於北美時間9月30日開幕。從馬斯克的推文及官方推廣信息來看,Optimus (擎天柱) 人形機器人將會成為今年特斯拉 AI DAY 的亮點。

Optimus 最初命名為 Tesla Bot,更名大概是受到了變形金剛的影響!2021年 AI DAY 上初次亮相的 Optimus,已經非常引人注目,穿着白色緊身衣,帶着閃亮的面罩黑色,酷似外星舞者。 作為特斯拉押寶和優先開發的產品,馬斯克對其也寄予厚望,稱在未來特斯拉機器人將變得比汽車更有價值。非常期待 Optimus 在今年 AI DAY 中的表現!

工具&框架

🚧 『minimum Redundancy Maximum Relevance』mRMR 高效特徵選擇算法

http://github.com/smazzanti/mrmr

mRMR(minimum Redundancy Maximum Relevance,最小宂餘度-最大相關性)是一種特徵選擇算法,為給定的機器學習任務找到最小的相關特徵子集。mRMR 對建模帶來諸多幫助:減少內存消耗、縮短所需時間、提高性能、提高結果的可解釋性。這裏同步介紹兩篇作者所寫的mRMR介紹文章。

第一篇『“MRMR” Explained Exactly How You Wished Someone Explained to You』介紹了 Uber 機器學習平台如何使用 mRMR 算法尋找最小最優特徵子集。

第二篇『Feature Selection: How to Throw Away 95% of Your Features and Get 95% Accuracy』介紹了 mRMR 在MNIST數據集上效果——只需要 40 個像素即可獲得超過 95% 的準確率。

🚧 『TotalSegmentator』對 CT 圖像中 104 種重要解剖結構進行可靠分割的工具

http://github.com/wasserth/TotalSegmentator

http://totalsegmentator.com/

TotalSegmentator 是一個醫療影像工具庫,用於分割 CT 圖像中的104個類別(27個器官 + 59個骨骼 + 10組肌肉 + 8組血管)。

TotalSegmentator 由各種不同的CT圖像訓練得來(不同的掃描儀、機構、協議等),因此對大多數圖像都是適用的。

🚧 『Aquarel』輕鬆設置 matplotlib 可視化風格

http://github.com/lgienapp/aquarel

Aquarel是一個用於可視化的輕量級模板引擎,也是 Matplotlibs 的 rcparams 包裝器,使繪圖的樣式變得簡單。Aquarel 模板可以通過編程定義,並以 JSON 格式進行序列化和共享。具體的一些可視化效果如下圖所示,依次為 arctic、boxy、minimal、umbra 的 dark 和 light 兩種風格:

🚧 『Pylustrator』以可復現的方式為論文準備插圖的軟件

http://github.com/rgerum/pylustrator

Pylustrator 是一個以可復現方式為論文準備插圖的軟件,它提供了一個交互式界面,幫你找到數據呈現在出版物中的最佳方式,添加的格式和造型等可以通過自動生成代碼文件。該文件可以準確地再現圖形,而無需在外部程序中進行內容調整。特別的,如果你需要將將多個圖形進行組合,Pylustrator可以將不同的子圖形組合成一個圖形。

🚧 『Paddle3D』飛槳官方開源的端到端深度學習3D感知套件

http://github.com/PaddlePaddle/Paddle3D

Paddle3D 是飛槳官方開源的端到端深度學習3D感知套件,涵蓋了許多前沿和經典的3D感知模型,支持多種模態和多種任務,可以助力開發者便捷地完成 『自動駕駛』 領域模型 從訓練到部署的全流程應用。

Paddle3D具備豐富的模型庫、靈活的框架設計、端到端全流程、工業級部署方案、無縫銜接Apollo等特性,支持多種任務類型,提供從數據處理、模型搭建、訓練調優到部署落地的全流程能力,並且可以無縫對接Apollo自動駕駛平台。

博文&分享

👍 『正則表達式實例蒐集』通過實例來學習正則表達式

http://github.com/jaywcjlove/regexp-example

http://wangchujiang.com/regexp-example/

正則表達式有用但是難記。這個 Repo 提供了正則表達式的實例蒐集功能,幫助你通過實例來學習正則表達式。如果有一些基礎知識,通過實例理解,將會更快速入門,寫出自己的正則。對應的實例網站,可以快速進行正則實例的驗證和查詢。

如果對正則表達式的基礎還不熟悉,推薦學習GitHub 的 50K Star項目『Learn regex the easy way』(http://github.com/ziishaned/learn-regex),這個倉庫教程被翻譯成十幾種語言了,也包含了中文翻譯,它通過極其簡單的實例,幫助你理解正則基礎語法規則。

👍 『Go Course』Go語言入門與進階課程

http://github.com/karanpratapsingh/go-course

http://www.karanpratapsingh.com/courses/go

Go(也稱為Golang)是 Google 於 2007 年開發並於 2009 年開源的一種編程語言,只有 25 個關鍵字,易於閲讀、編寫和維護,發展迅速且有一個活躍的社區。

Go 旨在將靜態語言的功效、速度、安全性與動態語言的易於編程相結合,使編程再次變得更加有趣。因此,語言功能強大且非常適合分佈式系統,可以用於後端開發、雲計算以及最近的數據科學等領域。

課程分為 4 個章節,以『圖文+代碼』的方式講解 Go 語言的重要知識點,直觀易懂。這裏以『Interfaces』一節為例,對系列的呈現和風格做簡要介紹。

數據&資源

🔥 『Awesome Weakly Supervised Semantic Segmentation Papers』弱監督語義分割相關論文資源列表

http://github.com/PengtaoJiang/Awesome-Weakly-Supervised-Semantic-Segmentation-Papers

🔥 『FoodLogoDet 1500』面向多尺度特徵解耦網絡食品Logo檢測的大規模數據集

http://github.com/hq03/FoodLogoDet-1500-Dataset

食品標識檢測因有着廣泛的現實應用,例如自助商店的食品推薦、電子商務平台的侵權檢測等。FoodLogoDet-1500 是大型公開食品標識數據集,包含 1,500 個類別、約 100,000 張圖像和約 150,000 個手動註釋的食品標識對象,用於支持食品標識檢測算法的開發和模型訓練。

下圖分別顯示了『類別數量的排序分佈』和『各類別的統計信息』,可以看到 FoodLogoDet-1500 在不同食品標識類別之間的分佈是不平衡的,這對使用少量樣本進行有效的食品標識檢測提出了挑戰。

研究&論文

公眾號回覆關鍵字日報,免費獲取整理好的論文合輯。

科研進展

  • 2022.08.15 『語言模型』LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale
  • 2022.08.18 『音樂生產』Musika! Fast Infinite Waveform Music Generation
  • 2022.08.14 『視頻修補』Flow-Guided Transformer for Video Inpainting
  • 2022.08.17 『圖像生成』Paint2Pix: Interactive Painting based Progressive Image Synthesis and Editing

⚡ 論文:LLM.int8: 8-bit Matrix Multiplication for Transformers at Scale

論文時間:15 Aug 2022

領域任務:Language Modelling, Linguistic Acceptability,語言模型

論文地址:http://arxiv.org/abs/2208.07339

代碼實現:http://github.com/timdettmers/bitsandbytes

論文作者:Tim Dettmers, Mike Lewis, Younes Belkada, Luke Zettlemoyer

論文簡介:We develop a procedure for Int8 matrix multiplication for feed-forward and attention projection layers in transformers, which cut the memory needed for inference by half while retaining full precision performance./我們為transformers中的前饋層和注意投影層開發了一個Int8矩陣乘法程序,它將推理所需的內存減少了一半,同時保留了全精度性能。

論文摘要:大型語言模型已被廣泛採用,但推理時需要大量的GPU內存。我們為transformers中的前饋和注意投影層開發了一個Int8矩陣乘法程序,它將推理所需的內存減少了一半,同時保留了全精度性能。用我們的方法,一個175B參數的16/32位檢查點可以被加載,轉換為Int8,並立即使用,而不會出現性能下降。這一點是通過理解和繞過transformer語言模型中高度系統化的突發特徵的特性而實現的,這些特徵主導着注意力和transformer的預測性能。為了應對這些特徵,我們開發了一個由兩部分組成的量化程序:LLM.int8()。我們首先使用矢量量化,對矩陣乘法中的每個內積單獨使用歸一化常數,對大多數特徵進行量化。然而,對於出現的異常值,我們還包括一個新的混合精度分解方案,該方案將異常值特徵維度隔離到16位的矩陣乘法中,同時仍有超過99.9%的值是以8位乘法的。使用LLM.int8(),我們根據經驗表明有可能在參數高達175B的LLM中進行推理,而不會出現任何性能下降。這一結果使這種模型更容易獲得,例如,使其有可能在具有消費級GPU的單一服務器上使用OPT-175B/BLOOM。

⚡ 論文:Musika! Fast Infinite Waveform Music Generation

論文標題

論文時間:18 Aug 2022

領域任務:Music Generation,音樂生產

論文地址:http://arxiv.org/abs/2208.08706

代碼實現:http://github.com/marcoppasini/musika

論文作者:Marco Pasini, Jan Schlüter

論文簡介:We release the source code and pretrained autoencoder weights at github. com/marcoppasini/musika, such that a GAN can be trained on a new music domain with a single GPU in a matter of hours./我們在github.com/marcoppasini/musika發佈了源代碼和預訓練的自動編碼器權重,這樣就可以在幾個小時內用一個GPU對一個新的音樂領域進行GAN訓練。

論文摘要:用户可控的快速音樂生成可以實現新的音樂創作或表演方式。然而,最先進的音樂生成系統需要大量的數據和計算資源進行訓練,而且推理速度很慢。這使得它們對於實時互動使用來説不切實際。在這項工作中,我們介紹了Musika,這是一個音樂生成系統,可以使用單個GPU對數百小時的音樂進行訓練,並允許在CPU上比實時生成任意長度的音樂。我們通過首先用對抗性自動編碼器學習譜圖大小和相位的緊湊可逆表示,然後針對特定的音樂領域在這個表示上訓練生成對抗網絡(GAN)來實現這一目標。一個潛在的座標系統可以平行地生成任意長的節選序列,而一個全局背景向量可以使音樂在時間上保持風格的一致性。我們進行了定量評估,以評估生成樣本的質量,並展示了在鋼琴和電子音樂生成中用户控制的選項。我們在 github.com/marcoppasini/musika 上發佈了源代碼和預訓練的自動編碼器權重,這樣就可以在幾個小時內用一個GPU在一個新的音樂領域訓練GAN。

⚡ 論文:Flow-Guided Transformer for Video Inpainting

論文時間:14 Aug 2022

領域任務:Video Inpainting,視頻修補

論文地址:http://arxiv.org/abs/2208.06768

代碼實現:http://github.com/hitachinsk/fgt

論文作者:Kaidong Zhang, Jingjing Fu, Dong Liu

論文簡介:Especially in spatial transformer, we design a dual perspective spatial MHSA, which integrates the global tokens to the window-based attention./特別是在空間transformer中,我們設計了一個雙視角的空間MHSA,它將全局標記與基於窗口的注意力結合起來。

論文摘要:我們提出了一種流引導的transformer,它創新性地利用了光學流暴露的運動差異來指導transformer中的注意力檢索,以實現高保真視頻的繪製。更特別的是,我們設計了一個新的光流完成網絡,通過利用本地時間窗口的相關光流特徵來完成被破壞的光流。有了完整的光流,我們在視頻幀中傳播內容,並採用流引導的transformer來合成其餘的損壞區域。我們沿時間和空間維度對transformer進行解耦,這樣我們就可以很容易地整合本地相關的已完成的光流量,只指示空間注意力。此外,我們設計了一個光流加權模塊,以精確控制已完成的光流對每個空間transformer的影響。為了提高效率,我們在空間和時間transformer中都引入了窗口劃分策略。特別是在空間transformer中,我們設計了一個雙視角的空間MHSA,它將全局標記整合到基於窗口的關注中。大量的實驗從質量和數量上證明了所提方法的有效性。代碼可在 http://github.com/hitachinsk/FGT 獲取。

⚡ 論文:Paint2Pix: Interactive Painting based Progressive Image Synthesis and Editing

論文時間:17 Aug 2022

領域任務:Image Generation,圖像生成

論文地址:http://arxiv.org/abs/2208.08092

代碼實現:http://github.com/1jsingh/paint2pix

論文作者:Jaskirat Singh, Liang Zheng, Cameron Smith, Jose Echevarria

論文簡介:In particular, we propose a novel approach paint2pix, which learns to predict (and adapt) "what a user wants to draw" from rudimentary brushstroke inputs, by learning a mapping from the manifold of incomplete human paintings to their realistic renderings./特別地,我們提出了一種新穎的方法paint2pix,它通過學習從不完整的人類繪畫流形到其現實渲染的映射,來預測(和適應)用户從基本的筆觸輸入中 "想畫什麼"。

論文摘要:用用户的塗鴉進行可控的圖像合成是計算機視覺界非常感興趣的一個話題。在本文中,我們首次研究了從不完整和原始的人類繪畫中合成逼真的圖像的問題。特別是,我們提出了一種新穎的方法paint2pix,它通過學習從不完整的人類繪畫流形到其現實渲染的映射,來預測(並適應)用户從原始筆觸輸入中 "想要畫什麼"。當與最近在自主繪畫代理方面的工作結合使用時,我們表明paint2pix可以用於從頭開始的漸進式圖像合成。在這個過程中,paint2pix允許新手逐步合成所需的圖像輸出,而只需要少數粗略的用户塗鴉來準確地引導合成過程的軌跡。此外,我們發現我們的方法也為真實的圖像編輯提供了驚人的便利,並且允許用户通過添加一些位置良好的筆觸來進行各種自定義的細粒度編輯。補充視頻和演示可在 http://1jsingh.github.io/paint2pix 查看。

我們是 ShowMeAI,致力於傳播AI優質內容,分享行業解決方案,用知識加速每一次技術成長!點擊查看 歷史文章列表,在公眾號內訂閲話題 #ShowMeAI資訊日報,可接收每日最新推送。點擊 專題合輯&電子月刊 快速瀏覽各專題全集。

「其他文章」