BBQ!又被AI調戲了!『代碼整潔之道』讀書筆記;ETH『數理統計基礎』最新課程;Meta 從大腦活動中解碼語音;前沿論文 | ShowMeAI資訊日報

語言: CN / TW / HK

我報名參加金石計劃1期挑戰——瓜分10萬獎池,這是我的第1篇文章,點擊查看活動詳情

👀日報合輯 | 📆電子月刊 | 🔔公眾號下載資料 | 🍩@韓信子

📢 AI 生成的中國山水畫缺少意境?和菜頭:親,這是黃公望的原圖,元代~

https://mp.weixin.qq.com/s/fgAEiw0d7ZaBDfLd-Ro8YQ

和菜頭作為互聯網老老老鳥,最近幾個月加入了 Stable Diffusion 和 DALL·E 2 的AI繪畫行列,調教模型生成公眾號封面圖,目標是畫出『關公騎哈雷摩托兜風圖』。昨天中午在公眾號『槽邊往事』放出了4張AI繪製的中國山水畫,評論裏一堆人説沒意境、沒氣韻、沒審美。於是下午又放出一張(如下),依舊被批沒留白、機械味。

菜頭叔評論揭曉答案,這是黃公望《天池石壁圖》局部。原圖現藏北京故宮博物院的那種 🤭 作者黃公望被視為中國山水畫發展史上里程碑式的人物,另一幅傳世畫作是大名鼎鼎的《富春山居圖》。所以,AI 繪畫真的沒意境嗎?還是我們先入為主,或者倔強地不願認輸?

工具&框架

🚧 『vedo』基於 VTK 和 Numpy 的 3D 物體科學分析與可視化模塊

https://github.com/marcomusy/vedo

https://vedo.embl.es/

vedo 是一個輕量且功能強大的 Python 工具庫,以 VTK 和 numpy 為基礎,用於科學分析和 3D 物體的可視化。基於 vedo 可以輕鬆處理 3D 點雲、網格和 volumes 的工作,只需幾行代碼。

🚧 『Basic Pitch』自動音樂音頻轉錄庫

https://github.com/spotify/basic-pitch-ts

https://basicpitch.spotify.com/

Basic Pitch 是一個用於自動音樂轉錄(AMT)的 Typescript 和 Python 庫,使用由 Spotify 音頻智能實驗室開發的輕量級神經網絡。你只需提供一個兼容的音頻文件,basic-pitch 就會生成一個帶有音彎的 MIDI 文件,下載後就可以在數字音頻工作站進行微調和修正。Basic Pitch 很小且容易使用,可以在 npm 上安裝,對多音階的支持、對不同樂器的概括能力以及它的音符準確性都能與更大、更耗資源的 AMT 系統競爭。

🚧 『ZenML』可擴展的開源 MLOps 框架,用於創建可用於生產的機器學習管道

https://github.com/zenml-io/zenml

https://zenml.io/home

ZenML 是一個可擴展的、開源的 MLOps 框架,用於創建可遷移的、可用於生產的 MLOps 管道。它是為數據科學家、機器學習工程師和 MLOps 開發人員建立的,便於其在開發到生產過程中進行協作。ZenML 語法簡單靈活,與雲環境和工具無關,並且有 ML 工作流程的接口。

🚧 『YOLO Series』基於 PaddleDetection 的 YOLO 系列模型庫

https://github.com/nemonameless/PaddleDetection_YOLOSeries

YOLOSeries 是基於 PaddleDetection 的 YOLO 系列模型庫,支持 PP-YOLOE、YOLOv3、YOLOX、YOLOv5、MT-YOLOv6、YOLOv7 等模型,其上游依賴為 PaddleDetection 的 develop 分支,並與 PaddleDetection 主代碼庫分支同步更新,包括 github 和 gitee 代碼。

🚧 『text_normalization』中文文本規範化工具

https://github.com/pengzhendong/text_normalization

text normalization 是一個小型的 NLP 工具庫,它可以用於文本的規範化,覆蓋預處理、表達標準化、後處理等環節,可以完成類似全角半角轉換、標點規範化、中文數字、分數、百分比、日期、單位 處理等等操作。

博文&分享

👍 『Fundamentals of Mathematical Statistics』蘇黎世聯邦理工·數理統計基礎·2021課程

https://video.ethz.ch/lectures/d-math/2021/autumn/401-3621-00L.html

👍 『Using AI to decode speech from brain activity』Meta AI博客:利用AI從大腦活動中解碼語音

https://ai.facebook.com/blog/ai-speech-brain-activity/

https://arxiv.org/abs/2208.12266

全世界每年有超過 6900 萬的人因為創傷性腦損傷無法通過語音、打字或手勢進行交流。Meta 的工程師開發了一種 AI 模型,以非侵入的方式從大腦活動記錄中解碼語音。結果表明,在三秒的大腦活動中,模型可以從 793 個日常高頻應用的詞彙表中解碼相應的語音片段,準確率高達 73%。

團隊使用了四個學術機構開源的 EEG(腦電圖)和 MEG(腦磁圖) 數據集,169 名健康志願者的 150 多個小時的錄音。將這些 EEG 和 MEG 記錄輸入到一個『大腦』模型中,該模型由一個帶有殘差連接的標準深度卷積網絡組成。最後,架構學習將『這個大腦模型的輸出』與『呈現給參與者語音的深度表示』二者保持一致。

當然這些只是第一步。當前只專注於解碼語音感知,但實現患者交流的最終目標是將這項工作擴展到語音輸出。團隊仍在努力中!

數據&資源

🔥 『Clean Code Notes』代碼整潔之道·筆記

https://github.com/JuanCrg90/Clean-Code-Notes

《Clean Code (代碼整潔之道)》是著名軟件專家 Robert C. Martin 提出的一種革命性的範式。作者將與同事們整理代碼的最佳實踐經驗提煉成了一本書。全書分為三個部分:

  • 第一部分描述了編寫整潔代碼的原則、模式和實踐。
  • 第二部分由幾個複雜程度越來越高的案例研究組成。
  • 第三部分是創建案例研究時收集的知識庫,描述了編寫、閲讀和整理代碼時的思考方式。

這個項目是書籍的學習筆記,整理了全書17個章節的知識要點和關鍵代碼。

🔥 『Representation Learning for Reinforcement Learning』面向強化學習的表示學習相關文獻列表

https://github.com/fuyw/RepL4RL

研究&論文

公眾號後台回覆關鍵字 日報,免費獲取整理好的論文合輯。

科研進展

  • 2022.08.26 『人臉生成』 Training and Tuning Generative Neural Radiance Fields for Attribute-Conditional 3D-Aware Face Generation
  • 2022.08.26 『場景文字識別』 Arbitrary Shape Text Detection via Segmentation with Probability Maps
  • 2022.01.19 『姿態檢測』 Poseur: Direct Human Pose Regression with Transformers

⚡ 論文:Training and Tuning Generative Neural Radiance Fields for Attribute-Conditional 3D-Aware Face Generation

論文時間:26 Aug 2022

領域任務:Disentanglement, Face Generation,人臉生成

論文地址:https://arxiv.org/abs/2208.12550

代碼實現:https://github.com/zhangqianhui/tt-gnerf

論文作者:Jichao Zhang, Aliaksandr Siarohin, Yahui Liu, Hao Tang, Nicu Sebe, Wei Wang

論文簡介:To this end, we introduce a conditional GNeRF model that uses specific attribute labels as input in order to improve the controllabilities and disentangling abilities of 3D-aware generative models./為此,我們引入了一個有條件的GNeRF模型,該模型使用特定的屬性標籤作為輸入,以提高3D感知生成模型的可控性和解耦能力。

論文摘要:基於生成神經輻射場(GNeRF)的3D感知GANs已經實現了令人印象深刻的高質量圖像生成,同時保持了強大的3D一致性。最引人注目的成就是在人臉生成領域取得的。然而,這些模型大多側重於提高視圖的一致性,但忽略瞭解構方面,因此這些模型不能對生成提供高質量的語義/屬性控制。為此,我們引入了一個有條件的GNeRF模型,使用特定的屬性標籤作為輸入,以提高三維感知生成模型的可控性和解纏能力。我們利用預先訓練好的三維感知模型作為基礎,並整合了一個雙分支屬性編輯模塊(DAEM),利用屬性標籤來提供對生成的控制。此外,我們提出了TRIOT(TRaining as Init, and Optimizing for Tuning)方法,以優化潛在向量,進一步提高屬性編輯的精度。在廣泛使用的FFHQ上進行的大量實驗表明,我們的模型產生了高質量的編輯,具有更好的視圖一致性,同時保留了非目標區域。該代碼可在https://github.com/zhangqianhui/TT-GNeRF獲取。

⚡ 論文:Arbitrary Shape Text Detection via Segmentation with Probability Maps

論文時間:26 Aug 2022

領域任務:Scene Text Detection,場景文字識別,計算機視覺

論文地址:https://arxiv.org/abs/2208.12419

代碼實現:https://github.com/gxym/textpms

論文作者:Shi-Xue Zhang, Xiaobin Zhu, Lei Chen, Jie-Bo Hou, Xu-Cheng Yin

論文簡介:To be concrete, we adopt a Sigmoid Alpha Function (SAF) to transfer the distances between boundaries and their inside pixels to a probability map./具體來説,我們採用Sigmoid Alpha函數(SAF)將邊界和其內部像素之間的距離轉移到概率圖中。

論文摘要:不規則形狀的文本檢測是一項具有挑戰性的任務,因為其尺寸和長寬比明顯不同,任意的方向或形狀,不準確的註釋等等。由於像素級預測的可擴展性,基於分割的方法可以適應各種形狀的文本,因此最近吸引了大量的關注。然而,準確的文本像素級註釋是非常困難的,現有的場景文本檢測數據集只提供粗粒度的邊界註釋。因此,許多被誤判的文本像素或註釋內的背景像素總是存在,降低了基於分割的文本檢測方法的性能。一般來説,一個像素是否屬於文本,與相鄰註釋邊界的距離高度相關。基於這一觀察,在本文中,我們提出了一種創新的、穩健的基於分割的檢測方法,通過概率圖來準確檢測文本實例。具體來説,我們採用Sigmoid Alpha函數(SAF)將邊界和其內部像素之間的距離轉移到概率圖中。然而,由於粗粒度的文本邊界註釋的不確定性,一個概率圖不能很好地覆蓋複雜的概率分佈。因此,我們採用一組由一系列Sigmoid Alpha函數計算的概率圖來描述可能的概率分佈。此外,我們提出一個迭代模型來學習預測和吸收概率圖,以提供足夠的信息來重建文本實例。最後,我們採用了簡單的區域增長算法來聚合概率圖以完成文本實例。實驗結果表明,我們的方法在幾個基準的檢測精度方面達到了最先進的性能。

⚡ 論文:Poseur: Direct Human Pose Regression with Transformers

論文時間:19 Jan 2022

領域任務:計算機視覺,姿態檢測

論文地址:https://arxiv.org/abs/2201.07412

代碼實現:https://github.com/aim-uofa/poseur

論文作者:Weian Mao, Yongtao Ge, Chunhua Shen, Zhi Tian, Xinlong Wang, Zhibin Wang, Anton Van Den Hengel

論文簡介:We propose a direct, regression-based approach to 2D human pose estimation from single images./我們提出了一種直接的、基於迴歸的方法來從單一圖像中進行二維人體姿勢估計。

論文摘要:我們提出了一種直接的、基於迴歸的方法來從單一圖像中進行二維人體姿勢估計。我們將該問題表述為一個序列預測任務,並使用一個Transformer網絡來解決。這個網絡直接學習了從圖像到關鍵點座標的迴歸映射,而不需要藉助熱圖等中間表示方法。這種方法避免了與基於熱圖的方法有關的許多複雜性。為了克服以前基於迴歸的方法中的特徵錯位問題,我們提出了一種注意力機制,它可以自適應地關注與目標關鍵點最相關的特徵,從而大大改善準確性。重要的是,我們的框架是端到端的可區分的,並自然地學習利用關鍵點之間的依賴關係。在MS-COCO和MPII這兩個主要的姿勢估計數據集上的實驗表明,我們的方法大大改善了基於迴歸的姿勢估計的最先進水平。更值得注意的是,我們的方法是第一個基於迴歸的方法,與最好的基於熱圖的姿勢估計方法相比,表現良好。

我們是 ShowMeAI,致力於傳播AI優質內容,分享行業解決方案,用知識加速每一次技術成長!

◉ 點擊 日報合輯,在公眾號內訂閲話題 #ShowMeAI資訊日報,可接收每日最新推送。

◉ 點擊 電子月刊,快速瀏覽月度合輯。

「其他文章」