我報名參加金石計劃1期挑戰——瓜分10萬獎池，這是我的第1篇文章，點擊查看活動詳情

👀日報合輯 | 📆電子月刊 | 🔔公眾號下載資料 | 🍩@韓信子

📢 AI 生成的中國山水畫缺少意境？和菜頭：親，這是黃公望的原圖，元代~

http://mp.weixin.qq.com/s/fgAEiw0d7ZaBDfLd-Ro8YQ

和菜頭作為互聯網老老老鳥，最近幾個月加入了 Stable Diffusion 和 DALL·E 2 的AI繪畫行列，調教模型生成公眾號封面圖，目標是畫出『關公騎哈雷摩托兜風圖』。昨天中午在公眾號『槽邊往事』放出了4張AI繪製的中國山水畫，評論裏一堆人説沒意境、沒氣韻、沒審美。於是下午又放出一張（如下），依舊被批沒留白、機械味。

菜頭叔評論揭曉答案，這是黃公望《天池石壁圖》局部。原圖現藏北京故宮博物院的那種 🤭 作者黃公望被視為中國山水畫發展史上里程碑式的人物，另一幅傳世畫作是大名鼎鼎的《富春山居圖》。所以，AI 繪畫真的沒意境嗎？還是我們先入為主，或者倔強地不願認輸？

工具&框架

🚧 『vedo』基於 VTK 和 Numpy 的 3D 物體科學分析與可視化模塊

http://github.com/marcomusy/vedo

http://vedo.embl.es/

vedo 是一個輕量且功能強大的 Python 工具庫，以 VTK 和 numpy 為基礎，用於科學分析和 3D 物體的可視化。基於 vedo 可以輕鬆處理 3D 點雲、網格和 volumes 的工作，只需幾行代碼。

🚧 『Basic Pitch』自動音樂音頻轉錄庫

http://github.com/spotify/basic-pitch-ts

http://basicpitch.spotify.com/

Basic Pitch 是一個用於自動音樂轉錄（AMT）的 Typescript 和 Python 庫，使用由 Spotify 音頻智能實驗室開發的輕量級神經網絡。你只需提供一個兼容的音頻文件，basic-pitch 就會生成一個帶有音彎的 MIDI 文件，下載後就可以在數字音頻工作站進行微調和修正。Basic Pitch 很小且容易使用，可以在 npm 上安裝，對多音階的支持、對不同樂器的概括能力以及它的音符準確性都能與更大、更耗資源的 AMT 系統競爭。

🚧 『ZenML』可擴展的開源 MLOps 框架，用於創建可用於生產的機器學習管道

http://github.com/zenml-io/zenml

http://zenml.io/home

ZenML 是一個可擴展的、開源的 MLOps 框架，用於創建可遷移的、可用於生產的 MLOps 管道。它是為數據科學家、機器學習工程師和 MLOps 開發人員建立的，便於其在開發到生產過程中進行協作。ZenML 語法簡單靈活，與雲環境和工具無關，並且有 ML 工作流程的接口。

🚧 『YOLO Series』基於 PaddleDetection 的 YOLO 系列模型庫

http://github.com/nemonameless/PaddleDetection_YOLOSeries

YOLOSeries 是基於 PaddleDetection 的 YOLO 系列模型庫，支持 PP-YOLOE、YOLOv3、YOLOX、YOLOv5、MT-YOLOv6、YOLOv7 等模型，其上游依賴為 PaddleDetection 的 develop 分支，並與 PaddleDetection 主代碼庫分支同步更新，包括 github 和 gitee 代碼。

🚧 『text_normalization』中文文本規範化工具

http://github.com/pengzhendong/text_normalization

text normalization 是一個小型的 NLP 工具庫，它可以用於文本的規範化，覆蓋預處理、表達標準化、後處理等環節，可以完成類似全角半角轉換、標點規範化、中文數字、分數、百分比、日期、單位處理等等操作。

博文&分享

👍 『Fundamentals of Mathematical Statistics』蘇黎世聯邦理工·數理統計基礎·2021課程

http://video.ethz.ch/lectures/d-math/2021/autumn/401-3621-00L.html

👍 『Using AI to decode speech from brain activity』Meta AI博客：利用AI從大腦活動中解碼語音

http://ai.facebook.com/blog/ai-speech-brain-activity/

http://arxiv.org/abs/2208.12266

全世界每年有超過 6900 萬的人因為創傷性腦損傷無法通過語音、打字或手勢進行交流。Meta 的工程師開發了一種 AI 模型，以非侵入的方式從大腦活動記錄中解碼語音。結果表明，在三秒的大腦活動中，模型可以從 793 個日常高頻應用的詞彙表中解碼相應的語音片段，準確率高達 73%。

團隊使用了四個學術機構開源的 EEG（腦電圖）和 MEG（腦磁圖）數據集，169 名健康志願者的 150 多個小時的錄音。將這些 EEG 和 MEG 記錄輸入到一個『大腦』模型中，該模型由一個帶有殘差連接的標準深度卷積網絡組成。最後，架構學習將『這個大腦模型的輸出』與『呈現給參與者語音的深度表示』二者保持一致。

當然這些只是第一步。當前只專注於解碼語音感知，但實現患者交流的最終目標是將這項工作擴展到語音輸出。團隊仍在努力中！

數據&資源

🔥 『Clean Code Notes』代碼整潔之道·筆記

http://github.com/JuanCrg90/Clean-Code-Notes

《Clean Code (代碼整潔之道)》是著名軟件專家 Robert C. Martin 提出的一種革命性的範式。作者將與同事們整理代碼的最佳實踐經驗提煉成了一本書。全書分為三個部分：

第一部分描述了編寫整潔代碼的原則、模式和實踐。
第二部分由幾個複雜程度越來越高的案例研究組成。
第三部分是創建案例研究時收集的知識庫，描述了編寫、閲讀和整理代碼時的思考方式。

這個項目是書籍的學習筆記，整理了全書17個章節的知識要點和關鍵代碼。

🔥 『Representation Learning for Reinforcement Learning』面向強化學習的表示學習相關文獻列表

http://github.com/fuyw/RepL4RL

研究&論文

公眾號後台回覆關鍵字日報，免費獲取整理好的論文合輯。

科研進展

2022.08.26 『人臉生成』 Training and Tuning Generative Neural Radiance Fields for Attribute-Conditional 3D-Aware Face Generation

2022.08.26 『場景文字識別』 Arbitrary Shape Text Detection via Segmentation with Probability Maps

2022.01.19 『姿態檢測』 Poseur: Direct Human Pose Regression with Transformers

⚡ 論文：Training and Tuning Generative Neural Radiance Fields for Attribute-Conditional 3D-Aware Face Generation

論文時間：26 Aug 2022

領域任務：Disentanglement, Face Generation，人臉生成

論文地址：http://arxiv.org/abs/2208.12550

代碼實現：http://github.com/zhangqianhui/tt-gnerf

論文作者：Jichao Zhang, Aliaksandr Siarohin, Yahui Liu, Hao Tang, Nicu Sebe, Wei Wang

論文簡介：To this end, we introduce a conditional GNeRF model that uses specific attribute labels as input in order to improve the controllabilities and disentangling abilities of 3D-aware generative models./為此，我們引入了一個有條件的GNeRF模型，該模型使用特定的屬性標籤作為輸入，以提高3D感知生成模型的可控性和解耦能力。

論文摘要：基於生成神經輻射場（GNeRF）的3D感知GANs已經實現了令人印象深刻的高質量圖像生成，同時保持了強大的3D一致性。最引人注目的成就是在人臉生成領域取得的。然而，這些模型大多側重於提高視圖的一致性，但忽略瞭解構方面，因此這些模型不能對生成提供高質量的語義/屬性控制。為此，我們引入了一個有條件的GNeRF模型，使用特定的屬性標籤作為輸入，以提高三維感知生成模型的可控性和解纏能力。我們利用預先訓練好的三維感知模型作為基礎，並整合了一個雙分支屬性編輯模塊（DAEM），利用屬性標籤來提供對生成的控制。此外，我們提出了TRIOT（TRaining as Init, and Optimizing for Tuning）方法，以優化潛在向量，進一步提高屬性編輯的精度。在廣泛使用的FFHQ上進行的大量實驗表明，我們的模型產生了高質量的編輯，具有更好的視圖一致性，同時保留了非目標區域。該代碼可在http://github.com/zhangqianhui/TT-GNeRF獲取。

⚡ 論文：Arbitrary Shape Text Detection via Segmentation with Probability Maps

論文時間：26 Aug 2022

領域任務：Scene Text Detection，場景文字識別，計算機視覺

論文地址：http://arxiv.org/abs/2208.12419

代碼實現：http://github.com/gxym/textpms

論文作者：Shi-Xue Zhang, Xiaobin Zhu, Lei Chen, Jie-Bo Hou, Xu-Cheng Yin

論文簡介：To be concrete, we adopt a Sigmoid Alpha Function (SAF) to transfer the distances between boundaries and their inside pixels to a probability map./具體來説，我們採用Sigmoid Alpha函數（SAF）將邊界和其內部像素之間的距離轉移到概率圖中。

論文摘要：不規則形狀的文本檢測是一項具有挑戰性的任務，因為其尺寸和長寬比明顯不同，任意的方向或形狀，不準確的註釋等等。由於像素級預測的可擴展性，基於分割的方法可以適應各種形狀的文本，因此最近吸引了大量的關注。然而，準確的文本像素級註釋是非常困難的，現有的場景文本檢測數據集只提供粗粒度的邊界註釋。因此，許多被誤判的文本像素或註釋內的背景像素總是存在，降低了基於分割的文本檢測方法的性能。一般來説，一個像素是否屬於文本，與相鄰註釋邊界的距離高度相關。基於這一觀察，在本文中，我們提出了一種創新的、穩健的基於分割的檢測方法，通過概率圖來準確檢測文本實例。具體來説，我們採用Sigmoid Alpha函數（SAF）將邊界和其內部像素之間的距離轉移到概率圖中。然而，由於粗粒度的文本邊界註釋的不確定性，一個概率圖不能很好地覆蓋複雜的概率分佈。因此，我們採用一組由一系列Sigmoid Alpha函數計算的概率圖來描述可能的概率分佈。此外，我們提出一個迭代模型來學習預測和吸收概率圖，以提供足夠的信息來重建文本實例。最後，我們採用了簡單的區域增長算法來聚合概率圖以完成文本實例。實驗結果表明，我們的方法在幾個基準的檢測精度方面達到了最先進的性能。

⚡ 論文：Poseur: Direct Human Pose Regression with Transformers

論文時間：19 Jan 2022

領域任務：計算機視覺，姿態檢測

論文地址：http://arxiv.org/abs/2201.07412

代碼實現：http://github.com/aim-uofa/poseur

論文作者：Weian Mao, Yongtao Ge, Chunhua Shen, Zhi Tian, Xinlong Wang, Zhibin Wang, Anton Van Den Hengel

論文簡介：We propose a direct, regression-based approach to 2D human pose estimation from single images./我們提出了一種直接的、基於迴歸的方法來從單一圖像中進行二維人體姿勢估計。

論文摘要：我們提出了一種直接的、基於迴歸的方法來從單一圖像中進行二維人體姿勢估計。我們將該問題表述為一個序列預測任務，並使用一個Transformer網絡來解決。這個網絡直接學習了從圖像到關鍵點座標的迴歸映射，而不需要藉助熱圖等中間表示方法。這種方法避免了與基於熱圖的方法有關的許多複雜性。為了克服以前基於迴歸的方法中的特徵錯位問題，我們提出了一種注意力機制，它可以自適應地關注與目標關鍵點最相關的特徵，從而大大改善準確性。重要的是，我們的框架是端到端的可區分的，並自然地學習利用關鍵點之間的依賴關係。在MS-COCO和MPII這兩個主要的姿勢估計數據集上的實驗表明，我們的方法大大改善了基於迴歸的姿勢估計的最先進水平。更值得注意的是，我們的方法是第一個基於迴歸的方法，與最好的基於熱圖的姿勢估計方法相比，表現良好。

我們是 ShowMeAI，致力於傳播AI優質內容，分享行業解決方案，用知識加速每一次技術成長！

◉ 點擊 日報合輯，在公眾號內訂閲話題 #ShowMeAI資訊日報，可接收每日最新推送。

◉ 點擊 電子月刊，快速瀏覽月度合輯。

BBQ！又被AI調戲了!『代碼整潔之道』讀書筆記；ETH『數理統計基礎』最新課程；Meta 從大腦活動中解碼語音；前沿論文 | ShowMeAI資訊日報