BBQ!又被AI調戲了!『代碼整潔之道』讀書筆記;ETH『數理統計基礎』最新課程;Meta 從大腦活動中解碼語音;前沿論文 | ShowMeAI資訊日報
我報名參加金石計劃1期挑戰——瓜分10萬獎池,這是我的第1篇文章,點擊查看活動詳情
📢 AI 生成的中國山水畫缺少意境?和菜頭:親,這是黃公望的原圖,元代~
http://mp.weixin.qq.com/s/fgAEiw0d7ZaBDfLd-Ro8YQ
和菜頭作為互聯網老老老鳥,最近幾個月加入了 Stable Diffusion 和 DALL·E 2 的AI繪畫行列,調教模型生成公眾號封面圖,目標是畫出『關公騎哈雷摩托兜風圖』。昨天中午在公眾號『槽邊往事』放出了4張AI繪製的中國山水畫,評論裏一堆人説沒意境、沒氣韻、沒審美。於是下午又放出一張(如下),依舊被批沒留白、機械味。
菜頭叔評論揭曉答案,這是黃公望《天池石壁圖》局部。原圖現藏北京故宮博物院的那種 🤭 作者黃公望被視為中國山水畫發展史上里程碑式的人物,另一幅傳世畫作是大名鼎鼎的《富春山居圖》。所以,AI 繪畫真的沒意境嗎?還是我們先入為主,或者倔強地不願認輸?
工具&框架
🚧 『vedo』基於 VTK 和 Numpy 的 3D 物體科學分析與可視化模塊
http://github.com/marcomusy/vedo
vedo 是一個輕量且功能強大的 Python 工具庫,以 VTK 和 numpy 為基礎,用於科學分析和 3D 物體的可視化。基於 vedo 可以輕鬆處理 3D 點雲、網格和 volumes 的工作,只需幾行代碼。
🚧 『Basic Pitch』自動音樂音頻轉錄庫
http://github.com/spotify/basic-pitch-ts
http://basicpitch.spotify.com/
Basic Pitch 是一個用於自動音樂轉錄(AMT)的 Typescript 和 Python 庫,使用由 Spotify 音頻智能實驗室開發的輕量級神經網絡。你只需提供一個兼容的音頻文件,basic-pitch 就會生成一個帶有音彎的 MIDI 文件,下載後就可以在數字音頻工作站進行微調和修正。Basic Pitch 很小且容易使用,可以在 npm 上安裝,對多音階的支持、對不同樂器的概括能力以及它的音符準確性都能與更大、更耗資源的 AMT 系統競爭。
🚧 『ZenML』可擴展的開源 MLOps 框架,用於創建可用於生產的機器學習管道
http://github.com/zenml-io/zenml
ZenML 是一個可擴展的、開源的 MLOps 框架,用於創建可遷移的、可用於生產的 MLOps 管道。它是為數據科學家、機器學習工程師和 MLOps 開發人員建立的,便於其在開發到生產過程中進行協作。ZenML 語法簡單靈活,與雲環境和工具無關,並且有 ML 工作流程的接口。
🚧 『YOLO Series』基於 PaddleDetection 的 YOLO 系列模型庫
http://github.com/nemonameless/PaddleDetection_YOLOSeries
YOLOSeries 是基於 PaddleDetection 的 YOLO 系列模型庫,支持 PP-YOLOE、YOLOv3、YOLOX、YOLOv5、MT-YOLOv6、YOLOv7 等模型,其上游依賴為 PaddleDetection 的 develop 分支,並與 PaddleDetection 主代碼庫分支同步更新,包括 github 和 gitee 代碼。
🚧 『text_normalization』中文文本規範化工具
http://github.com/pengzhendong/text_normalization
text normalization 是一個小型的 NLP 工具庫,它可以用於文本的規範化,覆蓋預處理、表達標準化、後處理等環節,可以完成類似全角半角轉換、標點規範化、中文數字、分數、百分比、日期、單位 處理等等操作。
博文&分享
👍 『Fundamentals of Mathematical Statistics』蘇黎世聯邦理工·數理統計基礎·2021課程
http://video.ethz.ch/lectures/d-math/2021/autumn/401-3621-00L.html
👍 『Using AI to decode speech from brain activity』Meta AI博客:利用AI從大腦活動中解碼語音
http://ai.facebook.com/blog/ai-speech-brain-activity/
http://arxiv.org/abs/2208.12266
全世界每年有超過 6900 萬的人因為創傷性腦損傷無法通過語音、打字或手勢進行交流。Meta 的工程師開發了一種 AI 模型,以非侵入的方式從大腦活動記錄中解碼語音。結果表明,在三秒的大腦活動中,模型可以從 793 個日常高頻應用的詞彙表中解碼相應的語音片段,準確率高達 73%。
團隊使用了四個學術機構開源的 EEG(腦電圖)和 MEG(腦磁圖) 數據集,169 名健康志願者的 150 多個小時的錄音。將這些 EEG 和 MEG 記錄輸入到一個『大腦』模型中,該模型由一個帶有殘差連接的標準深度卷積網絡組成。最後,架構學習將『這個大腦模型的輸出』與『呈現給參與者語音的深度表示』二者保持一致。
當然這些只是第一步。當前只專注於解碼語音感知,但實現患者交流的最終目標是將這項工作擴展到語音輸出。團隊仍在努力中!
數據&資源
🔥 『Clean Code Notes』代碼整潔之道·筆記
http://github.com/JuanCrg90/Clean-Code-Notes
《Clean Code (代碼整潔之道)》是著名軟件專家 Robert C. Martin 提出的一種革命性的範式。作者將與同事們整理代碼的最佳實踐經驗提煉成了一本書。全書分為三個部分:
- 第一部分描述了編寫整潔代碼的原則、模式和實踐。
- 第二部分由幾個複雜程度越來越高的案例研究組成。
- 第三部分是創建案例研究時收集的知識庫,描述了編寫、閲讀和整理代碼時的思考方式。
這個項目是書籍的學習筆記,整理了全書17個章節的知識要點和關鍵代碼。
🔥 『Representation Learning for Reinforcement Learning』面向強化學習的表示學習相關文獻列表
http://github.com/fuyw/RepL4RL
研究&論文
公眾號後台回覆關鍵字 日報,免費獲取整理好的論文合輯。
科研進展
- 2022.08.26 『人臉生成』 Training and Tuning Generative Neural Radiance Fields for Attribute-Conditional 3D-Aware Face Generation
- 2022.08.26 『場景文字識別』 Arbitrary Shape Text Detection via Segmentation with Probability Maps
- 2022.01.19 『姿態檢測』 Poseur: Direct Human Pose Regression with Transformers
⚡ 論文:Training and Tuning Generative Neural Radiance Fields for Attribute-Conditional 3D-Aware Face Generation
論文時間:26 Aug 2022
領域任務:Disentanglement, Face Generation,人臉生成
論文地址:http://arxiv.org/abs/2208.12550
代碼實現:http://github.com/zhangqianhui/tt-gnerf
論文作者:Jichao Zhang, Aliaksandr Siarohin, Yahui Liu, Hao Tang, Nicu Sebe, Wei Wang
論文簡介:To this end, we introduce a conditional GNeRF model that uses specific attribute labels as input in order to improve the controllabilities and disentangling abilities of 3D-aware generative models./為此,我們引入了一個有條件的GNeRF模型,該模型使用特定的屬性標籤作為輸入,以提高3D感知生成模型的可控性和解耦能力。
論文摘要:基於生成神經輻射場(GNeRF)的3D感知GANs已經實現了令人印象深刻的高質量圖像生成,同時保持了強大的3D一致性。最引人注目的成就是在人臉生成領域取得的。然而,這些模型大多側重於提高視圖的一致性,但忽略瞭解構方面,因此這些模型不能對生成提供高質量的語義/屬性控制。為此,我們引入了一個有條件的GNeRF模型,使用特定的屬性標籤作為輸入,以提高三維感知生成模型的可控性和解纏能力。我們利用預先訓練好的三維感知模型作為基礎,並整合了一個雙分支屬性編輯模塊(DAEM),利用屬性標籤來提供對生成的控制。此外,我們提出了TRIOT(TRaining as Init, and Optimizing for Tuning)方法,以優化潛在向量,進一步提高屬性編輯的精度。在廣泛使用的FFHQ上進行的大量實驗表明,我們的模型產生了高質量的編輯,具有更好的視圖一致性,同時保留了非目標區域。該代碼可在http://github.com/zhangqianhui/TT-GNeRF獲取。
⚡ 論文:Arbitrary Shape Text Detection via Segmentation with Probability Maps
論文時間:26 Aug 2022
領域任務:Scene Text Detection,場景文字識別,計算機視覺
論文地址:http://arxiv.org/abs/2208.12419
代碼實現:http://github.com/gxym/textpms
論文作者:Shi-Xue Zhang, Xiaobin Zhu, Lei Chen, Jie-Bo Hou, Xu-Cheng Yin
論文簡介:To be concrete, we adopt a Sigmoid Alpha Function (SAF) to transfer the distances between boundaries and their inside pixels to a probability map./具體來説,我們採用Sigmoid Alpha函數(SAF)將邊界和其內部像素之間的距離轉移到概率圖中。
論文摘要:不規則形狀的文本檢測是一項具有挑戰性的任務,因為其尺寸和長寬比明顯不同,任意的方向或形狀,不準確的註釋等等。由於像素級預測的可擴展性,基於分割的方法可以適應各種形狀的文本,因此最近吸引了大量的關注。然而,準確的文本像素級註釋是非常困難的,現有的場景文本檢測數據集只提供粗粒度的邊界註釋。因此,許多被誤判的文本像素或註釋內的背景像素總是存在,降低了基於分割的文本檢測方法的性能。一般來説,一個像素是否屬於文本,與相鄰註釋邊界的距離高度相關。基於這一觀察,在本文中,我們提出了一種創新的、穩健的基於分割的檢測方法,通過概率圖來準確檢測文本實例。具體來説,我們採用Sigmoid Alpha函數(SAF)將邊界和其內部像素之間的距離轉移到概率圖中。然而,由於粗粒度的文本邊界註釋的不確定性,一個概率圖不能很好地覆蓋複雜的概率分佈。因此,我們採用一組由一系列Sigmoid Alpha函數計算的概率圖來描述可能的概率分佈。此外,我們提出一個迭代模型來學習預測和吸收概率圖,以提供足夠的信息來重建文本實例。最後,我們採用了簡單的區域增長算法來聚合概率圖以完成文本實例。實驗結果表明,我們的方法在幾個基準的檢測精度方面達到了最先進的性能。
⚡ 論文:Poseur: Direct Human Pose Regression with Transformers
論文時間:19 Jan 2022
領域任務:計算機視覺,姿態檢測
論文地址:http://arxiv.org/abs/2201.07412
代碼實現:http://github.com/aim-uofa/poseur
論文作者:Weian Mao, Yongtao Ge, Chunhua Shen, Zhi Tian, Xinlong Wang, Zhibin Wang, Anton Van Den Hengel
論文簡介:We propose a direct, regression-based approach to 2D human pose estimation from single images./我們提出了一種直接的、基於迴歸的方法來從單一圖像中進行二維人體姿勢估計。
論文摘要:我們提出了一種直接的、基於迴歸的方法來從單一圖像中進行二維人體姿勢估計。我們將該問題表述為一個序列預測任務,並使用一個Transformer網絡來解決。這個網絡直接學習了從圖像到關鍵點座標的迴歸映射,而不需要藉助熱圖等中間表示方法。這種方法避免了與基於熱圖的方法有關的許多複雜性。為了克服以前基於迴歸的方法中的特徵錯位問題,我們提出了一種注意力機制,它可以自適應地關注與目標關鍵點最相關的特徵,從而大大改善準確性。重要的是,我們的框架是端到端的可區分的,並自然地學習利用關鍵點之間的依賴關係。在MS-COCO和MPII這兩個主要的姿勢估計數據集上的實驗表明,我們的方法大大改善了基於迴歸的姿勢估計的最先進水平。更值得注意的是,我們的方法是第一個基於迴歸的方法,與最好的基於熱圖的姿勢估計方法相比,表現良好。
我們是 ShowMeAI,致力於傳播AI優質內容,分享行業解決方案,用知識加速每一次技術成長!
◉ 點擊 日報合輯,在公眾號內訂閲話題 #ShowMeAI資訊日報,可接收每日最新推送。
◉ 點擊 電子月刊,快速瀏覽月度合輯。
- 感謝飛書放過幕布!100個GPT-4實戰案例;GPT-4免費平替Poe;AI繪畫新手指南之SD篇;new Bing靠譜教程 | ShowMeAI日報
- whylogs工具庫的工業實踐!機器學習模型流程與效果監控 ⛵
- 脈脈瘋傳!2023年程序員生存指南;多款prompt效率加倍工具;提示工程師最全祕籍;AI裁員正在發生 | ShowMeAI日報
- 中國風?古典系?AI中文繪圖創作嚐鮮!⛵
- Python中內置數據庫!SQLite使用指南!
- Pandas中你一定要掌握的時間序列相關高級功能
- 數據科學家賺多少?數據全分析與可視化 ⛵
- 交互式儀表板!Python輕鬆完成!⛵
- ChatGPT!我是你的破壁人;比爾·蓋茨不看好Web3與元宇宙;FIFA押中4屆世界盃冠軍;GitHub今日熱榜 | ShowMeAI資訊日報
- ChatGPT要收費了;華爾街大裁員;阿里2023十大科技趨勢;小紅書元宇宙虛擬服飾被吐槽;GitHub今日熱榜 | ShowMeAI資訊日報
- AI創業時代!這9個方向有錢途;AIGC再添霸榜應用Lensa;美團SemEval2022冠軍方法分享;醫學圖像處理工具箱… | ShowMeAI資訊日報
- 噓!P站數據分析年報;各省市疫情感染進度條;愛奇藝推出元宇宙App;You推出AI聊天機器人;GitHub今日熱榜 | ShowMeAI資訊日報
- 美國公司裁員潮時間線◉科技寒冬可視化;3份報告回顧中國開發者2022;自動駕駛下半場,誰會衝出重圍 | ShowMeAI每週通訊 #005-01.07
- 副業月入過萬?數據有話説;掃地機器人發展到哪步了;疫情後要不要重返辦公室;淘寶元宇宙直播間;GitHub今日熱榜 | ShowMeAI資訊日報
- 大戰谷歌!微軟Bing引入ChatGPT;羊了個羊40萬年薪招研發;Debian徹底移除Python2;GitHub今日熱榜 | ShowMeAI資訊日報
- 酸了!樂視工作制改為四天半;高通新年裁員;AI繪畫公司開始倒閉;網易入股張藝謀元宇宙公司;GitHub今日熱榜 | ShowMeAI資訊日報
- 要麼幹要麼滾!推特開始裁員了;深度學習產品應用·隨書代碼;可分離各種樂器音源的工具包;Transformer教程;前沿論文 | ShowMeAI資訊日報
- 真實世界的人工智能應用落地——OpenAI篇 ⛵
- 陽過→陽康,數據裏的時代側影;谷歌慌了!看各公司如何應對ChatGPT;兩份優質AI年報;本週技術高光時刻 | ShowMeAI每週通訊 #003-12.24
- 用魔法打敗魔法!這件毛衣讓攝像頭看不到你;兩款酷炫的AI寫作軟件;快如閃電的B站下載工具;基於擴散模型的蛋白質設計 | ShowMeAI資訊日報