你只需畫草稿,剩下都交給AI!哈佛『機器學習』最新課程;Evernote收費又難用?試試這款開源工具;提示工程資源整合;前沿論文 | ShowMeAI資訊日報

語言: CN / TW / HK

我報名參加金石計劃1期挑戰——瓜分10萬獎池,這是我的第X篇文章,點選檢視活動詳情

👀日報合輯 | 📆電子月刊 | 🔔公眾號下載資料 | 🍩@韓信子

工具&框架

🚧 『Diffuse The Rest』你畫它補,智慧 AI 輔助作畫

http://huggingface.co/spaces/huggingface/diffuse-the-rest

基於 Stable Diffusion 的圖畫自動補全 Demo,隨意塗鴉或上傳圖片,給出完善方向的提示,程式會自動替你『補畫』。淺試一下,送顆蘋果給你~

🚧 『Notesnook』完全開源可替代 Evernote 的端到端加密筆記

http://github.com/streetwriters/notesnook

http://notesnook.com/

Notesnook 是一個免費和開源的筆記應用程式,專注於使用者隱私和易用性。Notesnook 的目標是為使用者提供安全和可靠的筆記服務。

🚧 『Brynet』多執行緒的非同步網路庫

http://github.com/IronsDu/brynet

brynet 是一個多執行緒的非同步網路庫,能夠執行在Linux和Windows環境下。 僅僅需要C++ 11編譯器,且沒有其他任何第三方依賴。

🚧 『Marqo』人性化張量搜尋框架

http://github.com/marqo-ai/marqo

http://marqo.pages.dev/

Marqo 是一個開源的張量搜尋框架,與你的應用程式、網站和工作流程無縫整合。

張量搜尋可以在很多場景下應用:搜尋和推薦,多模態搜尋(影象到影象、文字到影象、影象到文字),聊天機器人和問答系統,文字和影象分類。

🚧 『imodels』可解釋機器學習包,用於簡潔、透明和準確的預測建模

http://github.com/csinva/imodels

http://csinva.io/imodels/

現代機器學習模型越來越複雜,往往使它們難以解釋。imodels 工具庫為擬合和使用最先進的可解釋模型提供了一個簡單的介面,這些模型都與 scikit-learn 相容。

這些模型通常可以用更簡單的模型(如規則列表)取代黑盒模型(如隨機森林),同時提高可解釋性和計算效率,所有這些都不會犧牲預測的準確性嗎,只需匯入一個分類器或迴歸器,並使用擬合和預測方法,與標準 scikit-learn 模型一樣。

博文&分享

👍 『CS 181: Machine Learning』哈佛·機器學習(2022課程)

http://harvard-ml-courses.github.io/cs181-web/

http://www.youtube.com/channel/UC0rDBCkhasTCVGJcnVyFHHQ/search?query=cs-181

哈佛大學 CS 181 內容覆蓋機器學習、概率推理和不確定環境下的決策。通過本課程,你可以學習到許多常見方法的數學基礎,以及應用機器學習來應對真實資料的挑戰。

具體的課程內容主題包括:監督學習、集合方法和提升、神經網路、支援向量機、核方法、聚類和無監督學習、最大似然、圖形模型、隱馬爾科夫模型、推理方法、強化學習。

👍 『Notes for prompt engineering』提示工程筆記

http://github.com/sw-yx/prompt-eng

針對現在流行的 prompt 工程做的一份資源整合筆記,內容覆蓋參考示例、prompt工程經驗、工具、社群資源、開原始碼集等。

資料&資源

🔥 『Awesome Data-Centric AI』資料中心AI相關資源大列表

http://github.com/ydataai/awesome-data-centric-ai

🔥 『Awesome Singing Voice Synthesis and Singing Voice Conversion』語音合成、文字轉語音(TTS)、歌唱聲音合成(SVS)、聲音轉換(VC)、歌唱聲音轉換(SVC)等相關論文專案列表

http://github.com/guan-yuan/Awesome-Singing-Voice-Synthesis-and-Singing-Voice-Conversion

研究&論文

公眾號後臺回覆關鍵字 日報,免費獲取整理好的論文合輯。

科研進展

  • 2022.07.13 『知識蒸餾』 ProDiff: Progressive Fast Diffusion Model For High-Quality Text-to-Speech
  • 2022.04.27 『多目標學習』 LibMTL: A Python Library for Multi-Task Learning
  • 2022.06.11 『音樂生成』 Multi-instrument Music Synthesis with Spectrogram Diffusion

⚡ 論文:ProDiff: Progressive Fast Diffusion Model For High-Quality Text-to-Speech

論文時間:13 Jul 2022

領域任務:Denoising, Knowledge Distillation, 降噪知識蒸餾

論文地址:http://arxiv.org/abs/2207.06389

程式碼實現:http://github.com/Rongjiehuang/ProDiff,http://github.com/Rongjiehuang/FastDiff

論文作者:Rongjie Huang, Zhou Zhao, Huadai Liu, Jinglin Liu, Chenye Cui, Yi Ren

論文簡介:Through the preliminary study on diffusion model parameterization, we find that previous gradient-based TTS models require hundreds or thousands of iterations to guarantee high sample quality, which poses a challenge for accelerating sampling./通過對擴散模型引數化的初步研究,我們發現以前基於梯度的TTS模型需要成百上千次的迭代才能保證高的取樣質量,這對加速取樣提出了挑戰。

論文摘要:擴大的擴散概率模型(DDPMs)最近在許多生成任務中取得了領先的效能。然而,固有的迭代取樣過程成本阻礙了它們在文字到語音部署中的應用。通過對擴散模型引數化的初步研究,我們發現以前基於梯度的TTS模型需要成百上千次的迭代才能保證高的取樣質量,這對加速取樣提出了挑戰。在這項工作中,我們提出了ProDiff,關於用於高質量文字到語音的漸進式快速擴散模型。與以往估計資料密度梯度的工作不同,ProDiff通過直接預測乾淨的資料對去噪模型進行引數化,以避免加速取樣時明顯的質量下降。為了解決擴散迭代次數減少的模型收斂挑戰,ProDiff通過知識提煉減少目標站點的資料差異。具體來說,去噪模型使用來自N步DDIM教師的生成的mel-spectrogram作為訓練目標,並將該行為提煉成一個具有N/2步的新模型。因此,它可以使TTS模型做出尖銳的預測,並進一步將取樣時間減少幾個數量級。我們的評估表明,ProDiff只需要2次迭代就能合成高保真的旋律譜系,而它的取樣質量和多樣性與使用數百個步驟的最先進的模型相比具有競爭力。ProDiff在單個NVIDIA 2080Ti GPU上實現了比實時快24倍的取樣速度,使擴散模型首次實際適用於文字到語音合成部署。我們廣泛的消融研究表明,ProDiff中的每個設計都是有效的,而且我們進一步表明,ProDiff可以很容易地擴充套件到多揚聲器的設定。音訊樣本可在 http://ProDiff.github.io/ 獲取。

⚡ 論文:LibMTL: A Python Library for Multi-Task Learning

論文時間:27 Mar 2022

領域任務:Multi-Task Learning, 多目標學習

論文地址:http://arxiv.org/abs/2203.14338

程式碼實現:http://github.com/median-research-group/libmtl

論文作者:Baijiong Lin, Yu Zhang

論文簡介:This paper presents LibMTL, an open-source Python library built on PyTorch, which provides a unified, comprehensive, reproducible, and extensible implementation framework for Multi-Task Learning (MTL)./本文介紹了LibMTL,一個建立在PyTorch上的開源Python庫,它為多工學習(MTL)提供了一個統一、全面、可重現和可擴充套件的實現框架。

論文摘要:本文介紹了LibMTL,一個建立在PyTorch上的開源Python庫,它為多工學習(MTL)提供了一個統一、全面、可重現和可擴充套件的實現框架。LibMTL考慮了MTL的不同設定和方法,它支援大量最先進的MTL方法,包括12種損失加權策略,7種架構,以及84種不同架構和損失加權方法的組合。此外,LibMTL的模組化設計使其易於使用並具有良好的可擴充套件性,因此使用者可以在LibMTL的支援下方便快捷地開發新的MTL方法,與現有的MTL方法進行公平的比較,或將MTL演算法應用於現實世界的應用。LibMTL的原始碼和詳細文件可分別在 http://github.com/median-research-group/LibMTL 和 http://libmtl.readthedocs.io 獲取。

⚡ 論文:Multi-instrument Music Synthesis with Spectrogram Diffusion

論文時間:11 Jun 2022

領域任務:Music Generation,音樂生成

論文地址:http://arxiv.org/abs/2206.05408

程式碼實現:http://github.com/magenta/music-spectrogram-diffusion

論文作者:Curtis Hawthorne, Ian Simon, Adam Roberts, Neil Zeghidour, Josh Gardner, Ethan Manilow, Jesse Engel

論文簡介:An ideal music synthesizer should be both interactive and expressive, generating high-fidelity audio in realtime for arbitrary combinations of instruments and notes./理想的音樂合成器應該是互動性和表現力兼備的,為任意的樂器和音符組合實時生成高保真音訊。

論文摘要:一個理想的音樂合成器應該既是互動的,又是有表現力的,可以為任意的樂器和音符組合實時生成高保真的音訊。最近的神經合成器在特定領域的模型和原始波形模型之間進行了權衡,前者只提供對特定樂器的詳細控制,後者可以對任何音樂進行訓練,但控制力極弱,生成速度慢。在這項工作中,我們專注於神經合成器的中間地帶,它可以從MIDI序列中實時生成具有任意樂器組合的音訊。這使我們能夠用一個單一的模型對廣泛的轉錄資料集進行訓練,這反過來又提供了對各種樂器的組成和樂器的音符級控制。我們使用一個簡單的兩階段過程。用編碼器-解碼器轉換MIDI到頻譜圖,然後用生成對抗網路(GAN)頻譜圖轉換器轉換頻譜圖。我們比較了將解碼器作為自迴歸模型和去噪擴散概率模型(DDPM)進行訓練,發現DDPM方法在質量上以及在音訊重建和Fr'echet距離指標上都更有優勢。考慮到這種方法的互動性和通用性,我們發現這是朝著樂器和音符的任意組合的互動和表現力的神經合成邁出的有希望的第一步。

我們是 ShowMeAI,致力於傳播AI優質內容,分享行業解決方案,用知識加速每一次技術成長!

◉ 點選 日報合輯,在公眾號內訂閱話題 #ShowMeAI資訊日報,可接收每日最新推送。

◉ 點選 電子月刊,快速瀏覽月度合輯。

「其他文章」