買定離手!AI預測英雄聯盟S12冠軍;微軟使用AI提高農業生產效率;程式語言的自動生成;機器學習核方法入門·電子書;前沿論文 | ShowMeAI資訊日報

語言: CN / TW / HK

持續創作,加速成長!這是我參與「掘金日新計劃 · 10 月更文挑戰」的第15天,點選檢視活動詳情

👀日報合輯 | 📆電子月刊 | 🔔公眾號下載資料 | 🍩@韓信子

📢 RNG 還是 EDG?人工智慧預測英雄聯盟S12冠軍

https://weibo.com/tv/show/1034:4826223403270223

微博 @圖靈的貓 用AI預測了2022年英雄聯盟S12的總冠軍——RNG。有趣的是,將『是否在比賽日7天內感染新冠』加入到選手特徵之後,勝率有了明顯變化,冠軍預測結果變為 EDG!

博主以單場比賽作為資料的基本維度,把過去每場比賽的勝率作為預測Label。模型用到以下幾類特徵:隊伍特徵(歷史平均勝率、歷史奪冠次數等),上下文特徵(遊戲版本號、BP陣容等),選手特徵(年齡、賽季平均勝率等)。參考論文對原始資料進行處理後,輸入構建的機器學習模型,得到預測結果。

不過,博主也表示,本次預測缺乏很多細節資料,置信度並不高,只能算是對淺層世界的模擬。哪怕根據比賽實時資料進行預測,勝率也會有極大波動和反轉——這種AI無法理解和預測的隨機性,來自於每個隊員對勝利的執著,這也正是電子競技的魅力所在。

工具&框架

🚧 『FarmVibes.AI』多模態地理空間的機器學習模型

https://github.com/microsoft/farmvibes-ai

FarmVibes.AI 是微軟開放的多模態地理空間機器學習模型,可用於農業和可持續發展。這個模型可以使用融合了多個地理空間和時空資料集來建立模型,獲得在孤立使用這些資料集時難以獲得的洞察力——估計碳足跡、瞭解增長率等。

例如,FarmVibes.AI 可以將衛星影象(RGB、SAR、多光譜)、無人機影象、氣象資料等融合在一起進行研究,使用地面感測器以及無人機和衛星影象來建立選定土地上的養分和水分分佈圖,為農民提供有關肥料和種子應該放置的位置的資訊,從而減少過度施肥和浪費。

🚧 『gh-dash』漂亮的 GitHub 命令列面板

https://github.com/dlvhdr/gh-dash

gh-dash是一個漂亮的GitHub命令列面板,它會在終端顯示一個儀表板,上面包括你關心的pull requests和issues。

🚧 『CodeGeeX』具有 130 億引數的多程式語言程式碼生成預訓練模型

https://github.com/THUDM/CodeGeeX

https://models.aminer.cn/codegeex/

CodeGeeX 是一個擁有 130 億個引數的大規模多語言程式碼生成模型,在20多種程式語言的大型程式碼語料庫上進行預訓練獲得。

CodeGeeX 具有多種特性:多語言程式碼生成、跨語言的程式碼翻譯、可定製的程式設計助手、開源和跨平臺。其中,CodeGeeX 可以生成 Python、C++、Java、JavaScript、Go等主流程式語言的可執行程式且效能良好,並且支援不同語言間的程式碼片段的高精度翻譯。非常酷!

🚧 『RapidFuzz』Python字串快速模糊匹配庫

https://github.com/maxbachmann/rapidfuzz

https://maxbachmann.github.io/RapidFuzz/

RapidFuzz 是一個用於 Python 和 C++ 的快速字串匹配庫,它採用了 FuzzyWuzzy 的字串相似度計算方法。它提供了許多像 hamming 或 jaro_winkler 這樣的字串指標,這些指標是 FuzzyWuzzy 所不具備的。

它主要是用C++編寫的,並且在此基礎上進行了大量的演算法改進,以使字串匹配更快,同時仍然提供相同的結果。它修復了partial_ratio實現中的多個bug。

🚧 『iceberg』將SQL表的可靠性和簡單性帶入大資料

https://github.com/apache/iceberg

https://iceberg.apache.org/

Iceberg 是一種用於大型分析表的高效能格式。 Iceberg 為大資料帶來了 SQL 表的可靠性和簡單性,同時讓 Spark、Trino、Flink、Presto、Hive 和 Impala 等引擎能夠同時安全地使用相同的表。

博文&分享

👍 『Toy Models of Superposition』Toy Model 的疊加:使用小型 ReLU 網路研究模型如何表示比自身維度更多的特徵

https://transformer-circuits.pub/2022/toy_model/index.html

人工神經網路的單個神經元,與可清晰解釋的輸入特徵,能夠相互對應嗎?例如,在理想的 ImageNet 分類器中,每個神經元僅在特定視覺特徵(例如紅色、左向曲線或狗的鼻子)下才會被觸發。但是根據經驗,這種神經元清晰地對映到特徵的情況,並不經常出現。

在本文中,我們使用Toy Model(在具有稀疏輸入特徵的合成數據上訓練的小型 ReLU 網路)來研究模型如何以及何時表示比它們具有的維度更多的特徵(本文稱這種現象為疊加)。使用 Toy Model 的研究可以證明以下關鍵結論,但仍不清楚如何推廣到真實網路:

  • 疊加是一種真實的、可觀察到的現象
  • 單語義和多語義神經元都可以形成
  • 至少可以疊加執行某些型別的計算
  • 特徵是否以疊加方式儲存由相變決定
  • 疊加將特徵組織成幾何結構,例如正方體、三角形、五邊形和四面體

👍 『Kernel Methods for Machine Learning with Math and Python』用數學和Python入門機器學習核方法 · 電子書

https://bayesnet.org/books/

PDF: 100 Exercises for Building Logic

『Kernel (核)』的理解與使用,一直是學習者和機器學習研究人員的知識難點。作者整理推薦了一條最短的學習路徑:從數學泛函分析開始(也就是本書的第2章)!這本書會給你一個堅實的基礎,確保你能夠流暢地閱讀以前似乎很難理解的論文,並從更高的層次看到整個『核正規化 (kernel paradigm)』。

本書選擇了100個練習題並附上了程式碼和答案,讀者可以通過閱讀本書來解出所有習題,進而獲得機器學習各主題的本質,並順利跟上新技術的發展變化。本書包含以下章節:

  • Positive Definite Kernels(正定核
  • Hilbert Spaces(希爾伯特空間
  • Reproducing Kernel Hilbert Space(再現核希爾伯特空間
  • Kernel Computations(核計算
  • The MMD and HSIC(MMD和HSIC
  • Gaussian Processes and Functional Data Analyses(高斯過程和功能資料分析

資料&資源

🔥 『Feedback Prize - Predicting Effective Arguments』Kaggle比賽第1名解決方案 · 預測寫作中的有效論點

https://github.com/ybabakhin/kaggle-feedback-effectiveness-1st-place-solution

https://www.kaggle.com/competitions/feedback-prize-effectiveness/discussion/347536

比賽使用美國 6 年級- 12年級的資料,通過建模將學生作文中的論點進行分類:effective/有效、充分/adequate、無效/ineffective。比賽模型將為學生的議論文寫作提供反饋,幫助學生更好地完成作業,併成為更嫻熟地寫作者。

Repo分享了排名第1的解決方案:基於一種兩階段方法,使用不同的技術集成了多個基於transformer的模型,並在頂部添加了二級模型。還使用了多輪偽標記,併為模型添加了具有不同技術的偽標籤。更多解決方案的細節見第二個連結。

研究&論文

公眾號後臺回覆關鍵字 日報,免費獲取整理好的論文合輯。

科研進展

  • 2022.09.25 『文字轉影象』 Personalizing Text-to-Image Generation via Aesthetic Gradients
  • 2022.10.13 『領域泛化』Unified Vision and Language Prompt Learning
  • 2022.10.06 『化學物理』 Equivariant Shape-Conditioned Generation of 3D Molecules for Ligand-Based Drug Design

⚡ 論文:Personalizing Text-to-Image Generation via Aesthetic Gradients

論文時間:25 Sep 2022

領域任務:Text to image generation, Text-to-Image Generation,文字轉影象

論文地址:https://arxiv.org/abs/2209.12330

程式碼實現:https://github.com/vicgalle/stable-diffusion-aesthetic-gradients

論文作者:Victor Gallego

論文簡介:This work proposes aesthetic gradients, a method to personalize a CLIP-conditioned diffusion model by guiding the generative process towards custom aesthetics defined by the user from a set of images./這項工作提出了審美梯度,這是一種通過引導生成過程走向使用者從一組影象中定義的自定義美學來個性化CLIP條件的擴散模型的方法。

論文摘要:這項工作提出了審美梯度,這是一種通過引導生成過程走向使用者從一組影象中定義的自定義美學來個性化CLIP條件的擴散模型的方法。該方法通過定性和定量實驗進行驗證,使用最近的穩定擴散模型和幾個審美過濾的資料集。程式碼釋出在https://github.com/vicgalle/stable-diffusion-aesthetic-gradients

⚡ 論文:Unified Vision and Language Prompt Learning

論文時間:13 Oct 2022

領域任務:Domain Generalization, Few-Shot Learning, 領域泛化Few-Shot 學習

論文地址:https://arxiv.org/abs/2210.07225

程式碼實現:https://github.com/yuhangzang/upt

論文作者:Yuhang Zang, Wei Li, Kaiyang Zhou, Chen Huang, Chen Change Loy

論文簡介:Prompt tuning, a parameter- and data-efficient transfer learning paradigm that tunes only a small number of parameters in a model's input space, has become a trend in the vision community since the emergence of large vision-language models like CLIP./自從CLIP等大型視覺語言模型出現後,提示調諧,一種引數和資料高效的轉移學習正規化,只調整模型輸入空間中的少量引數,已經成為視覺界的一種趨勢。

論文摘要:自從CLIP等大型視覺語言模型出現後,提示調諧,一種引數和資料高效的轉移學習正規化,只調整模型輸入空間中的少量引數,已成為視覺界的一種趨勢。我們對兩種有代表性的提示調諧方法,即文字提示調諧和視覺提示調諧進行了系統研究。一個主要的發現是,沒有一種單模態的提示調諧方法表現得始終如一:文字提示調諧在具有高類內視覺變異的資料上失敗,而視覺提示調諧不能處理低類間變異。為了結合兩者的優點,我們提出了一個簡單的方法,稱為統一提示調諧(UPT),它基本上是學習一個微小的神經網路來共同優化不同模態的提示資訊。在超過11個視覺資料集上的廣泛實驗表明,UPT在少許學習基準以及領域概括基準上比單模態的對應方法取得了更好的權衡。程式碼和模型將被髮布以促進未來的研究。

⚡ 論文:Equivariant Shape-Conditioned Generation of 3D Molecules for Ligand-Based Drug Design

論文時間:6 Oct 2022

領域任務:Chemical Physics, Machine Learning, Biomolecules, 化學物理機器學習生物分子

論文地址:https://arxiv.org/abs/2210.04893

程式碼實現:https://github.com/keiradams/squid

論文作者:Keir Adams, Connor W. Coley

論文簡介:Shape-based virtual screening is widely employed in ligand-based drug design to search chemical libraries for molecules with similar 3D shapes yet novel 2D chemical structures compared to known ligands./基於形狀的虛擬篩選在基於配體的藥物設計中被廣泛採用,以搜尋化學庫中與已知配體具有相似的三維形狀但具有新穎的二維化學結構的分子。

論文摘要:基於形狀的虛擬篩選在基於配體的藥物設計中被廣泛採用,以搜尋化學庫,尋找與已知配體相比具有相似的三維形狀和新穎的二維化學結構的分子。三維深度生成模型有可能使這種以形狀為條件的三維化學空間的探索自動化;然而,現有的模型都不能可靠地生成有效的類似藥物的分子,其構象採用特定的形狀,如已知的結合姿勢。我們引入了一個新的多模態三維生成模型,通過等價編碼分子形狀和變異編碼化學特性來實現形狀條件的三維分子設計。我們通過使用基於自迴歸片段的生成與啟發式鍵合幾何,確保生成分子的區域性幾何和化學有效性,使模型能夠優先考慮可旋轉鍵的評分,使不斷增長的構象結構與目標形狀最匹配。我們在與藥物設計相關的任務中評估了我們的三維生成模型,包括化學多樣性分子結構的形狀條件生成和形狀約束的分子特性優化,證明了它比列舉庫的虛擬篩選更有用。

我們是 ShowMeAI,致力於傳播AI優質內容,分享行業解決方案,用知識加速每一次技術成長!

◉ 點選 日報合輯,在公眾號內訂閱話題 #ShowMeAI資訊日報,可接收每日最新推送。

◉ 點選 電子月刊,快速瀏覽月度合輯。

「其他文章」