買定離手!AI預測英雄聯盟S12冠軍;微軟使用AI提高農業生產效率;程式語言的自動生成;機器學習核方法入門·電子書;前沿論文 | ShowMeAI資訊日報
持續創作,加速成長!這是我參與「掘金日新計劃 · 10 月更文挑戰」的第15天,點選檢視活動詳情
📢 RNG 還是 EDG?人工智慧預測英雄聯盟S12冠軍
https://weibo.com/tv/show/1034:4826223403270223
微博 @圖靈的貓 用AI預測了2022年英雄聯盟S12的總冠軍——RNG。有趣的是,將『是否在比賽日7天內感染新冠』加入到選手特徵之後,勝率有了明顯變化,冠軍預測結果變為 EDG!
博主以單場比賽作為資料的基本維度,把過去每場比賽的勝率作為預測Label。模型用到以下幾類特徵:隊伍特徵(歷史平均勝率、歷史奪冠次數等),上下文特徵(遊戲版本號、BP陣容等),選手特徵(年齡、賽季平均勝率等)。參考論文對原始資料進行處理後,輸入構建的機器學習模型,得到預測結果。
不過,博主也表示,本次預測缺乏很多細節資料,置信度並不高,只能算是對淺層世界的模擬。哪怕根據比賽實時資料進行預測,勝率也會有極大波動和反轉——這種AI無法理解和預測的隨機性,來自於每個隊員對勝利的執著,這也正是電子競技的魅力所在。
工具&框架
🚧 『FarmVibes.AI』多模態地理空間的機器學習模型
https://github.com/microsoft/farmvibes-ai
FarmVibes.AI 是微軟開放的多模態地理空間機器學習模型,可用於農業和可持續發展。這個模型可以使用融合了多個地理空間和時空資料集來建立模型,獲得在孤立使用這些資料集時難以獲得的洞察力——估計碳足跡、瞭解增長率等。
例如,FarmVibes.AI 可以將衛星影象(RGB、SAR、多光譜)、無人機影象、氣象資料等融合在一起進行研究,使用地面感測器以及無人機和衛星影象來建立選定土地上的養分和水分分佈圖,為農民提供有關肥料和種子應該放置的位置的資訊,從而減少過度施肥和浪費。
🚧 『gh-dash』漂亮的 GitHub 命令列面板
https://github.com/dlvhdr/gh-dash
gh-dash是一個漂亮的GitHub命令列面板,它會在終端顯示一個儀表板,上面包括你關心的pull requests和issues。
🚧 『CodeGeeX』具有 130 億引數的多程式語言程式碼生成預訓練模型
https://github.com/THUDM/CodeGeeX
https://models.aminer.cn/codegeex/
CodeGeeX 是一個擁有 130 億個引數的大規模多語言程式碼生成模型,在20多種程式語言的大型程式碼語料庫上進行預訓練獲得。
CodeGeeX 具有多種特性:多語言程式碼生成、跨語言的程式碼翻譯、可定製的程式設計助手、開源和跨平臺。其中,CodeGeeX 可以生成 Python、C++、Java、JavaScript、Go等主流程式語言的可執行程式且效能良好,並且支援不同語言間的程式碼片段的高精度翻譯。非常酷!
🚧 『RapidFuzz』Python字串快速模糊匹配庫
https://github.com/maxbachmann/rapidfuzz
https://maxbachmann.github.io/RapidFuzz/
RapidFuzz 是一個用於 Python 和 C++ 的快速字串匹配庫,它採用了 FuzzyWuzzy 的字串相似度計算方法。它提供了許多像 hamming 或 jaro_winkler 這樣的字串指標,這些指標是 FuzzyWuzzy 所不具備的。
它主要是用C++編寫的,並且在此基礎上進行了大量的演算法改進,以使字串匹配更快,同時仍然提供相同的結果。它修復了partial_ratio實現中的多個bug。
🚧 『iceberg』將SQL表的可靠性和簡單性帶入大資料
https://github.com/apache/iceberg
Iceberg 是一種用於大型分析表的高效能格式。 Iceberg 為大資料帶來了 SQL 表的可靠性和簡單性,同時讓 Spark、Trino、Flink、Presto、Hive 和 Impala 等引擎能夠同時安全地使用相同的表。
博文&分享
👍 『Toy Models of Superposition』Toy Model 的疊加:使用小型 ReLU 網路研究模型如何表示比自身維度更多的特徵
https://transformer-circuits.pub/2022/toy_model/index.html
人工神經網路的單個神經元,與可清晰解釋的輸入特徵,能夠相互對應嗎?例如,在理想的 ImageNet 分類器中,每個神經元僅在特定視覺特徵(例如紅色、左向曲線或狗的鼻子)下才會被觸發。但是根據經驗,這種神經元清晰地對映到特徵的情況,並不經常出現。
在本文中,我們使用Toy Model(在具有稀疏輸入特徵的合成數據上訓練的小型 ReLU 網路)來研究模型如何以及何時表示比它們具有的維度更多的特徵(本文稱這種現象為疊加)。使用 Toy Model 的研究可以證明以下關鍵結論,但仍不清楚如何推廣到真實網路:
- 疊加是一種真實的、可觀察到的現象
- 單語義和多語義神經元都可以形成
- 至少可以疊加執行某些型別的計算
- 特徵是否以疊加方式儲存由相變決定
- 疊加將特徵組織成幾何結構,例如正方體、三角形、五邊形和四面體
👍 『Kernel Methods for Machine Learning with Math and Python』用數學和Python入門機器學習核方法 · 電子書
PDF: 100 Exercises for Building Logic
『Kernel (核)』的理解與使用,一直是學習者和機器學習研究人員的知識難點。作者整理推薦了一條最短的學習路徑:從數學泛函分析開始(也就是本書的第2章)!這本書會給你一個堅實的基礎,確保你能夠流暢地閱讀以前似乎很難理解的論文,並從更高的層次看到整個『核正規化 (kernel paradigm)』。
本書選擇了100個練習題並附上了程式碼和答案,讀者可以通過閱讀本書來解出所有習題,進而獲得機器學習各主題的本質,並順利跟上新技術的發展變化。本書包含以下章節:
- Positive Definite Kernels(正定核)
- Hilbert Spaces(希爾伯特空間)
- Reproducing Kernel Hilbert Space(再現核希爾伯特空間)
- Kernel Computations(核計算)
- The MMD and HSIC(MMD和HSIC)
- Gaussian Processes and Functional Data Analyses(高斯過程和功能資料分析)
資料&資源
🔥 『Feedback Prize - Predicting Effective Arguments』Kaggle比賽第1名解決方案 · 預測寫作中的有效論點
https://github.com/ybabakhin/kaggle-feedback-effectiveness-1st-place-solution
https://www.kaggle.com/competitions/feedback-prize-effectiveness/discussion/347536
比賽使用美國 6 年級- 12年級的資料,通過建模將學生作文中的論點進行分類:effective/有效、充分/adequate、無效/ineffective。比賽模型將為學生的議論文寫作提供反饋,幫助學生更好地完成作業,併成為更嫻熟地寫作者。
Repo分享了排名第1的解決方案:基於一種兩階段方法,使用不同的技術集成了多個基於transformer的模型,並在頂部添加了二級模型。還使用了多輪偽標記,併為模型添加了具有不同技術的偽標籤。更多解決方案的細節見第二個連結。
研究&論文
公眾號後臺回覆關鍵字 日報,免費獲取整理好的論文合輯。
科研進展
- 2022.09.25 『文字轉影象』 Personalizing Text-to-Image Generation via Aesthetic Gradients
- 2022.10.13 『領域泛化』Unified Vision and Language Prompt Learning
- 2022.10.06 『化學物理』 Equivariant Shape-Conditioned Generation of 3D Molecules for Ligand-Based Drug Design
⚡ 論文:Personalizing Text-to-Image Generation via Aesthetic Gradients
論文時間:25 Sep 2022
領域任務:Text to image generation, Text-to-Image Generation,文字轉影象
論文地址:https://arxiv.org/abs/2209.12330
程式碼實現:https://github.com/vicgalle/stable-diffusion-aesthetic-gradients
論文作者:Victor Gallego
論文簡介:This work proposes aesthetic gradients, a method to personalize a CLIP-conditioned diffusion model by guiding the generative process towards custom aesthetics defined by the user from a set of images./這項工作提出了審美梯度,這是一種通過引導生成過程走向使用者從一組影象中定義的自定義美學來個性化CLIP條件的擴散模型的方法。
論文摘要:這項工作提出了審美梯度,這是一種通過引導生成過程走向使用者從一組影象中定義的自定義美學來個性化CLIP條件的擴散模型的方法。該方法通過定性和定量實驗進行驗證,使用最近的穩定擴散模型和幾個審美過濾的資料集。程式碼釋出在https://github.com/vicgalle/stable-diffusion-aesthetic-gradients
⚡ 論文:Unified Vision and Language Prompt Learning
論文時間:13 Oct 2022
領域任務:Domain Generalization, Few-Shot Learning, 領域泛化,Few-Shot 學習
論文地址:https://arxiv.org/abs/2210.07225
程式碼實現:https://github.com/yuhangzang/upt
論文作者:Yuhang Zang, Wei Li, Kaiyang Zhou, Chen Huang, Chen Change Loy
論文簡介:Prompt tuning, a parameter- and data-efficient transfer learning paradigm that tunes only a small number of parameters in a model's input space, has become a trend in the vision community since the emergence of large vision-language models like CLIP./自從CLIP等大型視覺語言模型出現後,提示調諧,一種引數和資料高效的轉移學習正規化,只調整模型輸入空間中的少量引數,已經成為視覺界的一種趨勢。
論文摘要:自從CLIP等大型視覺語言模型出現後,提示調諧,一種引數和資料高效的轉移學習正規化,只調整模型輸入空間中的少量引數,已成為視覺界的一種趨勢。我們對兩種有代表性的提示調諧方法,即文字提示調諧和視覺提示調諧進行了系統研究。一個主要的發現是,沒有一種單模態的提示調諧方法表現得始終如一:文字提示調諧在具有高類內視覺變異的資料上失敗,而視覺提示調諧不能處理低類間變異。為了結合兩者的優點,我們提出了一個簡單的方法,稱為統一提示調諧(UPT),它基本上是學習一個微小的神經網路來共同優化不同模態的提示資訊。在超過11個視覺資料集上的廣泛實驗表明,UPT在少許學習基準以及領域概括基準上比單模態的對應方法取得了更好的權衡。程式碼和模型將被髮布以促進未來的研究。
⚡ 論文:Equivariant Shape-Conditioned Generation of 3D Molecules for Ligand-Based Drug Design
論文時間:6 Oct 2022
領域任務:Chemical Physics, Machine Learning, Biomolecules, 化學物理、機器學習、生物分子
論文地址:https://arxiv.org/abs/2210.04893
程式碼實現:https://github.com/keiradams/squid
論文作者:Keir Adams, Connor W. Coley
論文簡介:Shape-based virtual screening is widely employed in ligand-based drug design to search chemical libraries for molecules with similar 3D shapes yet novel 2D chemical structures compared to known ligands./基於形狀的虛擬篩選在基於配體的藥物設計中被廣泛採用,以搜尋化學庫中與已知配體具有相似的三維形狀但具有新穎的二維化學結構的分子。
論文摘要:基於形狀的虛擬篩選在基於配體的藥物設計中被廣泛採用,以搜尋化學庫,尋找與已知配體相比具有相似的三維形狀和新穎的二維化學結構的分子。三維深度生成模型有可能使這種以形狀為條件的三維化學空間的探索自動化;然而,現有的模型都不能可靠地生成有效的類似藥物的分子,其構象採用特定的形狀,如已知的結合姿勢。我們引入了一個新的多模態三維生成模型,通過等價編碼分子形狀和變異編碼化學特性來實現形狀條件的三維分子設計。我們通過使用基於自迴歸片段的生成與啟發式鍵合幾何,確保生成分子的區域性幾何和化學有效性,使模型能夠優先考慮可旋轉鍵的評分,使不斷增長的構象結構與目標形狀最匹配。我們在與藥物設計相關的任務中評估了我們的三維生成模型,包括化學多樣性分子結構的形狀條件生成和形狀約束的分子特性優化,證明了它比列舉庫的虛擬篩選更有用。
我們是 ShowMeAI,致力於傳播AI優質內容,分享行業解決方案,用知識加速每一次技術成長!
◉ 點選 日報合輯,在公眾號內訂閱話題 #ShowMeAI資訊日報,可接收每日最新推送。
◉ 點選 電子月刊,快速瀏覽月度合輯。
- 感謝飛書放過幕布!100個GPT-4實戰案例;GPT-4免費平替Poe;AI繪畫新手指南之SD篇;new Bing靠譜教程 | ShowMeAI日報
- whylogs工具庫的工業實踐!機器學習模型流程與效果監控 ⛵
- 脈脈瘋傳!2023年程式設計師生存指南;多款prompt效率加倍工具;提示工程師最全祕籍;AI裁員正在發生 | ShowMeAI日報
- 中國風?古典系?AI中文繪圖創作嚐鮮!⛵
- Python中內建資料庫!SQLite使用指南!
- Pandas中你一定要掌握的時間序列相關高階功能
- 資料科學家賺多少?資料全分析與視覺化 ⛵
- 互動式儀表板!Python輕鬆完成!⛵
- ChatGPT!我是你的破壁人;比爾·蓋茨不看好Web3與元宇宙;FIFA押中4屆世界盃冠軍;GitHub今日熱榜 | ShowMeAI資訊日報
- ChatGPT要收費了;華爾街大裁員;阿里2023十大科技趨勢;小紅書元宇宙虛擬服飾被吐槽;GitHub今日熱榜 | ShowMeAI資訊日報
- AI創業時代!這9個方向有錢途;AIGC再添霸榜應用Lensa;美團SemEval2022冠軍方法分享;醫學影象處理工具箱… | ShowMeAI資訊日報
- 噓!P站資料分析年報;各省市疫情感染進度條;愛奇藝推出元宇宙App;You推出AI聊天機器人;GitHub今日熱榜 | ShowMeAI資訊日報
- 美國公司裁員潮時間線◉科技寒冬視覺化;3份報告回顧中國開發者2022;自動駕駛下半場,誰會衝出重圍 | ShowMeAI每週通訊 #005-01.07
- 副業月入過萬?資料有話說;掃地機器人發展到哪步了;疫情後要不要重返辦公室;淘寶元宇宙直播間;GitHub今日熱榜 | ShowMeAI資訊日報
- 大戰谷歌!微軟Bing引入ChatGPT;羊了個羊40萬年薪招研發;Debian徹底移除Python2;GitHub今日熱榜 | ShowMeAI資訊日報
- 酸了!樂視工作制改為四天半;高通新年裁員;AI繪畫公司開始倒閉;網易入股張藝謀元宇宙公司;GitHub今日熱榜 | ShowMeAI資訊日報
- 要麼幹要麼滾!推特開始裁員了;深度學習產品應用·隨書程式碼;可分離各種樂器音源的工具包;Transformer教程;前沿論文 | ShowMeAI資訊日報
- 真實世界的人工智慧應用落地——OpenAI篇 ⛵
- 陽過→陽康,資料裡的時代側影;谷歌慌了!看各公司如何應對ChatGPT;兩份優質AI年報;本週技術高光時刻 | ShowMeAI每週通訊 #003-12.24
- 用魔法打敗魔法!這件毛衣讓攝像頭看不到你;兩款酷炫的AI寫作軟體;快如閃電的B站下載工具;基於擴散模型的蛋白質設計 | ShowMeAI資訊日報