星巴克推出Web3平臺;天啦嚕,AI繪畫能007了;『決策演算法』電子書;合成人臉資料集;面向資料的版本控制;前沿論文 | ShowMeAI資訊日報

語言: CN / TW / HK

我報名參加金石計劃1期挑戰——瓜分10萬獎池,這是我的第7篇文章,點選檢視活動詳情

👀日報合輯 | 📆電子月刊 | 🔔公眾號下載資料 | 🍩@韓信子

📢 星巴克推出 Web3 平臺 Starbucks Odyssey

https://stories.starbucks.com/press/2022/starbucks-brewing-revolutionary-web3-experience-for-its-starbucks-rewards-members/

9 月 12 日星巴克宣佈推出 Web3 平臺 Starbucks Odyssey,將星巴克的忠誠度計劃 Starbucks Rewards 與 NFT 平臺相結合,允許客戶賺取和購買數字資產,從而解鎖獨家體驗和獎勵。Starbucks Odyssey 的所有 NFT 都由星巴克與藝術家共同創作,可以登入參與設定的互動遊戲等獲取,也可以使用信用卡直接購買。NTF 的積分可用於體驗星巴克的酒類製作課程、參加星巴克的烘焙活動等。

此外,值得注意的是,Starbucks Odyssey 平臺將由以太坊擴容方案 Polygon 提供技術支撐,以降低可能的昂貴的鏈上交易成本。Polygon 官方也於同一時間發推表示合作愉快。

工具&框架

🚧 『AI Art Generator』AI藝術作品自動生成器

https://github.com/rbbrdckybk/ai-art-generator

AI Art Generator 用於在本地自動批量基於 AI 建立藝術作品(繪畫)。它將充分利用你的GPU進行 7X24 小時創作藝術畫,能夠自動生成 prompt 佇列,結合使用者選擇的主題、風格/ 藝術家等進行工作。

🚧 『van-blog』簡潔實用優雅的高效能個人部落格系統

https://github.com/Mereithhh/van-blog

https://vanblog.mereith.com/

VanBlog 是一款簡潔實用優雅的高效能個人部落格系統。支援 HTTPS 證書全自動按需申請、黑暗模式、移動端自適應和評論,內建流量統計與圖床,內嵌評論系統,配有完備的、支援黑暗模式、支援移動端、支援一鍵上傳剪下板圖片到圖床、帶有強大的編輯器的後臺管理面板。

🚧 『PaddleScience』基於 PaddlePaddle 開發 AI 驅動科學計算應用的 SDK和庫

https://github.com/PaddlePaddle/PaddleScience

https://paddlescience.paddlepaddle.org.cn/

PaddleScience 基於 PaddlePaddle 框架構建,充分使用了其生態下的軟體元件,用於開發新的科學計算應用。覆蓋的領域包括物理資訊機器學習、基於神經網路的PDE求解器、用於 CFD 的機器學習等等。PaddleScience 仍在不斷開發和更新中。

🚧 『CvComposer』OpenCV的高階圖形介面,可方便構建工作流、快捷檢視結果

https://github.com/wawanbreton/cvcomposer

CvComposer 是一個 OpenCV 的圖形介面工具。它讓你輕鬆使用和組合多種處理功能,並實時看到效果。典型的應用包括:

  • 通過觀察單個函式的效果來學習 OpenCV
  • 通過組合函式來設計複雜的影象視覺演算法
  • 微調引數(閾值、核大小...)

🚧 『Dolt』面向資料的版本控制,資料的 Git,13K Star

https://github.com/dolthub/dolt

Dolt 是一個 SQL 資料庫,你可以像 Git 倉庫一樣克隆、分支控制、合併、推送和拉取操作。將MySQL 資料庫連線到 Dolt,執行查詢或使用 SQL 命令更新資料都很方便。它支援使用命令列介面匯入 CSV 檔案,提交你的修改,推送到遠端,或合併團隊其他同學的修改。所有 Git 的命令在 Dolt 上都保持了一致性,可以放心使用。

博文&分享

👍 『Algorithms for Decision Making』決策演算法·免費書

https://algorithmsbook.com/

PDF 下載:https://algorithmsbook.com/files/dm.pdf

本書對不確定條件下的決策演算法作了廣泛的介紹,內容涵蓋了與決策有關的各種主題,介紹了基本的數學問題公式和解決這些問題的演算法。包含以下主題:

第一部分:概率推理

  • 表徵
  • 推理
  • 引數學習
  • 結構學習
  • 簡單決策

第二部分:順序問題

  • 精確解法
  • 近似值函式
  • 線上規劃
  • 政策搜尋
  • 政策梯度估計
  • 政策梯度優化
  • 角色批判方法
  • 政策驗證

第三部分:模型的不確定性

  • 探索和利用
  • 基於模型的方法
  • 無模型的方法
  • 模仿學習

第四部分:狀態的不確定性

  • 信念
  • 準確的信念狀態規劃
  • 離線信念狀態規劃
  • 線上信念狀態規劃
  • 控制器抽象

第五部分:多Agent系統

  • 多Agent推理
  • 序列問題
  • 狀態的不確定性
  • 協作代理

👍 『A Short Chronology Of Deep Learning For Tabular Data』表格資料深度學習簡明清單

https://sebastianraschka.com/blog/2022/deep-learning-for-tabular-data.html

我們知道深度學習非常適合非結構化資料,深度學習有時被稱為『表徵學習』,因為它的優勢在於學習特徵提取的能力。大多數結構化(表格)資料集已經表示了(通常是手動)提取的特徵,但許多研究人員最近試圖為結構化資料集開發特殊用途的深度學習方法。這篇內容整理和更新了結構化資料上的深度學習研究和應用資源列表。

資料&資源

🔥 『Synthetic Faces High Quality (SFHQ) Dataset』合成人臉高質量資料集

https://github.com/SelfishGene/SFHQ-dataset

這個資料集由 3 個部分組成,每個部分包含大約 9 萬張精心收集的高質量 1024x1024 的合成臉部影象。它是通過使用『將影象編碼到 StyleGAN2 潛在空間,並操作將每個影象變成一個照片般的真實影象』得到。該資料集還包含面部關鍵點和解析語義分割圖。

🔥 『Collaborative Perception』協同感知相關文獻列表

https://github.com/Little-Podi/Collaborative_Perception

該專案是 V2I / V2V / V2X 自動駕駛場景下的協作 / 合作 / 多代理感知的最新進展的論文摘要。論文按第一個字元的字母順序列出。所有論文和程式碼的連結都可以免費訪問。

研究&論文

公眾號後臺回覆關鍵字 日報,免費獲取整理好的論文合輯。

科研進展

  • 2022.08.26 『影片檢索』 Partially Relevant Video Retrieval
  • 2022.02.12 『目標檢測』 Depth-Cooperated Trimodal Network for Video Salient Object Detection
  • 2022.01.01 『對比學習』 Cross-View Language Modeling: Towards Unified Cross-Lingual Cross-Modal Pre-training

⚡ 論文:Partially Relevant Video Retrieval

論文時間:26 Aug 2022

領域任務:Moment Retrieval, Multiple Instance Learning, 影片檢索計算機視覺

論文地址:https://arxiv.org/abs/2208.12510

程式碼實現:https://github.com/HuiGuanLab/ms-sl

論文作者:Jianfeng Dong, Xianke Chen, Minsong Zhang, Xun Yang, ShuJie Chen, Xirong Li, Xun Wang

論文簡介:To fill the gap, we propose in this paper a novel T2VR subtask termed Partially Relevant Video Retrieval (PRVR)./為了填補這一空白,我們在本文中提出了一個新的T2VR子任務,即部分相關影片檢索(PRVR)。

論文摘要:目前的文字-影片檢索(T2VR)方法是在面向影片字幕的資料集(如MSVD、MSR-VTT和VATEX)上進行訓練和測試。這些資料集的一個關鍵屬性是,影片被假定為時間上的預剪短,而提供的標題很好地描述了影片內容的要點。因此,對於一個給定的成對的影片和標題,影片應該是與標題完全相關的。然而,在現實中,由於查詢並不是預先知道的,預先修剪的影片片段可能不包含足夠的內容來完全滿足查詢。這表明文獻和現實世界之間存在差距。為了填補這一空白,我們在本文中提出了一個新的T2VR子任務,即部分相關影片檢索(PRVR)。如果一個未經修剪的影片包含了與查詢相關的時刻,那麼它就被認為與給定的文字查詢部分相關。PRVR旨在從一大批未修剪的影片中檢索出這些部分相關的影片。PRVR不同於單一影片時刻檢索和影片語料庫時刻檢索,因為後兩者要檢索的是時刻而不是未修剪的影片。我們將PRVR表述為一個多例項學習(MIL)問題,即一個影片同時被視為一袋影片片段和一袋影片幀。片段和幀代表不同時間尺度的影片內容。我們提出了一個多尺度相似性學習(MS-SL)網路,為PRVR共同學習片段尺度和幀尺度的相似性。在三個資料集(TVR、ActivityNet Captions和Charades-STA)上的廣泛實驗證明了所提方法的可行性。我們還表明,我們的方法可用於改善影片語料庫的時刻檢索。

⚡ 論文:Depth-Cooperated Trimodal Network for Video Salient Object Detection

論文時間:12 Feb 2022

領域任務:object-detection, Optical Flow Estimation, 目標檢測光流預估

論文地址:https://arxiv.org/abs/2202.06060

程式碼實現:https://github.com/luyukang/DCTNet

論文作者:Yukang Lu, Dingyao Min, Keren Fu, Qijun Zhao

論文簡介:However, existing video salient object detection (VSOD) methods only utilize spatiotemporal information and seldom exploit depth information for detection./然而,現有的影片突出物件檢測(VSOD)方法只利用時空資訊,很少利用深度資訊進行檢測。

論文摘要:深度可以為突出物體檢測(SOD)提供有用的地理線索,並且在最近的RGB-D SOD方法中被證明是有用的。然而,現有的影片突出物件檢測(VSOD)方法只利用時空資訊,很少利用深度資訊進行檢測。在本文中,我們提出了一個深度合作的三模網路,稱為用於VSOD的DCTNet,這是一項結合深度資訊來輔助VSOD的開創性工作。為此,我們首先從RGB幀中生成深度,然後提出一種不平等地處理三種模式的方法。具體來說,我們設計了一個多模態注意力模組(MAM)來模擬主模態(RGB)和兩個輔助模態(深度、光流)之間的多模態長程依賴關係。我們還引入了一個細化融合模組(RFM)來抑制每個模態中的噪音,並動態地選擇有用的資訊來進一步細化特徵。最後,在細化特徵後採用漸進式融合策略,實現最終的跨模態融合。在五個基準資料集上的實驗證明了我們的深度合作模型相對於12種最先進的方法的優越性,深度的必要性也得到了驗證。

⚡ 論文:Cross-View Language Modeling: Towards Unified Cross-Lingual Cross-Modal Pre-training

論文時間:1 Jun 2022

領域任務:Contrastive Learning, Language Modelling, 對比學習語言模型

論文地址:https://arxiv.org/abs/2206.00621

程式碼實現:https://github.com/zengyan-97/cclm

論文作者:Yan Zeng, Wangchunshu Zhou, Ao Luo, Xinsong Zhang

論文簡介:To this end, the cross-view language modeling framework considers both multi-modal data (i. e., image-caption pairs) and multi-lingual data (i. e., parallel sentence pairs) as two different views of the same object, and trains the model to align the two views by maximizing the mutual information between them with conditional masked language modeling and contrastive learning./為此,跨檢視語言建模框架將多模態資料(即影象-標題對)和多語言資料(即平行句子對)視為同一物件的兩個不同檢視,並通過條件掩碼語言建模和對比學習,使兩個檢視之間的相互資訊最大化來訓練模型,使其協調一致。

論文摘要:在本文中,我們介紹了跨檢視語言建模,這是一個簡單而有效的語言模型預訓練框架,它將跨語言跨模式預訓練與共享架構和目標統一起來。我們的方法源於一個關鍵的觀察,即跨語言和跨模態的預訓練有著相同的目標,即把同一物件的兩個不同的觀點統一到一個共同的語義空間。為此,跨檢視語言建模框架將多模態資料(即影象-標題對)和多語言資料(即平行句對)視為同一物件的兩個不同檢視,並通過條件掩蔽語言建模和對比學習使兩個檢視之間的相互資訊最大化來訓練模型。我們用跨檢視語言建模框架預先訓練CCLM,一個跨語言的跨模態語言模型。在IGLUE(一個多語言多模態基準)和兩個多語言影象-文字檢索資料集上的實證結果表明,雖然概念上比較簡單,但CCLM明顯優於之前的最先進水平,平均絕對改進超過10%。值得注意的是,CCLM是第一個多語言多模態模型,通過零點跨語言轉移,超越了有代表性的英語視覺語言模型的翻譯測試效能。

我們是 ShowMeAI,致力於傳播AI優質內容,分享行業解決方案,用知識加速每一次技術成長!

◉ 點選 日報合輯,在公眾號內訂閱話題 #ShowMeAI資訊日報,可接收每日最新推送。

◉ 點選 電子月刊,快速瀏覽月度合輯。

「其他文章」