萊斯大學胡俠團隊 ICML 2022 傑出論文: 新型圖資料增強方法 G-Mixup|附作者對話
作者|李梅
編輯|陳彩嫻
近日,備受關注的第十九屆機器學習國際會議(ICML 2022)在美國馬里蘭州巴爾的摩市舉辦。自新冠疫情以來,大會首次恢復線下形式,採取線上線下結合的方式舉辦。
1
ICML2022概況
本屆大會共收到5630 篇投稿,其中,1117 篇被接收為short oral,118篇被接收為long oral。接收率為21.94%,與以往幾年基本持平。前幾日,本屆大會的全部獎項公佈,共評選出 15 篇傑出論文獎和 1 項時間檢驗獎。 其中, 復旦大學、上海交通大學、廈門大學、萊斯大學等多個華人團隊的工作被評位傑出論文獎。 ICML 2012 的一篇論文《Poisoning Attacks against Support Vector Machines》獲得了時間檢驗獎。
獲獎論文資訊詳見:http://icml.cc/virtual/2022/awards_detail
今年的傑出論文獎不同尋常,評選數量多達 15 篇。而同樣是 21% 左右的接 受率,前年只評選出2 篇傑出論文,去年則僅有1篇。
本文我們來關注一下今年獲獎的一篇優秀工作。AI 科技評論此次採訪到 獲得傑出論文獎的萊斯大學胡俠團隊, 為我們解讀他們的研究工作。該團隊的獲獎論文題目為: 《G-Mixup: Graph Data Augmentation for Graph Classification》 。作者: Xiaotian Han、Zhimeng Jiang、Ninghao Liu、Xia Hu。
論文地址:http://arxiv.org/pdf/2202.07179.pdf
在這項研究中,作者提出了一種新的圖資料增強方法: G-Mixup ,實驗表明,G-Mixup 能夠 提高圖神經網路的泛化性和魯棒性。
胡俠,現任美國萊斯大學終身副教授,資料科學中心主任,AIPOW聯合創始人兼首席科學家。其主導開發的開源系統AutoKeras成為最常用的自動機器學習框架之一(超過8000次star及1000次fork),開發的NCF演算法及系統(單篇論文他引3000餘次)成為主流人工智慧框架TensorFlow的官方推薦系統,主導開發的異常檢測系統在通用、Trane、蘋果等公司的產品中得到廣泛應用,研究工作多次獲得最佳論文(提名)獎。
2
獲獎工作G-Mixup介紹
研究背景
圖資料在我們的現實生活中無處不在,我們可以使用圖來建模和描述各種複雜網路系統。而為了將圖資料應用於具體任務,我們首先需要對圖資料進行表徵。近年來,通過深度學習技術對圖資料進行表示學習的圖神經網路(GNNs),在節點分類任務上取得了最優效能,因而已被廣泛用於圖形分析。同時,資料增強(data augmentation)和 Subgraph(子圖)也被用於圖分析,它們通過生成合成圖來建立更多訓練資料,以提高圖分類模型的泛化效能。
當前流行的資料增強方法 Mixup 通過在兩個隨機樣本之間插入特徵和標籤,在提高神經網路的泛化性和魯棒性方面顯示出優越性。但是,Mixup 更適用於處理影象資料或表格資料,直接將其用於圖資料並非易事,因為不同的圖通常:(1)有不同數量的節點;(2)不容易對齊;(3)在非歐幾里得空間中的型別學具有特殊性。
為此,提出了一種 class-level 的圖資料增強方法: G-Mixup 。具體來說,首先使用同一類中的圖來估計一個 graphon。然後,在歐幾里得空間中對不同類的 graphons 進行插值,得到混合的 graphons,合成圖便是通過基於混合 graphons 的取樣生成的。經實驗評估,G-Mixup 顯著提高了圖神經網路的泛化性和魯棒性。
G-Mixup的實現方法
G-Mixup。G-Mixup 是一種通過圖形插值的class-level資料增強方法。具體來說,G-Mixup 對不同的圖生成器(graphon)進行線性插值以獲得新的混合的生成器。然後,基於混合的新的生成器對合成圖進行取樣得到新的圖資料以進行資料增強。改論文從理論上證明從該生成器中取樣的圖部分具有原始圖的屬性。
如圖1所示,G-Mixup包括三個關鍵步驟: (1)為每一類圖估計一個graphon,(2)混合不同圖類的graphons,以及(3)基於混合的graphons取樣生成合成圖。
圖 1:在二值圖分類任務中,有兩類不同的圖 G 和 H,二者拓撲不同(G 有兩個社群,而 H 有八個社群)。G 和 H 具有不同的graphons。
Graphon 估計和 Mixup。作者使用矩陣形式的階進函式作為graphon來混合和生成合成圖。對階躍函式估計方法,作者首先根據節點測量值將節點對齊在一組圖中,然後從所有對齊的鄰接矩陣中估計階躍函式。
合成圖的生成。一個 graphon W 提供一個分佈來生成任意大小的圖。
G-Mixup 的效能評估
那麼,G-Mixup 在真實世界的圖資料上表現如何?作者團隊對 G-Mixup 的效能進行了評估。
一個數據集中不同類別的圖的 graphons 顯著不同。圖 2 表明現實世界中不同類別的圖有完全不同的graphons,這為通過融合 graphon 來生成混合的圖奠定了基礎。
圖2:IMDBBINAERY 的 graphons 顯示 class 1 的 graphon 有更大的密集區域,這表明該類中的圖比 class 0 中的圖具有更大的社群。REDDIT-BINARY 的 graphons 顯示,class 0 中的圖有一個高度節點,而 class 1 中的圖有兩個。
G-Mixup 合成的圖是原始圖的混合。作者團隊將在 REDDIT-BINARY 資料集上生成的合成圖進行視覺化,如圖 3,混合 graphon(0.5∗W0+0.5∗W1) 能夠生成包含高度節點和密集子圖的圖,這可看作是包含 1 個高度節點和包含 2 個高度節點的圖的混合圖。這驗證了 G-Mixup 更傾向於保留來自原始圖的區別性圖案,其合成圖確實是原始圖的混合。
圖3:在 REDDIT-BINARY 資料集上生成的合成圖的視覺化。
G-Mixup 可以提高 GNN 在各種資料集上的效能。 作者比較了使用 G-Mixup 的各種GNN主幹網路在不同資料集上的效能。 實驗結果表明,G-Mixup可以提高圖神經網路在各種資料集上的效能。
G -Mixup 可以提高 GNN 的魯棒性。作者對 G-Mixup 的兩種魯棒性(標籤腐蝕的魯棒性和拓撲腐蝕的魯棒性)進行研究,發現 G-Mixup 能夠提高 GNN 的魯棒性。
結論
這項工作提出了一種名為 G-Mixup 的新型圖增強方法。與影象資料不同,圖資料是不規則的、未對齊的且處於非歐幾里得空間中,因此很難進行混合。然而,同一類別中的圖具有相同的生成器(即graphon),它是規則的、良好對齊的且處於歐幾里得空間中。因此,作者轉而對不同類別的 graphons進行混合來生成合成圖。綜合實驗表明,使用 G-Mixup 訓練的 GNN 獲得了更好的效能和泛化能力,並提高了模型對噪聲標籤和被損壞拓撲的魯棒性。
3
AI 科技評論對話G-Mixup作者團隊
AI 科技評論:祝賀你們的研究獲得ICML 2022傑出論文獎。首先,能否概括一下你們這項工作的主要貢獻?
作者團隊:我們提出了 G-Mixup 來增強用於圖分類的訓練圖。由於直接混合圖是難以處理的,因此 G-Mixup 將不同類別的圖的圖元混合以生成合成圖。其次,我們理論上證明合成圖將是原始圖的混合,其中源圖的關鍵拓撲(即判別主題)將被混合。最後,我們證明了所提出的 G-Mixup 在各種圖神經網路和資料集上的有效性。大量的實驗結果表明,G-Mixup 能夠增強圖神經網路的泛化性和魯棒性。
AI 科技評論:當時論文收到的審稿意見是怎樣的?
作者團隊:審稿意見總體比較positive,不過當時審稿人對我們做資料增強的意義有一點疑問,我們對此作了詳細的解釋,比如就訓練而言,有時訓練資料集特別少,我們就可以用資料增強來獲取更多的資料。審稿人在最後的意見中也表明認識到了資料增強的重要意義。
AI 科技評論:與以往的Mixup方法相比,G-Mixup的不同之處在什麼地方?
作者團隊:Mixup 技術主要應用在影象上,已經比較成熟,它是將訓練資料中的兩個資料集線性地加起來,得到一個新的訓練資料,從而完成資料擴增。但它在圖資料上還沒有一個很好的解決方案。而我們的G-Mixup 是一個簡單且有效的方法,它是對不同類別的圖生成器進行混合來生成合成圖。
AI科技評論:與影象資料和表格資料相比,對圖資料做mixup的難點在什麼地方?
作者團隊:目前針對圖的mixup的研究比較少,因為圖資料比較難處理,它不容易表示,而且兩個圖的節點數量、無結構資訊是不一樣的,所以很難將其融合到一起。影象資料和表格資料可以表示成連續的向量或矩陣的形式,所以很容易做融合,但圖資料無法表示成這種形式。
AI科技評論:為什麼說G-Mixup 是一種Class-level的圖資料增強方法?
作者團隊:我們是用兩個類來生成一個新的類,我們用多張圖來估計圖的生成規則也就是圖的生成器,然後對每一類圖來估計一個生成器,這樣來生成一個新的類別。以往針對影象的mixup是用兩張圖片來做,屬於instance-level,但針對圖的處理方法與此不同。
AI科技評論:有哪些途徑可以提高圖神經網路的泛化性?
作者團隊:比如設計新的網路結構,做資料增強,以及訓練技巧方面的一些工作,都可以提高泛化性,我們這項工作展示的是其中一種方法。
AI科技評論:針對這項工作所研究的問題,有什麼下一步的研究計劃?
作者團隊:我們這項工作提出的方法主要是用於圖分類任務,以後我們可以進一步考慮在節點分類任務上做融合,節點分類也是圖神經網路方面的一個重要任務。
AI科技評論:這次獲得傑出論文獎,有沒有什麼經驗、體會可以分享?
作者團隊:首先文章的寫作質量要好,要將研究清楚地表述出來;研究的 idea 要十分合理;以及,研究問題本身要有意義和價值。
AI科技評論:這項研究的成果對相關領域有怎樣的影響?有哪些實際應用的價值?
作者團隊:由於圖資料的本身特性,使得mixup這個在其他資料上很有效的方法不能直接適用在圖資料上,我們提出的g-mixup使用了圖生成器去融合圖資料,實現了class-level的圖資料mixup, 希望能對圖資料的mixup能有一定的啟發作用。希望提出的方法能夠在圖生成,新藥物發現方向能有一定的啟發。
更多內容,點選下方關注:
掃碼新增 AI 科技評論 微訊號,投稿&進群:
雷峰網 (公眾號:雷峰網)
雷峰網版權文章,未經授權禁止轉載。詳情見 轉載須知 。
- 元宇宙大門前,Wi-Fi 7喊出「芝麻開門」
- 科亞醫療深脈分數在魯上市,AI技術應用落地助力“健康中國2030”
- 兩家國產EDA公司合併,瞬曜創始人傅勇加入芯華章出任CTO
- Matter協議如何讓華為、小米、蘋果共處「同一屋簷下」?
- 出海正當時,誰在奮寫全球化故事?| 2022雷峰網「產業科技 · 最具商用價值榜」
- OpenAI 釋出新語音系統「Whisper 」,英文識別能力可接近人類水平
- 「雷神」超級晶片登場,英偉達與其它AI晶片公司的算力差距再次擴大
- 騰訊雲入選《IDC MarketScape: 中國DevOps平臺市場廠商評估,2022》領導者位置
- 英偉達「史詩級」自動駕駛晶片亮相!算力2000TOPS,相容座艙娛樂功能
- 數字化下半場,雲與資料基建領域裡,誰是核心生力軍? | 2022雷峰網「產業科技 · 最具商用價值榜」
- 醫療科技擠出「泡沫」,誰在潮水中站穩了腳跟?| 2022雷峰網「產業科技 · 最具商用價值榜」
- 嘉立創CAM軟體上線,PCB CAM軟體有望實現國產替代
- 貝殼翻身
- 騰訊雲助力打造南財金融終端,推動大灣區金融資訊服務發展
- Gary Marcus:文字生成影象系統理解不了世界,離 AGI 還差得遠
- 深圳安科 IPO 被中止,中國醫療器械「黃埔軍校」錯失的黃金三十年
- NeurIPS 2022 | 創新奇智提出一種基於反標籤學習的半監督少樣本影象分類學習方法
- Arm伺服器再添新成員,英偉達Grace率先採用
- Science 評論:STEM 領域女性科學家的工資比男性低 15.55%,頂尖學者差距更大
- 化云為雨,華為云為什麼要深入經濟的“毛細血管”?