AAAI 2022|AI頂會論文究竟關注什麼?

語言: CN / TW / HK

(本文閱讀時間:26分鐘)

編者按:AAAI 是由美國人工智慧協會(Association for the Advance of Artificial Intelligence)主辦的人工智慧領域頂級學術會議之一。今年的AAAI 大會將於2月22日-3月1日舉辦,微軟亞洲研究院共有十餘篇論文入選,涵蓋概念漂移、平面佈局自動生成、假新聞檢測、視訊分割、跨語言預訓練、文字摘要、注意力機制、連續深度神經網路、領域泛化、線上影響力最大化等等人工智慧的多個領域。今天,我們為大家精選了其中的12篇進行分享,並配有此前的論文分享直播視訊,希望可以幫助大家更深入地瞭解人工智慧領域的前沿進展!

01-03論文的分享直播視訊

01

基於資料分佈生成的可預測概念漂移適應

論文連結:

https://arxiv.org/abs/2201.04038

程式碼連結:

https://github.com/microsoft/qlib/tree/main/examples/benchmarks_dynamic/DDG-DA

在時序資料中,由於環境的不穩定性,資料分佈常常會隨時間變化,且這種變化通常被認為是難以預測的。這種現象被稱為概念漂移(Concept Drift),它會導致在歷史資料上訓練的模型在概念漂移後效能下降。為了應對這一問題,此前的工作會檢測概念漂移是否發生,然後調整模型以適應最近的資料分佈。但是在很多實際場景中,環境的變化是有規律可預測的,即可預測的概念漂移(Predictable Concept Drift)。因此,可以對概念漂移的未來趨勢進行建模,而不僅僅讓模型適應最近的資料分佈。

微軟亞洲研究院的研究員們提出了一種新方法 DDG-DA 來預測資料分佈未來的變化 ,然後利用預測的資料分佈生成新的訓練資料來學習模型以適應概念漂移,最終提升模型效能。

圖1:DDG-DA 學習如何生成資料來最小化歷史資料分佈和未來資料分佈的差異 

具體來說,如圖1所示,在時序資料中樣本隨時間產生,演算法可以利用當前時刻已經產生的歷史樣本學習或調整模型用於未來一段時間的預測。由於歷史資料的分佈和未來資料分佈存在差異,這會影響所學模型的預測效能, DDG-DA 則致力於縮小這種分佈差距。 DDG-DA 會輸出歷史資料的取樣權重,基於該權重重新取樣生成資料集,該資料集的分佈會作為未來一段時間分佈的預測。同時,研究員們還設計了一個和 KL-divergence 等價的分佈距離函式來計算預測的分佈和未來一段時間實際分佈的距離。該距離函式具有可導的性質,因此可以利用它高效地學習 DDG-DA 的引數來最小化它預測的分佈誤差。在學習階段,DDG-DA 先在歷史時序資料上學習如何重取樣資料;在預測階段,DDG-DA 會定期通過重取樣歷史資料生成訓練資料集,在 DDG-DA 生成的資料集上訓練的模型將能更好地適應未來變化的資料分佈/概念漂移。 

如表1,研究員們在股價、電力負荷和日照輻照度三個真實場景預測任務和多個模型上進行了實驗驗證並且效能得到了顯著提升,在同類方法中 DDG-DA 也取得了最佳效能。

表1:DDG-DA 和同類方法在不同場景下的對比

02

平面佈局的層次化生成式建模

論文連結:

https://www.microsoft.com/en-us/research/publication/coarse-to-fine-generative-modeling-for-graphic-layouts/ 

平面佈局(graphic layout)在工作和生活中隨處可見,如海報的佈局、文件的佈局、移動應用使用者介面的佈局等。設計一個美觀的平面佈局不僅需要過硬的專業知識而且需要花費大量的精力。為了輔助平面佈局的設計,平面佈局的自動生成(layout generation),即預測佈局中各個元素的位置和大小,逐漸受到越來越多的關注。 

現有的大多數模型會將平面佈局抽象成一系列的元素,並直接預測每個元素的位置和大小。本文提出 將平面佈局切割為不同的“區域” (region),其中每個區域都可以看作是一個簡單的佈局且比整體佈局包含更少的元素,並基於此設計了一種層次化的模型。 

具體來說,研究員們將 VAE 中的解碼器分解為兩個步驟:第一個步驟為預測區域。由於平面佈局中沒有顯式的包含區域的劃分,本文設計了一種基於網格線的方法來抽取此步驟中的監督資訊。第二個步驟為基於生成的區域,預測區域中每個元素的具體位置和大小。為了使模型能夠將區域中元素的預測問題當作一個簡單的佈局生成問題,此步驟中的所有位置被轉成了對於區域的相對位置。

圖2:模型架構

大量的定性和定量實驗證明,本文提出的方法優於現有方法,其優勢在複雜佈局生成上尤為突出。表2比較了不同模型的 FID 值,圖3則比較了在不同複雜度的佈局上各個模型的效果。更多定量和定性結果請參考論文。

表2:模型 FID 值比較

圖3:不同複雜度的佈局上模型效果比較

03

基於推理的假新聞檢測

論文連結:

https://arxiv.org/abs/2110.15064

目前假新聞檢測方法以資料驅動的方式進行預測,充分證明了利用大資料進行假新聞檢測的有效性。然而,現在仍缺少從推理的角度來做假新聞檢測的研究。在心理學中,推理能力是指有意識地運用邏輯探索真理的能力,通常被認為是一種人類獨有的能力。這種推理能力對提高假新聞檢測的可解釋性和準確性至關重要。比如,如果能讓模型學會像人一樣有邏輯地把微小的線索組織起來(圖4),就能給假新聞檢測方法帶來強大的細粒度推理能力,從而提升準確性。

圖4:判斷新聞真假常常需要精細推理的能力。雖然圖中四組證據看上去眾說紛紜,但人類可以通過諸如 "property" 等微妙線索將它們在邏輯上聯絡起來,從而對文章得出更可信的結論。

圖5:推理框架 FinerFact

在本文中,微軟亞洲研究院的研究員們提出了一個 通用的推理框架 FinerFact,用於對假新聞檢測進行細粒度推理 (圖5)。FinerFact 遵循人類的資訊處理模式,能夠更好地反映人類的邏輯推理過程,增強了可解釋性。同時,FinerFact 引入了一種基於 Mutual-Reinforcement 的方法來將線索進行排序,這使研究員們能夠更好地瞭解哪些型別的證據對識別假新聞更重要,併為融入人類的知識經驗提供基礎。最後,FinerFact 引入了一個雙通道的 Kernel Graph Network 建模不同型別線索之間的細微差異與影響。

表3:FinerFact 在 PolitiFact 和 GossipCop 資料集上的表現 

大量實驗表明,FinerFact 優於目前最先進的方法並能提供較強的可解釋性(如表3所示)。除了提高準確性之外,FinerFact 還使人類能夠理解其推理過程中的大部分內容。在 Case Study 中,FinerFact 不僅成功地識別新聞為假,而且對重要的證據、細微線索以及每個觀點的預測分數都進行了詳細解釋(圖6)。

圖6:視覺化 FinerFact 的推理過程:(a)Mutual Reinforcement Graph 中的 keyword 層,每個 keyword 的顯著性表示為 keyword 的大小;(b) 在 Claim-Evidence Graph 進行細粒度推理。每種顏色表示新聞證據中的一個主題。

04-06論文的分享直播視訊

04

用於線上視訊例項分割的混合例項感知的時序融合方法

論文連結:

https://arxiv.org/abs/2112.01695

相較於影象分割,有效利用時序一致性是視訊分割的核心問題。本文提出了一種 基於例項感知的時序融合方法,用於線上視訊例項分割 (Video instance segmentation)框架。首先,研究員們利用影象分割的一種表示,基於例項的全域性編碼(instance code)和 CNN 特徵圖來分別表示例項級和畫素級特徵。基於這種表示,研究員們引入了一種無需裁剪對齊(ROI align)的時序融合方法來對視訊幀之間(Inter-frame)的內容時間一致性進行建模。具體地,研究員們在例項編碼中對全域性例項資訊進行編碼,並通過例項編碼和 CNN 特徵圖之間的混合注意力機制建模幀間的上下文融合。利用學習到的混合時間一致性,研究員們能夠直接檢索和維護跨幀的例項身份,摒除了先前方法中複雜的逐幀例項匹配方案,提高方法效率。如圖7所展示的幀間注意力圖,對於不同的參考幀,當前幀的關注點在畫素級和例項級都在時序上是一致的(不同顏色表示不同例項)。

圖7:幀間注意力圖視覺化 

圖8描述了該方法的具體框架。研究員們通過引入混合的幀間通訊來強制視訊例項分割中的時間一致性,突出顯示了兩個主要元件,即用於連線當前例項編碼和功能的幀內注意力和幀間注意力,以及用於融合相鄰幀中的混合(畫素級和例項級)時序資訊。首先,N 個幀內注意力層被整合到卷積主幹中,然後是 M 個注意力層交織幀間和幀內注意力建模。歸因於網路結構設計和附加的對比損失函式,最終在不同幀間例項編碼順序能夠保持一致(Order consistent)。

圖8:框架概述

綜合實驗表明,該模型在 Youtube-VIS-19/21資料集上,與所有線上視訊例項分割方法對比,取得了最佳效能,結果在表4展示。

表4:在 YoutubeVIS-2019的視訊例項分割結果

05

用於視訊物件分割的可靠傳播-校正調製網路

論文連結:

https://arxiv.org/abs/2112.02853

誤差傳播是視訊物件分割(Video object segmentation)中一個普遍但至關重要的問題。如何通過具有高可靠性的校正機制來抑制誤差傳播,從而提高分割的準確性,也成為研究員們關注的一個重要問題。本文中所提出的方法的 核心是把資訊流在常規的傳播(Propagation)過程和用可靠線索校正(Correction)的過程中解耦。 圖9概述了該網路框架。微軟亞洲研究院的研究員們引入了兩種調製器(Modulation)網路,傳播和校正調製模組,分別根據區域性時間相關性和參考可靠性對目標幀特徵逐通道重新校準。具體來說,研究員們使用級聯傳播校正方案組裝調製模組,從而避免了傳播模組對校正模組的影響。儘管參考幀提供了可靠的線索,但它可能與目標幀差異較大(如圖10,參考幀中的袋鼠在最後一幀消失了,人物外觀變化也非常大),具有不完整和不確定的相關性(即被參考的可靠性 Reliability 減弱)。研究員們還通過將可靠的功能補丁補充到維護池(Reliable patch pool),從而為調製網路提供更全面和更具表現力的物件代理表示(Object proxy)。其中可靠性過濾器(Reliability filter)可過濾掉後續幀的不確定補丁。

圖9:網路框架概述

圖10:該方法的關鍵是利用可靠線索補全物體物件的表示並抑制誤差傳播

該模型在當時的 YouTube-VOS18/19 和 DAVIS17-Val/Test 基準測試中達到了最先進的效能,結果在表5展示。圖10(a)也展示了該方法隨著時間增長準確性下降最少,這歸功於模型抑制了誤差的傳播。

表5:在 Youtube-VOS 2018和2019上的結果

06

XLM-K:通過多語言知識庫提高跨語言預訓練模型

論文連結:

https://arxiv.org/abs/2109.12573

跨語言預訓練的目標是提高模型在語言之間的遷移能力,使模型可以在一種語言上訓練,然後在其他語言上直接測試。之前跨語言模型的能力主要來源於單語和雙語的普通文字。本文 首次提出從多語言的知識庫中來學習跨語言能力 。多語言知識庫中的實體可以同時對應多個語言,提供新的跨語言監督,而且也可以增強模型對於知識的理解。圖11為一個多語言知識庫的例子。

圖11:多語言知識庫示例 

微軟亞洲研究院的研究員們提出了兩個新的預訓練任務: 掩碼實體預測(Masked Entity Prediction)和客體推理(Object Entailment) 。這兩個任務可以幫助模型實現更好的跨語言對齊,以及讓模型有更好的記憶知識。掩碼實體預測中,在文字輸入中有掩碼的位置,模型不僅需要預測被去掉的詞,還需要預測這個詞能夠連結到知識庫中的哪個實體。例如一段文字中的蘋果被去掉後,模型需要判斷這個詞應該連結到屬於水果的蘋果還是屬於公司的蘋果。客體推理任務中,模型的輸入是一段描述主體(subject)的文字以及主體和客體(object)的關係,模型需要預測的客體是什麼。例如,主體是“蘋果“的介紹,關係是“屬於子類”,那麼客體就是“水果”,因為“蘋果屬於水果的子類”。兩個任務中,輸入和輸出的問題都可以是不同的語言,因此模型可以獲得更好的跨語言效能。

圖12:預訓練任務介紹

在具體任務上的測試表明瞭 XLM-K 模型可以顯著提高知識相關的任務的效能。可以看到,該模型在閱讀理解和命名體識別上有較大的提升,在普通文字任務上效果持平。

表6:跨語言下游任務評測結果

最後,研究員們用知識探針任務來測試 XLM-K 模型對知識的記憶程度。知識探針任務把知識庫中的知識轉化成帶有掩碼的句子,例如“愛因斯坦出生在____”。模型需要直接預測”德國“。由結果可見,XLM-K 模型取得了更好的記憶效果。這也表明了研究員們的模型更好地融入了知識庫。

表7:知識探針評測結果

07-09論文的分享直播視訊

07

用於文字摘要任務的序列級對比學習模型

論文連結:

https://arxiv.org/abs/2109.03481

文字摘要(Text Summarization)的主要目標就是提煉一篇長文章的主要內容,將其改寫成一篇概括性的摘要。按照改寫的方式,通常將摘要分為抽取式摘要和生成式摘要兩種。抽取式摘要是指從原文中抽取幾個句子作為摘要,而生成式摘要則需要模型對整個長文章有一個整體的理解,然後生成一段簡潔、連貫的摘要。 

目前來說生成式摘要主要是在 sequence-to-sequence 框架下完成的(如圖13所示)。通過一個編碼器(Encoder)對長的文章進行編碼,再用一個解碼器(Decoder)對編碼後的資訊進行解碼並生成想要的摘要。在訓練過程中,通常使用的是NLL(Negative Log Likelihood)作為損失函式。

圖13:Sequence-to-Sequence 訓練中使用的 NLL 損失函式 

但是微軟亞洲研究院的研究員們意識到 NLL 並沒有很好地建模文字摘要任務一個重要的特點:文章和摘要雖然長度的差別很大,但是所描述的主要內容應該是一致的。為了更好地在訓練過程中強調這一點,研究員們 引入了序列間對比學習模型 SeqCo(Sequence-level Contrastive Learning) ,將文章和摘要對映到成同一個向量空間的兩個序列,並且在該向量空間內拉近文章序列和摘要序列的相似度。 

除此之外,為了增加訓練樣本的多樣性,研究員們還將模型生成的摘要也加入到訓練樣本中。整個訓練過程在優化 NLL 的同時,也在拉近原文章、目標摘要和模型生成的摘要三者的相似度(如圖15所示)。在訓練過程中,跟 BYOL 類似,研究員們採用了雙塔型的結構(見圖14)。為提高訓練的穩定性,對比學習目標端的引數為其對比端的移動平均值(moving average)並停止梯度回傳。

圖14:訓練過程的對比學習損失函式

圖15:拉近原文章、目標摘要和模型生成的摘要三者的相似度

實驗結果表明,和僅僅使用了 NLL 作為損失函式的模型相比,在訓練中引入對比學習使得模型的效果在 CNNDM、XSum 和 NYT 摘要資料集上都得到了顯著的提升(表8為在 CNNDM 上的結果,在其他資料集上的結果具有相同趨勢)。

表8:CNN/DM資料集上不同方法的效能比較

08

針對圖片識別的稀疏MLP:自注意力機制真的是必要的嗎?

論文連結:

https://arxiv.org/pdf/2109.05422.pdf

程式碼連結:

https://github.com/microsoft/SPACH

最近,Transformer 在計算機視覺領域取得了領先效能並得到了學者的廣泛關注。其中,自注意力機制(Self-Attention)是 Transformer 取得成功的核心模組。它以一種動態的方式捕獲圖片的全域性感受野。然而,由於需要計算每兩個 token 之間的關係,它的時間複雜度是平方量級的,因此,難以處理高解析度圖片,並且對金字塔結構(pyramid structure)很不友好。而高解析度輸入和金字塔結構是提高圖片識別效能的關鍵要素。此外,Transformer 完全摒棄了局部偏置(locality bias)。這種區域性偏置也是卷積神經網路在計算機視覺取得成功的重要因素。 

另一方面,也有學者對自注意力機制的必要性提出了質疑。MLP-Mixer設計了一種單純使用多層感知機(MLP)的網路架構。它與基於 Transformer 的網路架構 ViT 的主要區別是在空域上進行 token 之間的互動時僅使用了 MLP 來替代自注意力機制。MLP 由於引數量大容易過擬合,因此效果與基於 Transformer 的方法比還有差距。然而,這並不能證明自注意力機制一定是必要的。 

在進行全域性建模時,本文 設計了一種不基於自注意力機制的方法——稀疏的多層感知機(sparse MLP)模組。 每個 token 只與其所在行和所在列的 token 進行直接互動。 這種方法引數量低,緩解了 MLP 容易過擬合的問題,同時又可以快速地捕獲全域性感受野。

圖16:傳統 MLP 與本文提出的稀疏 MLP 對比示意圖

基於 sparse MLP,配合區域性偏置和金字塔結構這種對於圖片識別很重要的設計理念,該方法達到了和基於自注意力機制的方法一樣的效能。這說明自注意力機制並不是必須的,也希望本文可以啟發更多研究人員關注不基於自注意力機制的方法。

表9:在 ImageNet-1k 上與主流方法的效能比較

09

Shift 操作與 Transformer 的結合:一種高效的 Attention 替代方案

程式碼連結:

https://github.com/microsoft/SPACH

最近, Vision Transformer 的結構引起了研究者們的廣泛關注。在許多計算機視覺的任務中,Vision Transformer 都取得了領先的效能。那麼,由此引發的一個問題就是: Vision Transformer 效能優異的原因究竟是什麼? 

此前,許多研究者相信,自注意力機制(Self-Attention)是讓Vision Transformer 成功的主要原因。相比與常見的卷積操作,自注意機制提供了一種全域性的(global)、動態的(dynamic)方式去建模影象中的空間關係。但是,最近的一些研究表明,全域性性和動態性可能都不是必須的,例如 Swin Transformer 將全域性的 Attention 轉換為區域性的 Attention;MLP-Mixer 將動態的聚合權重變成了固定的全連線層。實驗證明,這些簡化都沒有損害自注意力機制的效能。為了進一步探索是什麼讓 Transformer 成功,微軟亞洲研究院的研究員們希望進一步去簡化 Attention 的模組。具體來說, 研究員們將簡化推向一種極端情況:沒有全域性性、沒有動態性、甚至沒有引數、沒有算術運算。這個操作就是鄰域的移位操作(Shift)。

移位操作在計算機視覺已經有了很成功的應用。所以研究員們借鑑了部分移位的設計,其結構如圖17所示。對於輸入的特徵,研究員們將一部分的通道向上、下、左、右四個方向分別移位一個畫素。通過這種方式,使得模型能夠獲取鄰域位置的資訊。

圖17:Shift 模組與標準注意力模組對比示意圖 

研究員們採用這個簡單的操作去替代 Swin Transformer 中的 Attention。令人驚訝的是,在許多視覺任務上,它的效果並不亞於 Swin Transformer。這說明 Transformer 成功的因素可能並不完全是由於 Attention :哪怕是這麼一個0引數量、0計算量的簡單操作都能夠取得相近的效能。因此,在今後的研究中,Transformer 的一些設計細節或許也應該受到大家的重視,例如訓練細節、歸一化的方式等等。在文章中,微軟亞洲研究院的研究員們也進行了一些初步的探討,希望能夠啟發大家的思考。

表10:與基準模型在各視覺任務中的效能對比

1 0-12論文的分享直播視訊

10

神經分段常時滯微分方程

論文連結:

https://arxiv.org/abs/2201.00960 

連續深度神經網路框架(如神經常微分方程),在時間序列分析、生成模型構建、物理系統建模等領域取得了廣泛的應用。但神經微分方程的微分同胚性質導致其不具備萬有逼近能力,無法表示一些簡單的函式,比如,反射函式f(x)=-x.。為了克服該問題,不少學者提出了相應的連續深度神經網路框架,例如增維神經常微分方程、神經時滯微分方程(neural delay differential equation, NDDEs)等。 

本文提出了一類 新的具有時滯的連續深度神經網路,稱為神經分段常時滯微分方程(neural piecewise-constant delay differential equations, NPCDDEs)。 與之前提出的 NDDEs 框架不同, 研究員們將單個時滯轉換為分段常時滯(piecewise-constant delay)。

圖18:模型框架示意圖

經過這樣轉換後的 NPCDDEs 一方面繼承了 NDDEs 中的萬有逼近能力的優勢,另一方面,NPCDDEs 考慮了多個過去時刻的資訊,進一步提高了模型能力。此外,研究員們還考慮了不同時段採用不同引數的 NPCDDE,稱之為 unshared NPCDDEs (UNPCDDEs),正如一般的前饋神經網路(如ResNets層與層之間的引數是不共享的)。並且研究員們還指出 ResNets 和 NODEs 都是 UNPCDDEs 的特殊形式。研究員們在不同資料集,包括1維分段常時滯種群動力學例項和影象資料集(MNIST, CIFAR10和SVHN)上,證明了 NPCDDEs/UNPCDDEs 的效能優於目前具有代表性的連續深度神經網路模型。

圖19:不同神經微分方程在1維分段常時滯種群動力學上的效能比較

表11:不同神經微分方程在 CIFAR10, MNIST, SVHN 影象資料集上的效能比較.

所有這些結果表明將動力系統的要素融入到現有的神經網路框架中,有利於連續深度神經網路的發展。

11

一致性資訊瓶頸在域泛化中的應用

論文連結:

https://arxiv.org/abs/2106.06333

領域泛化(Domain Generalization)旨在從不同的分佈中學習到一個泛化能力更好的模型。一致性風險最小化(IRM)(Arjovsky 2019)是領域泛化方向裡比較重要的演算法之一,其致力於尋求條件獨立於標籤的特徵分佈一致性(invariance of feature-conditioned label distribution)。但是 IRM 也存在著對於偽一致性特徵(pseudo-invariant features)的依賴,以及在資料分佈存在 geometric-skews 的時候,即資料都存在一部分偽特徵可以用於分類且資料量較大時(即P(z_sp * y) > 0.5),模型會偏向建立一個 short-cut classifier 用於分類,而非考慮資料中更廣為存在且一致性更強的特徵。 

微軟亞洲研究院的研究員們認為這種問題源自於對特徵的過度依賴,從而導致了 pseudo-invariance 和 geometric-skews 的存在。因此,研究員們在本文中 提出使用資訊瓶頸的方法對特徵的維度進行正則化約束,進而提出了一致性資訊瓶頸(Invariant Information Bottleneck,IIB) ,IIB旨在使用含有輸入資料資訊儘量少,且儘量在不同分佈間具有條件一致性的特徵用於建立分類模型。研究員們將 IRM 的優化目標寫成互資訊的形式,結合資訊瓶頸的互資訊優化目標,從而可以匯出 IIB 的互資訊優化目標,視作如下:

進一步,研究員們在神經網路框架下,採取變分推斷的方式逼近以上的互資訊目標。IIB 整體的結構如下:

圖20:IIB 整體結構

IIB 在公有的 DomainBed 資料集中表現良好,超越已有基線方法0.9%。

表12:IIB 在 DomainBed 資料集的表現

概括地講,IIB 在 IRM 的基礎上加入對特徵的資訊瓶頸(IB)約束,並且將 IRM 和 IB 的優化目標統一為互資訊形式加以變分推斷,進行優化。這種較新的優化方式能夠在用於檢驗 pseudo-invariance 和 geometric-skews 的合成數據集中相比於 IRM 有明顯的提升,同時也能在 DomainBed 這種大型的真實資料集中取得較好的效果。

12

使用點反饋與標準離線黑箱演算法的線上影響力最大化問題

論文連結:

https://arxiv.org/abs/2109.06077

本文研究了線上影響力最大化問題:玩家與未知社交網路進行多輪互動,每輪需要選取種子集合投放資訊,然後觀察社交網路上資訊傳播過程的反饋資料,據此學習網路引數並更新選取策略,最終最小化多輪互動的累積悔值,即每輪選取的集合與使得影響力最大化的最優集合的差距之和。

文獻中通常研究兩種反饋資料型別:點反饋和邊反饋。點反饋揭示哪些節點何時被啟用,邊反饋則額外揭示資訊經由哪些邊傳播。演算法設計中通常需要呼叫離線影響力最大化演算法幫助選擇每輪的種子集合。標準離線黑箱演算法只需優化種子集合本身,文獻中存在大量可高效實現的這類演算法;而非標準離線黑箱演算法需要同時優化種子集合和網路引數,這是難以實現的。

本文 針對獨立級聯(IC)和線性閾值(LT)傳播模型,各自設計了一個基於點反饋資料並且使用標準離線黑箱演算法的最優悔值線上演算法,改進了之前 IC 模型下基於邊反饋的演算法和LT模型下使用非標準黑箱的演算法。 本文提出變種極大似然估計方法來處理點反饋資料,通過定義並優化偽似然函式來學習網路引數。本文的分析能夠針對每個引數得到一個置信區間,從而使得呼叫標準離線黑箱演算法成為可能。而前人工作在使用點反饋資料時,只能針對引數向量得到一個高維置信域,從而必須呼叫非標準離線黑箱演算法。

看完今天的論文分享是不是還意猶未盡?想了解更多人工智慧領域學術界和產業界的前沿研究嗎?掃描下方二維碼,來 B 站觀看 AAAI 2022 論文分享會完整視訊回放!更多論文分享,也請關注 B 站“微軟中國視訊中心”賬號。

AAAI 2022 論文分享會 Part1

AAAI 2022 論文分享會 Part2

AAAI 2022 論文分享會 Part3

AAAI 2022 論文分享會 Part4

你也許還想看