Active Relation Discovery: Towards General and Label-aware OpenRE

語言: CN / TW / HK

Active Relation Discovery: Towards General and Label-aware OpenRE

ACL2022 —— 匿名預列印版本

Source: Active Relation Discovery: Towards General and Label-aware OpenRE

Code: Active Relation Discovery: Towards General and Label-aware OpenRE

Abstract

開放關係抽取(OpenRE)旨在從開放域中發現和標註新的關係。以往的方法主要存在兩個問題: (1 )對已知關係和新關係的區分能力不足 。當將傳統的測試設定擴充套件到更一般的設定時,其中 測試資料也可能來自已知類 ,現有OpenRE方法的效能會出現顯著下降。(2) 實際應用前必須進行二次標註 。現有的方法無法自動為新關係標註出 易讀、有意義 的型別,然而這是下游任務迫切需要的。為了解決這些問題,本文提出了主動關係發現(ARD)框架,該框架利用關係異常檢測來區分已知和新關係,並引入主動學習來標記新關係。在三個真實世界的資料集上進行的大量實驗表明,在傳統和本文提出的一般OpenRE設定上(general OpenRE),ARD的效能顯著優於SOTA。

Introduction

開放關係抽取旨從開放域資料集中在發現和抽取潛在的新關係。新關係以每年數萬種的速度出現,而大多數迅速出現的關係仍 未被標記未被充分探索 ,且 混雜著預定義的關係 。由於受限於固定的預定義關係架構,現有的有監督關係抽取方法是無法很好的處理新關係識別。一些工作注意到了新關係識別的困難及挑戰,並開始探索開放域關係抽取。之前的開放域關係抽取工作主要分為兩種主要路線: 基於模式和基於聚類 。基於模式的方法利用統計或者 機器學習 方法來 啟發式提取關係模式 ,基於聚類的方法則 將表示同一新關係的例項聚成簇 ,然而在真實應用場景下,先前的工作主要有兩個缺陷:

  1. 先前的方法 廣泛使用傳統設定 ,然而傳統的設定並不能全面的反應OpenRE在真實世界的情況。具體來說,傳統的OpenRE設定下, 測試集沒有已知關係,僅存在新關係 。因此,模型僅僅需要鑑別新關係。固然,對新關係進行鑑別是所有OpenRE模型的必要能力,但是 區分已經關係和新關係的能力同樣很重要 。在真實世界中, 已知關係和新關係是混在一起的 ,因此在測試階段假定我們不會遇到已知關係是不真實的。但在傳統設定下,現有的OpenRE模型顯然沒有學到這種區分已知關係和新關係的能力。根據上述事實,本文在一個通用OpenRE設定上評估現有的OpenRE模型:測試資料也可能來自已知關係。經驗實驗表明,SOTA模型在這種情況下表現不佳。PS: 通用OpenRE設定就是指測試集既包含已知關係,也包含新關係。
  2. 在實際應用之前,當前OpenRE方法輸出的 結果需要二次標註 。換句話說,對於一個確定的新關係,模型不能為它指定一個具有 特定含義的表面名稱 。這是由於新關係都是沒有預定義導致的。作為一系列下游任務的基礎,具有實際意義的標籤是迫切需要的。然而,由於缺乏人類知識,基於模式和基於聚類的方法都缺乏將新關係型別命名為 人類可讀且有意義 的能力。基於模式方法嚴重依賴於表面形式短語,但實體之間的關係通常不能直接由句子中的某個跨度(Span)表示。基於聚類的方法僅僅是將表示同一關係的例項聚成簇,並沒有提供具體的新關係表示。這兩種方法都需要手動重新標記新發現的關係。模型和實踐之間的這種差距阻礙了現實場景中的模型應用。

為了解決以上兩個缺陷,本文提出了主動關係發現框架(Active Relation Discovery),主要是針對兩方面提升:

(1)為了避免模型被混有已知關係和新關係的情況迷惑,本文提出了一個關係異常檢測演算法來區分已知關係和新關係。通過將新關係當作異常點,實現通用OpenRE設定下的效能穩定性。

(2)為了給新關係分配有意義的標籤,融合人類知識是不可避免的。為了最小化人工成本,本文提出了一種主動學習演算法。具體地,本文引入 表示性例項 ,這種例項能夠提供新關係的豐富資訊(或者說代表性資訊)。只有少數具有代表性的例項需要人工標註,然後模型可以在監督下自動標註新關係。

Task Formulation

General OpenRE: 訓練集 ,其中 預定義好的已知關係 集合,且均 已標註 。此外,我們假定存在一個關係集合 ,其中 僅包含無標註的新關係 。因此,我們的任務設定是:在真實場景中,我們需要處理一個關係既包含 的資料集。具體流程為:首先我們區分已知關係和新關係,然後對每個例項進行標註。

在這種設定下,我們首先考慮新關係發現,其中我們僅關注新關係的挖掘。在該階段,我們首先在 上預訓練一個模型,並獲得一個訓好的編碼器 。接著對於一個具體的資料集(測試集), ,模型需要無監督的將 分為已知關係集合 和新關係集合 。其中, 能夠根據 的大量知識進行標註。因此,第二步我們需要關注新關係 的標註,在這一階段,我們基於主動學習的啟發,利用有限的人工成本來提高新關係標註的效能。我們的模型查詢 中的一小部分代表性樣本集合,然後對它們進行人工標註,接著用這些標註例項來訓練分類器,進行自動標註新關係。

Methodology

Overview

整體框架分為三部分:

  • 關係表示學習(Relation representation):將例項的關係語義對映為低維度的稠密表示。
  • 關係異常檢測(Relational Outlier Detection):模型自動從真實資料集中檢測新關係,得到新關係集合並作為主動學習模組的輸入。
  • 關係主動學習(Relational Active Learning):模型選擇最具代表性(資訊量最大)的例項集合來訓練一個優質的分類器,並對新關係進行標註。

Relation Representation

給定一個數據集 ,其中 是一個token序列 ,且有兩個已標記的實體 。我們使用關係三元組 來表示關係 以及對應的實體對。對應的,我們有 來代表例項表示關係 。具體來說,我們定義 四個特殊的標記 來定為頭實體和尾實體的起始和終止位置,定義 的索引為START(h)和START(t)。由此,一個例項可以被表示為以下形式:

接著,我們使用預訓練語言模型(比如說BERT),來編碼每個token ,得到對應的表示 ,其中 是embedding的維度。對於任意的 ,我們級聯 頭實體和尾實體起始位置 對應的表示 來作為關係的語義表示: ,其中 為該實體對應的關係標籤。這些額外標記的作用類似於傳統RE任務中的位置嵌入,關係表示 接下來會用於預測關係型別 。

如前面所說, 用於微調預訓練語言模型,除了傳統的交叉熵損失,我們引入了有監督對比損失:

其中, 是在一個batch中不同的i的所有正樣本索引集合。對比loss的目標是讓類內的例項更加緊湊,類間例項更加分散。本質上是為了獲得對異常值檢測和主動學習更友好的關係表示。

Relational Outlier Detection

預訓練之後,編碼器 能夠將例項 編碼為稠密向量 作為關係表示。在特徵空間中,由於語義的相似性,表示同一關係的表示傾向於密集聚集(形成n個獨立的簇),表示不同關係的表示傾向於分散。由於例項所表示的看不見的關係沒有經過預先訓練,換句話說,模型沒有看到語義,因此例項沒有投影到任何叢集附近。如下圖所示:

給定任意兩個例項 對應的關係表示 ,我們定義 是兩個表示之間的歐氏距離。接著,我們定義第k距離 來表示

與第k個最近鄰居之間的距離。

根據上述定義,我們定義

之間的 可達距離 (reachability distance)為

接著,我們計算密度來度量可達距離的平均距離:

其中, 表示所有在 第k距離內的點。密度越大,說明該點更可能在一個簇中,如果這是個散點,那麼它的密度會很小。

最後,我們計算 區域性異常因子

其中,LOF越大, 就更可能是一個異常點,也就是新關係。

Relational Active Learning

在關係異常檢測之後,模型會將測試集分為已知關係集合 和新關係集合 。對於 ,它能夠被準確的標註,因此我們只需要關注為新關係標註有意義的關係型別。為了檢索人類可讀的標籤,避免隨後的二次標籤,我們需要通過主動學習將人類知識納入關係學習階段。我們的主要目的是找到一小部分 資訊量最大 的例項,然後人工標註它們。接著,我們使用標註過的資料來有監督的訓練一個分類器。那麼應該如何找到資訊量最大的新關係例項呢?這個問題可以轉換為如何找到 最有可能表達“新關係”的例項 的問題。根據這個問題,本文提出了一種關係主動學習模組。一開始,我們隨機標註一小部分 中的資料。令已經標註過的資料集為 ,未標註過的資料集為 ,PS: 均為 的子集。根據潛在分佈P(x),我們假設所有例項 都是i.d.d(獨立同分布資料)。相應地,它們的標籤為條件分佈 。關係主動學習主要包含三個元件:Neural Encoder, Discriminator, Active learning

Neural Encoder

我們使用一個神經元編碼器來學習 的在潛在特徵空間下的分佈。PS:框架是獨立於編碼器的選擇的,這裡採用BERT作為編碼器。神經元編碼器的作用是將

編碼到同一個特徵空間,接著嘗試 愚弄 鑑別器,讓它正確預測例項是否具有“代表性”。因此,編碼的損失函式為

這是一個二分類交叉熵,目的是先讓編碼器知道什麼樣本是具有代表性的(即已標註樣本)。

Discriminator

鑑別器是一個二進位制分類器, 用於選擇資訊量最大的樣本,1代表該樣本資訊量大。我們通過對抗訓練來利用 的資訊。鑑別器的目的是通過對抗訓練,以便 準確地分辨例項是否表示新的關係

最終我們聯合優化上述兩個目標函式:

Active Learning

在每個訓練step,我們選擇 個 鑑別器輸出最高置信度 的例項作為 最具有代表性例項 ,接著這些例項會被人工標註,然後用於訓練分類器。現在,需要進一步討論人工標註。考慮到關係數量的爆炸性增長,需要設計一個支援線上和持續學習新關係的標註過程。為此,本文提出了一種實用、易於實現的標註過程。一開始,對於每個被選擇的例項,標註者只需要判斷是否 中有相同的關係型別例項。如果 中沒有相同的關係例項,那麼它會被認為是新的關係,否則標註為已知關係。程式完成後,關係的標準比主動學習開始前更容易設計。這種方式有效地保證了我們框架的持續學習和線上學習的能力,方便地適應實際情況。隨後, 會被輸入到一個MLP分類器,通過以下損失優化

關係主動學習模組的整體流程如下:

Experiments

分別在傳統和通用OpenRE下評估,資料集為NYT+FB,FewRel,FewRel2.0.

部分資料處理 :傳統設定對應Ori版本,每種資料集的通用OpenRE設定分為noisy和imbalanceed版本。為了獲得噪聲版本,我們從原始訓練集中隨機選擇40%的樣本。考慮到在FewRel和FewRel2.0中,每個新關係的樣本數量是相同的,我們進一步構造了不平衡版本來探索存在類不平衡時模型的效能。具體來說,我們在噪聲版本的基礎上,隨機丟棄測試集中每個關係類具有不同概率的一部分樣本,從而導致測試集中的類不平衡。

Main Results

從主實驗結果看來,我們有以下結論: (1) ARD優於SOTA的模型。與其他半監督方法相比,差距更大,ARD提高了25個點以上。這證明了ARD可以 有效地發現和學習新關係的表示 ,而成本只佔人工成本的一小部分。 (2) baselines模型從原始版本到噪聲版本再到不平衡版本的效能普遍一致地下降。這表明通用OpenRE設定對於真實場景來說 更具挑戰性和實用性 。RSN-CV的F1分數從原始到噪聲急劇下降19.5。相比之下,ARD模型在噪聲和不平衡上的表現都優於原始版本。這表明 關係發現過程和關係主動學習在不同場景下是魯棒的 。 (3) SOTA模型在FewRel2.0上表現不佳。這完全是意料之中的,因為測試集中的例項來自非通用和低資源領域,如生物醫學。另一方面,ARD仍然顯示出較強的穩定性,證實了 模型的跨領域能力

Analysis on Active Learning

  • The Efficiency of Active Learing

Table 2顯示了本文主動學習方法與各種主動學習基線模型的結果,可以觀察到,在每個epoch中,我們的模型優於其他模型,這表明我們的方法可以一致地取樣資訊樣本。

  • The Impact of Different Encoder and Scope of Query

下圖顯示了在不同編碼器和查詢範圍下的實驗結果。“查詢範圍”表示 的比值,我們還探索了β-VAE和BERT作為編碼器的影響。同時,我們報告了使用30%的隨機選擇和 的全部量進行訓練時的結果。結果表明: (1) 一般情況下,模型效能與 規模成正比。但隨著樣本數量的增加,結果略有改善。但當查詢範圍為40%時,該模型仍然產生更好的效能。 (2) VAE與BERT編碼器的比較符合直覺。雖然VAE具有直觀性,易於訓練,但BERT在實證結果上仍具有優勢。 (3) 288個樣本(約佔 訓練樣本的8%)訓練的模型的效能與隨機選擇30%的模型相似。當使用全量的 訓練時,F1比ARD高6.1%,而人力成本是ARD的12倍。結果證明了ARD的有效性。

  • Analysis on Relational Outlier Detection

ARD採用新關係發現模組區分已知關係和新關係,保持主動學習模組更有效地選擇知識性新關係而不受已知關係的干擾。為了證明新關係發現的有效性和意義,我們對三種有噪聲版本的LOF演算法進行了消融實驗。實驗結果如Table 4所示,我們注意到: (1)儘管主動學習對新關係具有較強的魯棒學習能力,但去除LOF演算法後,模型效能表現出不同程度的退化。 (2)在FewRel、NYT+FB和FewRel2.0資料集上,F1分數在每個epoch的平均下降幅度分別為2.82、8.02和6.36,其中NYT+FB下降幅度最大。這種現象是直觀的,因為資料集包含了最多已知關係,噪聲(已知關係)越多,主動學習模組對新關係就越困惑。結果表明,該關係發現模組在 降噪方面起到了關鍵作用

Discussion

本文首次指出了傳統OpenRE設定下的兩種缺陷,並提出了關係異常檢測和關係主動學習來促進模型在通用OpenRE下的新關係識別。這種設定以及方法更加貼近真實的業務場景,值得借鑑。