論文淺嘗 | Continual Learning for Named Entity Recognition

語言: CN / TW / HK

筆記整理:李淑怡,天津大學碩士

動機

在許多真實任務下,常常需要引入新的實體型別,因此需要重新訓練命名實體識別模型。當因為儲存或安全問題限制對原始資料的訪問時,那麼為新實體型別重新標註原始資料的成本將會是高昂的。而現有的持續學習方法又很容易出現災難性遺忘問題(catastrophic forgetting)。因此作者提出通過蒸餾學習保留先前學習的現有知識,使原模型指導新模型學習新的實體型別的持續學習方法。在CoNLL-03資料集和OntoNotes資料集上實驗表明,該方法允許模型漸進地能學習新的實體型別,還能保留先前學習的知識。

亮點

本文的亮點主要包括:

1. 該方法只需要標註新的實體,通過知識蒸餾保留原模型的知識,使得新的模型在原有模型的指導下學習新的實體型別,解決了災難性遺忘問題。 2. 實驗結果表明,該方法能夠使得模型在不丟失先前知識的情況下學習新的實體型別。

概念及模型

該方法使用Teacher-Student的知識蒸餾框架,分為兩個階段:

1、訓練原模型Teacher:首先在原有資料集 上訓練一個命名實體識別模型  ,訓練時神經網路最後一層的輸出使用以下softmax函式計算:

其中, 一個溫度引數,通常設定為1。

2、訓練新模型Student:當引入新的實體型別 時,我們的目標是學習一個新模型       能夠標記  中的所有句子。為了使Student保留原模型的知識,將Teacher和Student之間的KL距離作為新模型訓練的軟目標,從而避免災難性遺忘問題。Student在資料集  上訓練,  包含新的實體型別(帶標籤)也包含原有的資料(不帶標籤)。論文中,作者提出了兩種產生新模型方法AddNER Model和ExtendNER Model。

AddNER Model

在該方法中,新模型 對原模型  克隆並且新增一層新的輸出層來識別新的實體型別  。因為資料集  中僅  中的句子帶有標籤y,為了防止災難性遺忘問題,使用知識蒸餾。這意味著每一句話都要經過  的指導,即通過  為  產生軟目標。因此,  的損失函式不僅需要包含得到的新的實體型別的預測值與真實標籤之間的交叉熵損失  ,還需要包含原模型的分佈  與新模型的分佈  之間的KL距離  。因此,  的損失函式為:

其中,α和β是平衡兩個損失的貢獻的超引數。

由於AddNER包含多個輸出層,因此需要合併多個輸出結果,對於這個問題,作者提出了一個啟發式演算法:

如果所有層的預測結果均為O(即其他),則輸出結果為O。 如果恰有一層的預測結果為B(即實體的起點),而其他層預測為O,則輸出結果為B。 如果有多層的預測結果為B,而其餘層預測為O,則以最高概率輸出結果為B。 如果一層預測結果為I(即實體內),當且僅當它上一個字的標記為B或I。否則這一層的輸出結果為O,並且再次應用該啟發式演算法來確定最終輸出。

ExtendNER Model

在該方法中,新模型 對原模型  的克隆並且擴充套件輸出層,即增加新的緯度以識別新的實體型別  。同樣的,在訓練時,新模型  依然需要考慮兩種損失以在不丟失先前知識的情況下學習新的實體型別,當y=O時,計算原模型的分佈  與新模型的分佈  之間的KL距離  。當y≠O,即該詞被標記為  中的新實體型別時,計算新的實體型別的預測值與真實標籤之間的交叉熵損失  。總的損失函式也可以表示為:

最終的標籤經Viterbi演算法獲得。

理論分析

實驗

作者採用了2個公開資料集進行實驗,分別是CoNLL-03資料集和OntoNotes資料集,見表1和表2。模型的評價指標為準確率、召回率和F1。

針對該任務, 首先作者提出了四個問題並針對這四個問題展開實驗和討論:

遷移學習是否可以在原有的模型基礎上學習新的實體型別?

實驗在遷移學習上對比了凍結編碼層和不凍結編碼層的效果。在CoNLL-03資料集上,凍結編碼層的整體F1得分為57.49,而不凍結編碼層的整體F1得分為56.21。在OntoNotes資料集上效果則更差。這表明,無論是否凍結編碼器,轉移學習方法都不實用於持續學習環境下的命名實體識別任務。

在持續學習的環境下,AddNER和ExtendNER模型之間有區別嗎?

其次作者對比了使用知識蒸餾的兩種Student模型的效果,實驗表明兩種方法對結果的影響不顯著,因此後文中僅報告ExtendNER Model的結果。

當新的資料集只進行少量的標註時,通過知識蒸餾Student模型是否能有效地學習?

圖3展示了各個模型在該任務上的F1得分,該結果表明,該方法明顯優於使用硬標籤方法和無監督學習方法。儘管其效能不如完全監督的方法,但是總體而言在該方法能在顯著減少標註資料的條件下保持相對良好的效能。

學生模型在學習新的實體型別時是否保留了以前學習的實體型別的知識?

為了研究這個問題,作者逐步跟蹤模型在其學習實體型別上的結果。結果如圖4所示總體而言,F1得分保持不變或者逐步增加。這表明,隨著引入新的實體型別,該方法不僅能學習到如何標註新的實體型別,還能保留先前學習的知識。

總結

本文提出了一個基於持續學習的命名實體識別方法。展示瞭如何在Teacher-Student框架中通過知識蒸餾來防止持續學習下遺忘已獲得的知識的問題。實驗結果也證明了本文提出的方法的有效性。作者稱,在未來,也許可以考慮整合學習一個CRF層來考慮標籤之間的全域性依賴關係。

OpenKG

OpenKG(中文開放知識圖譜)旨在推動以中文為核心的知識圖譜資料的開放、互聯及眾包,並促進知識圖譜演算法、工具及平臺的開源開放。

點選 閱讀原文 ,進入 OpenKG 網站。

「其他文章」