論文淺嘗 | Continual Learning for Named Entity Recognition
筆記整理:李淑怡,天津大學碩士
動機
在許多真實任務下,常常需要引入新的實體型別,因此需要重新訓練命名實體識別模型。當因為儲存或安全問題限制對原始資料的訪問時,那麼為新實體型別重新標註原始資料的成本將會是高昂的。而現有的持續學習方法又很容易出現災難性遺忘問題(catastrophic forgetting)。因此作者提出通過蒸餾學習保留先前學習的現有知識,使原模型指導新模型學習新的實體型別的持續學習方法。在CoNLL-03資料集和OntoNotes資料集上實驗表明,該方法允許模型漸進地能學習新的實體型別,還能保留先前學習的知識。
亮點
本文的亮點主要包括:
1. 該方法只需要標註新的實體,通過知識蒸餾保留原模型的知識,使得新的模型在原有模型的指導下學習新的實體型別,解決了災難性遺忘問題。 2. 實驗結果表明,該方法能夠使得模型在不丟失先前知識的情況下學習新的實體型別。
概念及模型
該方法使用Teacher-Student的知識蒸餾框架,分為兩個階段:
1、訓練原模型Teacher:首先在原有資料集
其中,
2、訓練新模型Student:當引入新的實體型別
AddNER Model
在該方法中,新模型
其中,α和β是平衡兩個損失的貢獻的超引數。
由於AddNER包含多個輸出層,因此需要合併多個輸出結果,對於這個問題,作者提出了一個啟發式演算法:
• 如果所有層的預測結果均為O(即其他),則輸出結果為O。 • 如果恰有一層的預測結果為B(即實體的起點),而其他層預測為O,則輸出結果為B。 • 如果有多層的預測結果為B,而其餘層預測為O,則以最高概率輸出結果為B。 • 如果一層預測結果為I(即實體內),當且僅當它上一個字的標記為B或I。否則這一層的輸出結果為O,並且再次應用該啟發式演算法來確定最終輸出。
ExtendNER Model
在該方法中,新模型
最終的標籤經Viterbi演算法獲得。
理論分析
實驗
作者採用了2個公開資料集進行實驗,分別是CoNLL-03資料集和OntoNotes資料集,見表1和表2。模型的評價指標為準確率、召回率和F1。
針對該任務, 首先作者提出了四個問題並針對這四個問題展開實驗和討論:
• 遷移學習是否可以在原有的模型基礎上學習新的實體型別?
實驗在遷移學習上對比了凍結編碼層和不凍結編碼層的效果。在CoNLL-03資料集上,凍結編碼層的整體F1得分為57.49,而不凍結編碼層的整體F1得分為56.21。在OntoNotes資料集上效果則更差。這表明,無論是否凍結編碼器,轉移學習方法都不實用於持續學習環境下的命名實體識別任務。
• 在持續學習的環境下,AddNER和ExtendNER模型之間有區別嗎?
其次作者對比了使用知識蒸餾的兩種Student模型的效果,實驗表明兩種方法對結果的影響不顯著,因此後文中僅報告ExtendNER Model的結果。
• 當新的資料集只進行少量的標註時,通過知識蒸餾Student模型是否能有效地學習?
圖3展示了各個模型在該任務上的F1得分,該結果表明,該方法明顯優於使用硬標籤方法和無監督學習方法。儘管其效能不如完全監督的方法,但是總體而言在該方法能在顯著減少標註資料的條件下保持相對良好的效能。
• 學生模型在學習新的實體型別時是否保留了以前學習的實體型別的知識?
為了研究這個問題,作者逐步跟蹤模型在其學習實體型別上的結果。結果如圖4所示總體而言,F1得分保持不變或者逐步增加。這表明,隨著引入新的實體型別,該方法不僅能學習到如何標註新的實體型別,還能保留先前學習的知識。
總結
本文提出了一個基於持續學習的命名實體識別方法。展示瞭如何在Teacher-Student框架中通過知識蒸餾來防止持續學習下遺忘已獲得的知識的問題。實驗結果也證明了本文提出的方法的有效性。作者稱,在未來,也許可以考慮整合學習一個CRF層來考慮標籤之間的全域性依賴關係。
OpenKG
OpenKG(中文開放知識圖譜)旨在推動以中文為核心的知識圖譜資料的開放、互聯及眾包,並促進知識圖譜演算法、工具及平臺的開源開放。
點選 閱讀原文 ,進入 OpenKG 網站。
- 論文淺嘗 | 弱監督下極簡的視覺語言預訓練模型
- 論文淺嘗 | FL-MSRE:一種基於小樣本學習的多模態社會關係抽取方法
- 論文淺嘗 | PASSLEAF: 一個用於不確定知識圖譜嵌入的基於樣本池的半監督學習框架
- 認知智慧國家重點實驗室榮獲開放知識圖譜問答評測冠軍
- 論文淺嘗 | KR-GCN: 知識感知推理的可解釋推薦系統
- 論文淺嘗 | Continual Learning for Named Entity Recognition
- 論文淺嘗 - ICLR2022 | OntoProtein:融入基因本體知識的蛋白質預訓練
- 論文淺嘗 | DSKReG:基於關係GNN的推薦知識圖譜可微抽樣
- 論文淺嘗 | 採用成對編碼的圖卷積網路用於知識圖譜補全
- 論文淺嘗 | 改善多語言KGQA的 Zero-shot 跨語言轉換
- 圖譜實戰 | 面向C端場景的概念圖譜構成、建設與應用索引
- 論文淺嘗 | KGNLI: 知識圖譜增強的自然語言推理模型
- 圖譜實戰 | 徐美蘭:深度應用驅動的醫學知識圖譜構建
- 論文淺嘗 | PairRE: 通過成對的關係向量實現知識圖譜嵌入
- 論文淺嘗 | 面向視覺常識推理的層次語義增強方向圖網路
- 開源開放 | 中國近代歷史人物知識圖譜
- 論文淺嘗 | Wordly Wise(WoW) - 用於語音視覺知識問答的跨語言知識融合模型
- 論文淺嘗 | GaussianPath: 用於知識圖譜推理的貝葉斯多跳推理框架
- OpenKG開源系列 | 面向知識的推理問答程式語言KoPL(清華大學)
- 論文淺嘗 | ERNIE-ViL:從場景圖中獲取結構化知識來學習視覺語言聯合表示