訓練資料有缺陷?TrustAI來幫你!

語言: CN / TW / HK

2022年5月,百度正式釋出了首個集可信分析和增強於一體的可信AI工具集-TrustAI。近日TrustAI迎來重大更新。本次升級針對NLP領域資料標註的常見問題,如『訓練資料中存在髒資料阻礙模型效果提升』、『資料標註成本太高但又不清楚該標註什麼資料』、『資料分佈有偏導致模型魯棒性差』等,TrustAI釋出了多項功能幫助NLP開發者解決訓練資料缺陷問題,用最小的標註成本獲得最大幅度的效果提升。

TrustAI開源地址如下:

http://github.com/PaddlePaddle/TrustAI

下面將介紹TrustAI如何解決3類資料缺陷問題:

一、解決訓練資料存在髒資料的問題:自動識別髒資料,降低人力檢查成本

訓練資料標註質量對模型效果有較大影響,往往會成為模型效果提升的瓶頸。但當標註資料規模較大時,資料檢查就成為一個難題。

TrustAI提供了髒資料(即標註質量差的資料)自動識別功能,幫助降低人工檢查資料的成本。如圖一所示,在兩個公開資料集上,TrustAI自動識別的髒資料比例遠高於隨機選擇策略。

圖一 不同策略識別出的髒資料比例

進一步通過對10%的髒資料進行人工修正後,在相似度計算任務的原始測試資料和魯棒性測試資料上,模型效果可以分別提高2.13%和4.01%,如表一所示。

表一 修正髒資料後的實驗結果

二、解決訓練資料覆蓋不足的問題:標註儘量少的資料,提升模型效果

訓練資料覆蓋不足會導致模型在對應的測試資料上表現不好。資料擴充是提升模型效果直接的方法,然而資料標註是一個費時費力的工作,如何標註更少的資料帶來更大的效果提升是大多數NLP開發者面臨的難題。

TrustAI可識別因訓練資料覆蓋不足而導致的預測效果差的測試樣本(這些樣本構成的集合稱為目標集),並能幫助開發者從未標註資料中選擇有效資料進行標註,提高訓練資料對目標集的覆蓋度,進而提升模型效果。如表二所示,當增加20%的訓練資料時,TrustAI選擇的資料可顯著提升模型效果,在目標集上效果提升了14.41%,而隨機選擇的資料僅能帶來0.01%的提升。

表二 有效增強訓練資料的實驗結果

三、解決訓練資料分佈偏置的問題:緩解資料偏置對模型訓練的影響,提升模型魯棒性

研究表明,神經網路模型會利用資料集中的偏置作為預測的捷徑,如在情感分析任務中,遇到否定詞模型會傾向預測為“負向”情感。這種偏置會導致模型沒有真正理解語言,導致模型的魯棒性降低。

TrustAI提供了資料權重修正和資料分佈修正兩種優化策略,在不需要人工介入的條件下,緩解訓練資料偏置對模型訓練的影響,提升模型的語義理解能力,進而提升模型的魯棒性。如表三所示,在相似度計算任務的魯棒性測試集上,資料權重修正策略可帶來準確率0.94%的提升。在表四中,資料分佈修正策略在情感分析任務的魯棒性資料集上,可使模型準確率提升1.41%。

表三 資料權重修正的實驗結果

表四 資料分佈修正的實驗結果

以上是本次TrustAI開源的功能介紹,歡迎大家前往TrustAI主頁進行體驗和使用。

TrustAI支援pip一鍵安裝,歡迎大家瞭解更多技術詳情和使用方法,並貢獻你的 StarFork !!!

TrustAI專案地址: (點選 閱讀原文 即可直達)

http://github.com/PaddlePaddle/TrustAI

  往期推薦  

:link:

視覺化神器背後的奧祕

6000字,詳解資料倉庫明星產品背後的技術奧祕

“智感超清”之HDR技術落地實踐