訓練數據有缺陷?TrustAI來幫你!

語言: CN / TW / HK

2022年5月,百度正式發佈了首個集可信分析和增強於一體的可信AI工具集-TrustAI。近日TrustAI迎來重大更新。本次升級針對NLP領域數據標註的常見問題,如『訓練數據中存在髒數據阻礙模型效果提升』、『數據標註成本太高但又不清楚該標註什麼數據』、『數據分佈有偏導致模型魯棒性差』等,TrustAI發佈了多項功能幫助NLP開發者解決訓練數據缺陷問題,用最小的標註成本獲得最大幅度的效果提升。

TrustAI開源地址如下:

https://github.com/PaddlePaddle/TrustAI

下面將介紹TrustAI如何解決3類數據缺陷問題:

一、解決訓練數據存在髒數據的問題:自動識別髒數據,降低人力檢查成本

訓練數據標註質量對模型效果有較大影響,往往會成為模型效果提升的瓶頸。但當標註數據規模較大時,數據檢查就成為一個難題。

TrustAI提供了髒數據(即標註質量差的數據)自動識別功能,幫助降低人工檢查數據的成本。如圖一所示,在兩個公開數據集上,TrustAI自動識別的髒數據比例遠高於隨機選擇策略。

圖一 不同策略識別出的髒數據比例

進一步通過對10%的髒數據進行人工修正後,在相似度計算任務的原始測試數據和魯棒性測試數據上,模型效果可以分別提高2.13%和4.01%,如表一所示。

表一 修正髒數據後的實驗結果

二、解決訓練數據覆蓋不足的問題:標註儘量少的數據,提升模型效果

訓練數據覆蓋不足會導致模型在對應的測試數據上表現不好。數據擴充是提升模型效果直接的方法,然而數據標註是一個費時費力的工作,如何標註更少的數據帶來更大的效果提升是大多數NLP開發者面臨的難題。

TrustAI可識別因訓練數據覆蓋不足而導致的預測效果差的測試樣本(這些樣本構成的集合稱為目標集),並能幫助開發者從未標註數據中選擇有效數據進行標註,提高訓練數據對目標集的覆蓋度,進而提升模型效果。如表二所示,當增加20%的訓練數據時,TrustAI選擇的數據可顯著提升模型效果,在目標集上效果提升了14.41%,而隨機選擇的數據僅能帶來0.01%的提升。

表二 有效增強訓練數據的實驗結果

三、解決訓練數據分佈偏置的問題:緩解數據偏置對模型訓練的影響,提升模型魯棒性

研究表明,神經網絡模型會利用數據集中的偏置作為預測的捷徑,如在情感分析任務中,遇到否定詞模型會傾向預測為“負向”情感。這種偏置會導致模型沒有真正理解語言,導致模型的魯棒性降低。

TrustAI提供了數據權重修正和數據分佈修正兩種優化策略,在不需要人工介入的條件下,緩解訓練數據偏置對模型訓練的影響,提升模型的語義理解能力,進而提升模型的魯棒性。如表三所示,在相似度計算任務的魯棒性測試集上,數據權重修正策略可帶來準確率0.94%的提升。在表四中,數據分佈修正策略在情感分析任務的魯棒性數據集上,可使模型準確率提升1.41%。

表三 數據權重修正的實驗結果

表四 數據分佈修正的實驗結果

以上是本次TrustAI開源的功能介紹,歡迎大家前往TrustAI主頁進行體驗和使用。

TrustAI支持pip一鍵安裝,歡迎大家瞭解更多技術詳情和使用方法,並貢獻你的 StarFork !!!

TrustAI項目地址: (點擊 閲讀原文 即可直達)

https://github.com/PaddlePaddle/TrustAI

  往期推薦  

:link:

可視化神器背後的奧祕

6000字,詳解數據倉庫明星產品背後的技術奧祕

“智感超清”之HDR技術落地實踐