訓練資料有缺陷?TrustAI來幫你!
2022年5月,百度正式釋出了首個集可信分析和增強於一體的可信AI工具集-TrustAI。近日TrustAI迎來重大更新。本次升級針對NLP領域資料標註的常見問題,如『訓練資料中存在髒資料阻礙模型效果提升』、『資料標註成本太高但又不清楚該標註什麼資料』、『資料分佈有偏導致模型魯棒性差』等,TrustAI釋出了多項功能幫助NLP開發者解決訓練資料缺陷問題,用最小的標註成本獲得最大幅度的效果提升。
TrustAI開源地址如下:
http://github.com/PaddlePaddle/TrustAI
下面將介紹TrustAI如何解決3類資料缺陷問題:
一、解決訓練資料存在髒資料的問題:自動識別髒資料,降低人力檢查成本
訓練資料標註質量對模型效果有較大影響,往往會成為模型效果提升的瓶頸。但當標註資料規模較大時,資料檢查就成為一個難題。
TrustAI提供了髒資料(即標註質量差的資料)自動識別功能,幫助降低人工檢查資料的成本。如圖一所示,在兩個公開資料集上,TrustAI自動識別的髒資料比例遠高於隨機選擇策略。
圖一 不同策略識別出的髒資料比例
進一步通過對10%的髒資料進行人工修正後,在相似度計算任務的原始測試資料和魯棒性測試資料上,模型效果可以分別提高2.13%和4.01%,如表一所示。
表一 修正髒資料後的實驗結果
二、解決訓練資料覆蓋不足的問題:標註儘量少的資料,提升模型效果
訓練資料覆蓋不足會導致模型在對應的測試資料上表現不好。資料擴充是提升模型效果直接的方法,然而資料標註是一個費時費力的工作,如何標註更少的資料帶來更大的效果提升是大多數NLP開發者面臨的難題。
TrustAI可識別因訓練資料覆蓋不足而導致的預測效果差的測試樣本(這些樣本構成的集合稱為目標集),並能幫助開發者從未標註資料中選擇有效資料進行標註,提高訓練資料對目標集的覆蓋度,進而提升模型效果。如表二所示,當增加20%的訓練資料時,TrustAI選擇的資料可顯著提升模型效果,在目標集上效果提升了14.41%,而隨機選擇的資料僅能帶來0.01%的提升。
表二 有效增強訓練資料的實驗結果
三、解決訓練資料分佈偏置的問題:緩解資料偏置對模型訓練的影響,提升模型魯棒性
研究表明,神經網路模型會利用資料集中的偏置作為預測的捷徑,如在情感分析任務中,遇到否定詞模型會傾向預測為“負向”情感。這種偏置會導致模型沒有真正理解語言,導致模型的魯棒性降低。
TrustAI提供了資料權重修正和資料分佈修正兩種優化策略,在不需要人工介入的條件下,緩解訓練資料偏置對模型訓練的影響,提升模型的語義理解能力,進而提升模型的魯棒性。如表三所示,在相似度計算任務的魯棒性測試集上,資料權重修正策略可帶來準確率0.94%的提升。在表四中,資料分佈修正策略在情感分析任務的魯棒性資料集上,可使模型準確率提升1.41%。
表三 資料權重修正的實驗結果
表四 資料分佈修正的實驗結果
以上是本次TrustAI開源的功能介紹,歡迎大家前往TrustAI主頁進行體驗和使用。
TrustAI支援pip一鍵安裝,歡迎大家瞭解更多技術詳情和使用方法,並貢獻你的 Star 和 Fork !!!
TrustAI專案地址: (點選 閱讀原文 即可直達)
http://github.com/PaddlePaddle/TrustAI
往期推薦
:link:
- 訓練資料有缺陷?TrustAI來幫你!
- 低程式碼平臺中的資料連線方式(上)
- 你一定愛讀的極簡資料平臺史,從資料倉庫、資料湖到湖倉一體
- 百度APP視訊播放中的解碼優化
- 如何輕鬆上手3D檢測應用實戰?飛槳產業實踐範例全流程詳解
- 四步做好 Code Review
- 百度智慧雲天工邊雲融合物聯網平臺,助力裝置高效上雲
- Redis 主從複製的原理及演進
- 面由心生,由臉觀心:基於AI的面部微表情分析技術解讀
- 大模型應用新正規化:統一特徵表示優化(UFO)
- 智慧大資料,看這本白皮書就夠了
- 效果提升28個點!基於領域預訓練和對比學習SimCSE的語義檢索
- 百度基於 Prometheus 的大規模線上業務監控實踐
- AI CFD:面向空天動力的科學機器學習新方法與新正規化
- 飛槳圖神經網路PGL助力國民級音樂App,創新迭代千億級推薦系統
- 全新快取元件,大幅加速雲上飛槳分散式訓練作業
- 知乎使用者畫像和實時資料的架構與實踐
- 全新快取元件,大幅加速雲上飛槳分散式訓練作業
- “千言”開源資料集專案全面升級:資料驅動AI技術進步
- 百度CTO王海峰:AI大生產平臺再升級 助力中國科技自立自強