單考慮分佈偏移遠不夠!真實資料很複雜,「外部有效性」不可或缺

語言: CN / TW / HK

作者丨 Deborah Raji

解讀 | Antonio

編輯丨陳彩嫻

資料分佈偏移(data distribution shift)是可信人工智慧系統熱衷於考慮的一個話題,每年關於它的相關研究數不勝數。然而,僅關注分佈偏移就足夠了嗎?

近期,紐約大學AI Now研究所的技術研究員Deborah Raji在UC伯克利助理教授Benjamin Recht的個人部落格argmin上發表了對這一話題的看法。

她對於學界過度關注分佈偏移感到擔憂,認為更應該考慮統計上一個相關概念,即外部有效性(external vadality)。

1

資料分佈偏移

資料偏移一直在可信人工智慧上的一項“殺手鐗”。例如,由美國史詩系統公司研發、被密歇根大學醫院廣泛應用的敗血症識別模型在2020年4月由於頻繁出現虛假報警,而被緊急叫停。據分析,這是因為新冠大流行導致的人口地理學特徵發生了變化才使得模型出現偏差。

這是資料分佈偏移的一個例子:當測試集的資料與訓練集的資料分佈發生變化時候,模型無法有效遷移到新的應用場景下導致出錯。

這和不斷變化的本質相關:真實世界的資料往往是動態的、變化的、不確定的,例如軟體部署變化,人口遷移,行為變化,語言演變等,如果模型不將這些予以考慮,就會出現系統性偏差。

Benjamin Recht發表過這樣一個另一驚訝的 研究 ,他們重新按照ImageNet的資料收集方式收集了一批新的測試集,用原有的模型對新測試集進行準確性測試,發現瞭如下的結果:

其中,橫軸代表在原始資料測試集的測試效能,縱軸代表新資料集上的測試效能,藍色的每個點代表一個模型的結果,紅色的線則是對它們的線性擬合,黑色的虛線y=x代表理論上測試結果應該具有的表現。

可以看出,儘管二者之間仍然存線上性相關,即在原資料集上表現好的,在新的資料集也表現得很好,反之亦然;然而,它們之間仍相差將近15%的差距,這就是由於資料分佈偏差所導致的。這裡的偏差可能來自不同的標註者偏好,不同的資料收集過程等等。

2

研究現狀

Deborah Raji承認研究這種現象的重要性,但她認為ML的研究者們太過於執著於關注分佈偏移這一話題了,以至於很多情況下將模型的任何失誤都歸因於了分佈偏移,而她認為這是不合適的。

首先,她認為“分佈偏移”這一問題有時候太過具體,有時候又不夠具體。任何資料上的變化都可以認為是一種“分佈偏移”,例如資料特徵本身的變化、資料標籤的變化以及二者都發生的變化。

另一方面,這一術語又太寬泛模糊了。“資料分佈”這個概念自身就需要假設資料來自一個假象的“真實”分佈中,而現實可以觀察到的資料則是從這一整體分佈中獨立同分布的取樣資料。然而這個分佈是什麼呢?沒人知道——真實資料混亂、無序、不可預知。

資料分佈偏移了,可是哪些部分發生了變化,為什麼它們發生,這些都無從得知。

Deborah Raji進而警告道,對於這一術語的痴迷會如何限制ML社群的發展。一個表現是,現在的社群熱衷於開發檢測資料分佈偏移的基準測試,以此來聲稱測試偏移的程度。然而這些資料是靜態的、理想的,無法適應真實世界更加複雜的資料。

有些研究已經開始得出結論:過度強調資料分佈偏移已經使得ML實踐者和政策制定者更專注於回顧性研究(retrospective studies),而非前瞻性研究(prospective studies)。前者針對於靜態收集的歷史性資料而言,後者則更加著重於系統的上下文背景。

回顧性研究與前瞻性研究

為此,Deborah Raji希望研究可以更加轉向“有效性”(validity)這一概念。有效性是統計中測度論(measurement theory)中的重要概念,用以衡量系統的可信賴性。有效性又包含內部有效性(internal validity)和構建有效性(construct validity)。當討論泛化性的時候,我們更關注於外部有效性(external validity)。

3

外部有效性

外部有效性衡量模型如何泛化到其它場景、設定。這些測試的設定往往不是實驗原有的環境,並且考慮到不僅僅是資料方面的變化。

Deborah Raji以一篇文章為例,這篇發表在JAMA的,名為“在住院患者中廣泛使用的敗血症預測模型的外部有效性分析”對於開頭中的那個例子中的模型做了更加詳盡的“外部有效性”分析。

外部有效性分析模型的論文

網址:https://jamanetwork.com/journals/jamainternalmedicine/article-abstract/2781307

首先這篇文章描述了一項關於 2018 年 12 月至 2019 年 10 月期間(尤其是在大流行開始之前)使用敗血症模型的回顧性研究。他們檢查了接受38,455 次住院治療的27,697名患者,發現Epic模型預測敗血症發病的曲線下面積為 0.63,而“這比其開發人員報告的效能要差得多”。

此外,該工具“未識別出 1,709 名敗血症患者(67%),因此造成了很大的虛假報警。”

這些研究人員正確地將這些問題描述為“外部有效性”問題,並詳細研究了它們,這遠遠超出了“臨床醫生和資料集偏移”——一個靜態的偏移資料集中描述的資料分佈偏移。

對於Epic 系統的評估是基於 2013 年至 2015 年 3 個美國衛生系統的資料,這與密歇根大學 2018-2019 年的患者記錄資料不同。但該評估不僅僅考慮資料問題,還評估了醫生與模型互動的變化以及這些變化如何影響結果,以及其他與資料幾乎沒有關係的外部有效性因素——這遠超過了資料分佈偏移。

即使在討論實質性的資料更改時,研究者們也會試圖具體描述它是什麼,並具體分析在他們醫院部署時發生的差異。

4

關於作者

作者Deborah Raji是奈及利亞裔加拿大電腦科學家和活動家,她致力於研究演算法偏見、人工智慧問責制和演算法審計。她曾與 Google 的Ethical AI 團隊合作,並曾在紐約大學AI和AI Now研究所的合作伙伴關係中擔任研究員,致力於研究如何在機器學習工程實踐中考慮道德因素,曾於AI公正性研究的 Timnit Gebru 做過同事,也曾獲得過該領域多個獎項。

Deborah Raji與Ben Recht已經在這個外部有效性這一話題上已經展開了很多深入的討論,後續關於這一問題的探討也會陸續放在arg min的部落格上,感興趣的讀者可以關注檢視~

參考 部落格:

https://www.argmin.net/2022/03/31/external-evaluations/

http://www.argmin.net/2022/03/15/external-validity/

雷峰網 (公眾號:雷峰網)

雷峰網版權文章,未經授權禁止轉載。詳情見 轉載須知

「其他文章」