大資料時代,無處不在的“暗資料”

語言: CN / TW / HK

本文來自微信公眾號: 普林斯頓讀書匯(ID:PrincetonUP_CHINA) ,作者:PUP China,原文標題:《解碼“暗資料”:大資料時代,如何用缺失的資料正確決策?》,頭圖來自:視覺中國

在大資料時代,一種常見的“傲慢”是,我們已經擁有了海量的資料,足以做出正確的決策。事實上,正如宇宙的大部分由“暗物質”組成,資訊的宇宙也充滿了“暗資料”陷阱:如果我們對缺失的資訊視而不見,就可能陷入謬誤而不自知。

那麼,如何控制“暗資料”帶來的影響?如何在資訊缺失的世界中做出理性決策?英國皇家統計學會前主席 David J. Hand 在 Dark Data: Why What You Don't Know Matters 中研究了大量現實生活中的例子,從挑戰者號太空梭爆炸到複雜的金融欺詐,對暗資料的型別和可能出現的情況進行了分類,並給出瞭如何識別、控制、甚至利用暗資料的建議。

正文

讀過Significance (Dalal, S. 2016. From risk toresiliency. Significance, 13(1), 42–43.) 一書的讀者,應該對1986年“挑戰者”號太空梭災難背後的統計故事並不陌生。這起事故的原因僅涉及7個數據點——但它卻造成了7名宇航員的死亡。

相關的統計故事圍繞著一張圖表展開,這張圖表展示了前七次航天飛機發射時的氣溫與火箭助推器各部分的接頭密封是否損壞之間的關係。這張圖表顯示兩者之間除了隨機變異性,似乎沒有其他關係。 然而,這張圖表存在著一個重大的缺失:它並未包括沒有接頭密封損壞的發射點資料。 如若有這些資料,人們會從圖表中得出完全不同的推論:發射時,空氣溫度越高,接頭密封的損壞率就越小。

如果人們看到了完整的資料,這場由於發射時低溫導致的災難就不會發生。然而,正是由於缺少資料,人們產生了錯誤的推斷,並最終導致助推火箭在九英里的高空爆炸,七名宇航員全部遇難。

“挑戰者”的案例中缺失的資料,是暗資料 (darkdata) 的一種。正如這個例子所說明的,也正如在我的書 Dark Data: Why What You Don’t Know Matters 中所研究的, 忽略暗資料的後果可能是災難性的——它會造成財產損失、名譽受損,甚至人員傷亡。

未知的資料

暗資料是人們缺失的資料,也可能是人們認為自己擁有、盼望擁有、或者但願擁有的資料。但歸根結底,不管人們是否意識到了暗資料,暗資料都是人們沒有的資料。暗資料現象的存在——這些在我們嘗試理解世界時缺失的資料,會導致我們誤解現實,誤判世界的執行方式,做出糟糕的預測,或是犯錯,就像“挑戰者”號的例子所揭示的一樣。

醫療診斷是一個暗資料現象多發的領域。相關診斷標準以及閾值並非一以貫之,而是隨著時間、以及人們對相關病理的理解加深而變化。這些變化可以揭示以往隱藏的、或者說並未發現的疾病機理。

例如,根據Huang等人的研究,全世界大約有三分之一的糖尿病病例未得到診斷,這項研究將之歸因於傳統血糖測試的缺陷。同樣,自閉症最初於1980年被納入《精神障礙診斷與統計手冊》 (Diagnostic andStatistical Manual of Mental Disorders) ,而自閉症的診斷定義在1987年和1994年發生了變化,更多的人被納入自閉症的診斷範圍。

當然,由於定義的改變導致病例數的增加或減少,這種現象並非醫學界獨有。在其他領域,比如市場中,對於“失業”的不同定義會導致不同的統計結果。再比如,在撰寫此文時,全世界都在面對的新冠肺炎疫情,在這場疫情應對中,人們也面臨著各種暗資料,比如有關無症狀患者的資料。

統計學家非常熟悉一些特定種類的暗資料。一個典型的例子是,問卷調查的受訪者拒絕回答某些問題。 在這種情況下,不迴應其實也暗含著特定的資訊。 這種現象較為普遍地出現在選舉前的民意調查中,囿於社會壓力 (比如政治正確) ,人們可能不願意袒露自己的真實想法。

不迴應是一個全球性的問題,而這在英國勞動力調查 (UK LabourForce Survey) 中尤其明顯。在過去十年中,該調查的整體迴應率從55.5%下降到38.6%。從幾十年前開始,人們就嘗試用各種方法來解決不迴應的問題,雖然統計學家們做出了許多嘗試,但問題並沒有得到根本性解決,統計學家無法創造奇蹟。暗資料持續影響著人們進行推斷,並影響著結論的準確性。

發現“暗資料”

和問卷調查中暗資料一樣,其他地方的暗資料無處不在。

以資料缺失或者不可測量形式出現的暗資料尤其有害。設想一下,如果沒有性別資料,測量歧視是多麼困難。

資料收集方法上的隱蔽改變,也可能導致以前可見的資料變得不可見,或者以前不可見的資料可見。Moz,一家搜尋引擎優化公司維護著一個網頁。這個網頁上記錄了谷歌搜尋演算法多年來所有的更新和變化。根據Moz的說法,“在2018年,谷歌報告了3234次更新——平均每天近9次,這是2009年更新頻次的8倍多。雖然這些變化的程度大多很小,但谷歌偶爾也會推出重大的演算法更新……這會對搜尋結果產生重大的影響。”

倖存者偏差 (survivorbias) 是一些領域中比較常見的暗資料現象。 例如,投資基金業績的直接排名,只包括那些在評估期間倖存下來的基金。而那些已經淘汰了的基金就成為了暗資料。因為一般來說,退出的那些是表現最差的基金。除非有意識地考慮到這一點,否則業績的總體衡量結果將會向上偏移。這種現象可能會很明顯。在投資管理公司Vanguard的一項研究中,只有超過一半的基金在15年的研究期記憶體活下來。而在臨床試驗中,類似的現象也可能出現。

即便人們認為自己的資料中不存在選擇性偏誤 (selectiondistortions) ,暗資料也可能以其他的形式出現並掩蓋真相。除開簡單的計數,沒有任何測量是完全精確的——即便是可以精確到小數點後無數位。這意味著人們的觀察結果必然只是近似的;分析的數值並不是確定值,而只是估計值。而這種形式的暗資料——通過舍入 (rounding) 簡化或估計數值——會導致錯誤的結論,因為它會使彙總的統計資料產生偏差,或者會導致錯誤的分類。

與舍入相關的一個現象是截斷 (truncation) ,代表著人們只知道真實值與某個閾值的相對大小 (大於或小於) 。例如,水銀溫度計不會記錄低於水銀冰點 (freezingpoint) 的數值;體重計不會記錄高於其上限的數值。

我的書給出了15種類型的暗資料,包括上文描述的這些,以及其他的一些型別:比如整體變數的缺失 (missingentire variables) ,以及由於時間變化造成的扭曲 (distortions) 。更有甚者,不同型別的暗資料並不互斥,而可以同時出現,甚至形成合力,干擾人們的觀察和判斷。我認為,這些你不知道的資料 (暗資料) ,至少和你所知道的資料一樣重要,如果你希望得出有效的結論的話。

處理暗資料的常見方法

我寫這本書主要是為了提高人們對暗資料的危險的認識。人們在進行分析時,往往沒有充分考慮到資料的來源和出處。比如,機器學習 (MachineLearning) 演算法雖然總會給出一個輸出,但輸入資料很可能是片面的,或者帶有誤導性的。急於得出結論,可能反而適得其反: 對資料的不嚴謹考量,會在之後浪費更多的時間。

但前景並不都是暗淡的,處理暗資料的工具已經開發出來了。

第一步是檢測暗資料——或者說,檢測顯示出資料缺口的視窗。有時候這很容易,比如調查問卷中的空白回答,就是一個視窗。當然,有時候發現視窗很困難。

然後,一旦人們意識到可能存在資料的缺失,處理暗資料的關鍵策略,就是利用這種認知,即“你知道自己不知道”的認知 (use what you do know about what you don’t know)

許多相關的簡單方法已經被提出,甚至被整合到統計軟體包中。它們包括完整的案例、記錄於單個變數上的所有值,以及替換觀測值的平均值。不幸的事,這些方法並不總是盡如人意。就暗資料而言,使用這些簡單甚至不言自明的方法,甚至可能會讓人們陷入更大的麻煩中 參見“用平均值代替缺失值的問題” “The Problemwith Substituting Averages for Missing Values” 章節)

更有效的方法紮根於理解和假設——理解產生暗資料的機制的性質,用更復雜的方法,基於對觀測值和暗資料之間的關係進行建模,從而產生諸如多重插補 (multipleimputation) 和期望值最大化演算法 (theexpectation-maximization algorithm) 等工具。但正如我之前所言,統計學家無法創造奇蹟。因此很多時候我們必須使用假設的方法,來理解為什麼資料是黑暗的。

利用“暗資料”

文行至此,我已經描述了那些偶然出現 (而非人為製造) 的暗資料。但有時候,人們會故意製造暗資料 (比如欺詐者) 。而其他普通人、比如像此刻正在閱讀的你一樣,你也會使用暗資料,例如密碼,來保護資料免受窺探。這代表了對暗資料的積極使用。

對暗資料更復雜的積極應用,也發生在我稱之為“對無知的戰略應用”中 (the strategic application ofignorance)

比如在臨床試驗中設定實驗組和對照組,向患者們隱藏真正的治療情況。再比如用隨機迴應的方法 (randomizedresponse methods) 提取敏感資訊。當我們進行模擬時,我們生成了可能是但不是的資料 (datawhich might have been) 。當我們在分類演算法 (classification algorithms) 中使用提升方法 (boosting) 時,我們可以建立誤分類案例 (misclassifiedcases) 的虛擬副本 (imaginarycopies) 。我們對資料添加了一個輕微的擾動來其正則化 (regularize) ,這時我們也就生成了新的資料來使模型有更好的魯棒性 (robustness) 。當我們寫下貝葉斯先驗 (Bayesian prior) 時,我們會聯想到過去的可能資料……

回到本文開篇的故事,“挑戰者”災難。一個統計學家看到七個資料點的原始圖表時,應該要產生懷疑。該圖似乎表明,每次發射時,至少有一個密封存在問題:五個單密封問題,一個雙密封問題,一個三密封問題。沒有不存在問題的發射。這在本質上令人驚訝——如果密封問題是獨立的,那麼它們的出現也是偶然的,我們會期望存在沒有密封問題的發射出現。帶有這種意識的懷疑,至少會帶來對太空梭的進一步調查。然後人們會發現, 以前沒有問題的發射資料,都從圖表中被刪除了。而恰恰是這些被刪除的資料,會揭示暗資料的存在。

本文來自微信公眾號: 普林斯頓讀書匯(ID:PrincetonUP_CHINA) ,作者:PUP China