Missing Financial Data

語言: CN / TW / HK

摘要: 在因子投資中,當協變數存在缺數問題時,除了填充截面或行業均值/中位數,是否還有更好的方法?

01

協變數缺數是因子投資中繞不過的坎兒,而這個問題在另類資料中尤甚。缺數,顧名思義,就是在特定的歷史時刻、對特定的股票來說、某個協變數的取值是缺失的。這個問題廣泛存在於因子投資和實證資產定價研究之中。

在面對缺數問題時,常見的做法是填充截面均值/中位數,或者行業均值/中位數,或者上一期的值(假設上一期沒有缺數)。這些似乎是人們約定俗成的做法,從來也沒有人去質疑上述處理方式的合理性。(另外一種更加粗暴的方式是,把缺數的資產排除在分析之外,但這會造成 sample selection bias。)

然而,它們真的合理嗎?

要想搞清楚這個問題,就必須回答一系列具體的問題:資料缺失在時序和截面上是隨機的嗎?還是有何種相關性(比如小市值的股票更容易缺失某些變數)?不同公司的協變數之間是否存在截面上和時序上相關性,能否利用它們更好的填充缺失的資料?無腦排除缺數的股票,對實證資產定價有怎樣的影響(比如在因子溢價估計方面)?對現實世界中的投資機會又有怎樣的影響(比如是否會損害可能構造的最大夏普比率)?

當意識到存在如此之多尚待回答的問題時,就很難再對“約定俗成”做法可能存在的潛在危害無動於衷。好訊息是,學界在這方面的一些最新研究成果,有助於幫助人們回答上述問題(雖然是針對美股)。在應對實證資產定價的缺數問題方面,近期兩篇頗有代表性的 working papers 是 Freyberger et al. (2021) 以及 Bryzgalov et al. (2022)。

由於 Svetlana Bryzgalova 和 Markus Pelger 兩位都是我非常欣賞的新生代學者,今天就來簡要介紹 Bryzgalov et al. (2022) 一文。本文的題目也照搬了該文的標題,特此說明。

02

Bryzgalov et al. (2022) 考察了美股中最常用的 45 個公司特徵(下表),缺數存在 4 點 stylized facts。

Fact 1: 缺數問題廣泛存在於上市公司之中,受影響的公司佔據了一半的市場總市值。無論公司市值是高是低,無論公司的歷史是長是短,又無論公司的經營情況是好是壞,都有可能出現缺數的問題。

以美股中重要的 5 個變數為例——賬面市值比(B2M)、operating profitability(OP)、investment(INV)、leverage(LEV)以及real investment to book value(DPI2A)——下圖展示了它們在時序上的缺數變化情況。從(a)和(b)中不難看出,隨著時間的推移,缺數的比例在下降,不過仍然存在於所有變數。而(c)和(d)表明,無論是考察季度資料還是月度資料變數,以及無論考察大市值公司還是小市值公司,缺數問題都是存在的。

Fact 2: 當分析中需要用到眾多協變數時(比如利用機器學習演算法),缺數問題的影響更加嚴重。

同樣是上述 45 個變數,下圖展示了不同允許缺數變數個數下,公司佔比隨時間的變化。比如,圖中藍色曲線代表 = 0 的情況,即要求不存在任何變數的缺失。在這個約束下,滿足條件的公司僅佔不到 30%。換句話說,如果研究中同時使用上述 45 個協變數且要求僅使用沒有任何缺數的公司,那麼 70% 的公司都會被排除在外。

Fact 3: 公司特徵的缺失並非隨機的。比如,很多基本面變數可能用到了同樣的會計學條目來計算,那麼一旦該條目缺數,就會影響基本面變數的計算;又比如,對於歷史時間較短的公司,一些長週期的量價變數(比如中期動量和長期反轉)自然也就無法計算。

下圖(a)展示了 1981 年 4 月實際的缺書情況,其中橫軸為 45 個公司特徵,縱軸為公司 index。圖(b)展示了假想的隨機缺失的情況。如果缺數是隨機的,那麼我們在不同的變數上應該觀察到無序的隨機性,如圖(b)所示。而真實情況下(圖(a))則顯示了截然不同的情況,很多公司在不同的變數上均存在缺數的情況。

仍以前述 5 個公司特徵為例,下圖(a)考察了不同市值分組下的缺失比例,可見小市值(第 1 組)相對大市值組(第 5 組)的缺數問題更加嚴重;圖(b)則以變數本身進行分組,考察了每組的缺數程度。看到這裡有的小夥伴也許會問:如果變數都缺數了還怎麼分組?這裡的處理方法是利用股票在該變數上取值的均值作為分組的依據。結果顯示,當按照變數排序時,最小的組(第 1 組)和最大的組(第 5 組)往往缺數問題最為嚴重。由於因子或異象通常是通過這兩組多空對衝構造的,因此這兩組缺失嚴重無疑是進行實證資產定價或因子投資的夢魘。

另一方面,由於變數本身的構造機制以及使用的資料的差異,不同變數的缺數存在異質性。這些問題均使得“約定俗成”的中位數或均值填充不再合理(因為均值或中位數是有偏的)。

下面兩圖分別展示了每個變數自身的時序自相關性以及不同變數的截面相關性。從中不難發現,一些變數在時序上的自相關性非常高(比如市值),有些則為零(比如特質波動率 iVol);此外,很多變數的截面相關性很高。這些結果表明,不同變數的缺數問題存在特質性,而為了找到比“約定俗成”更好的填數方法,需要充分利用變數在時序和截面上的資訊。

Fact 4: 股票的收益率與公司是否缺數有關,對實證資產定價的研究結果(比如簡單如 portfolio sort)造成了複雜的影響。

03

為了利用變數的截面和時序資訊,Bryzgalov et al. (2022) 針對公司特徵協變數構造了一個隱性多因子模型。

以截面資訊為基礎,該模型的重要因素如下面這張 slide 所示(其中 表示公司特徵,上標 表示時間, 表示股票, 表示變數)。該文利用 PCA 估計隱性多因子模型,並使用 Xiong and Pelger (2019) 的方法應對估計中的缺數問題。

PCA 結果顯示,公司特徵之間表現出了很強的因子結構;使用 6 個因子就可以捕捉絕大部分截面上的變化。此外,這些因子也有很強的經濟學解釋。圖(b)展示了樣本外填充的公司特徵的 RMSE 隨隱性因子個數的變化。

有了基礎的截面模型,Bryzgalov et al. (2022) 進一步添加了時序的公司特徵,構造了同時包括截面和時序資訊的隱性因子模型。

最後我們來看看不同模型和“約定俗成”模型在樣本外的表現。不過這裡先插一句,在前述的介紹中,就提到了樣本外 RMSE 的計算。有小夥伴可能會問:既然是缺數,怎麼算是“樣本外”?這裡的處理方法是,刻意隱去(masking)一部分觀測到的公司特徵(隨機選擇,記為 OOS MAR 或者在選擇上保留時序連續性,記為 OOS Block),用剩餘觀測資料進行建模,然後用這部分隱去的資料進行樣本外評估。評估結果如下表。

以我標出的 local B-XS 和 local XS 兩個模型為例,它們都是單期條件模型,其中 B-XS 用到了截面資訊和歷史時序資訊,XS 僅用到了截面資訊。另外兩個“約定俗成”模型是 XS-median,即截面中位數填充和 ind-median,即行業中位數填充。結果顯示,無論是在樣本內還是在樣本外(OOS MAR 或 OOS Block),通過主成分分析得到的預測均優於“約定俗成”模型,即它們的預測誤差更低,且改進非常明顯。

另一方面,從 local B-XS 和 local XS 兩個模型結果的差異可知,補充了時序資訊後能夠進一步提高預測準確性,說明時序和截面資訊對於填充缺數來說同樣重要。對於一些時序上自相關性很強的變數,上述隱性因子模型能夠更多地利用時序資訊;而對於那些截面上資訊更重要的變數,該模型則更多地利用截面資訊。換句話說,該模型並不依賴於人們對於 missing patterns 的假設,而是能夠從資料中發現並加以利用。

最後來看兩個具體的例子。考慮 Microsoft 和 Hasbro 兩個公司,考慮 operating profitability 和 iVol 兩個變數。圖中灰色的區間是留出的 OOS 區間,圖中 0.0 的水平線表示“約定俗成”做法的填充。從這兩個例子中可以看到,無論是對於 OP 這種比較穩定的變數,還是對於 iVol 這種上躥下跳的變數,模型都能給出不錯的填充結果,遠遠優於填充 0.0。

04

以上和各位一起簡要瀏覽了 Bryzgalov et al. (2022) 一文的核心內容和結果。在近日的一個 talk 中,Bryzgalov 提到她們後續會把填充好的資料掛出來,供學界和業界使用。當有了更合理填充後的公司特徵後,一些傳統的異象或因子的表現是否會發生顛覆性的改變?答案令人期待。

另一方面,Bryzgalov et al. (2022) 對於缺數的研究還給了我另外的一個強烈的感受。近年來,機器學習演算法已經被廣泛應用於實證資產定價和因子投資之中。然而,越來越多的研究表明,在如此低信噪比的金融領域,指望“資料發聲”的粗暴做法是不切實際的。反而是小到資料如何標準化、不同的協變數如何進行縮放,如何選擇正則化的方式等每一個具體的細節決定著應用機器學習演算法的成敗。

Bryzgalov et al. (2022) 關於缺數的研究毫無疑問再次說明了這一點。一個看似不起眼的填充決定,也許就會改變應用機器學習的結果。而到底應該使用哪種資料處理方式(例如“約定俗成” vs. 該文同時利用時序和截面資訊構造的隱性模型)背後顯然也應該有足夠的經濟學推導作為指引。這些看似很小的差異,也許在其他高信噪比的機器學習應用領域難以產生太大的影響,但對於實證資產定價的成功來說,可能正是必不可少的一環。

More to come …

參考文獻

  • Bryzgalov, S., S. Lerner, M. Lettau, and M. Pelger (2022). Missing financial data. Working paper.
  • Freyberger, J., B. Hoppner, A. Neuhierl, and M. Weber (2021). Missing data in asset pricing panels. Working paper.
  • Xiong, R. and M. Pelger (2019). Large dimensional latent factor modeling with missing observations and applications to causal inference. Journal of Econometrics forthcoming.

免責宣告: 入市有風險,投資需謹慎。在任何情況下,本文的內容、資訊及資料或所表述的意見並不構成對任何人的投資建議。在任何情況下,本文作者及所屬機構不對任何人因使用本文的任何內容所引致的任何損失負任何責任。除特別說明外,文中圖表均直接或間接來自於相應論文,僅為介紹之用,版權歸原作者和期刊所有。

原創不易,請保護版權。如需轉載,請聯絡獲得授權,並註明出處。已委託“維權騎士”( 維權騎士-版權保護 版權知識 原創檢測 識別字體 著作權登記 ) 為進行維權行動。