False In-Sample Predictability?

語言: CN / TW / HK

摘要: Martin and Nagel (2019) 指出投資者 high-dimensional learning 有可能造成樣本內虛假的可預測性。

01

讓我們從兩組實證結果說起。

下圖是 Fama and French (2015) 五因子(除了 SMB)和 Carhart (1997) 動量因子在 1963 到 2008 年之間的表現,無一例外的,它們都獲得了顯著的超額收益。由於時間跨度和相關論文所涉及的實證區間接近,我們可以把它們視作樣本內的表現。

再來看看樣本外……

怎麼說呢?“此時無聲勝有聲”。

看完了美股,再來看看 A 股上中國版四因子的表現。下圖統計了市場、SMB、VMG(基於 Earnings-to-Price ratio 構造的價值因子)以及 PMO 四因子在樣本內、外以及全樣本的表現(樣本的劃分是根據該模型的論文)。

Again,“此時無聲勝有聲”。

此處無意進一步探討因子的表現,只是想通過這兩個例子引出本文要探討的內容。在過去的 30 年,學術界提出了大量樣本內顯著的因子和異象(zoo of factors),然而絕大多數在樣本外都無法持續。至於這背後的原因,目前有兩種主流看法。一種是由於多重假設檢驗,大多數因子都是 p-hacking 的結果(Harvey, Liu, and Zhu (2016));另一種則是因子在樣本外之所以變差是因為套利者把它們交易了(McLean and Pontiff (2016))。

而今天要解讀的 Martin and Nagel (2019) 則給出了第三種可能。該文題目是 Market Efficiency in the Age of Big Data,作者是 Ian Martin 和 Stefan Nagel。看過上期推文的小夥伴會知道這就是我說的 Stefan Nagel 的背靠背的第二篇。針對大量樣本內顯著樣本外消失的可預測性,該文提出了一個新穎的視角 —— high-dimensional investor learning

正如下圖所描繪的,在大資料時代,人們面對著指數級增長的資料量,而能夠影響公司未來基本面的變數也在無限擴張(例如會計報表資料,公司財報中的措辭,分析師一致預期,量價資料,公司所處行業的景氣度,以及各種巨集觀經濟變數和其他另類資料)。在這個背景下,傳統的實證資產定價檢驗受到了巨大的挑戰。

傳統實證資產定價假設理性預期(rational expectation),即假設投資者知道哪些變數影響公司基本面以及它們和基本面的關係,即基本面預測變數 對投資者是已知的,並在這個前提下通過歷史資料(在樣本內)檢驗市場有效性。一旦原假設被拒絕便認為變數獲得的超額收益代表著風險補償或定價錯誤。

然而,Martin and Nagel (2019) 指出,在大資料時代,投資者根本無法知道到底哪些變數能夠影響公司基本面,以及變數和基本面之間的關係 到底是什麼樣。取而代之的是在高維引數空間的學習問題,即估計 到底長什麼樣、引數是多少。 在理性預期正規化下,不存在投資者對 的學習問題,因此樣本內檢驗發現的可預測性可以直接推廣到樣本外。然而,一旦投資者需要估計 且估計存在誤差時,通過樣本內檢驗發現的可預測性則無法再保證樣本外的可預測性。

從直觀上來理解,這是因為投資者高維學習問題會導致均衡狀態下資產的價格和理性預期情況下相比出現偏差;該偏差的存在將造成事後(ex post)從計量經濟學家的視角來看,已實現收益率不再隨機,而是包含了一部分可預測的成分;因此當人們事後用統計檢驗分析變數和收益率的關係時,會誤以為某些變數對收益率有預測性(且在高維問題下,即變數越來越多時,這個偏差造成的影響愈加明顯)。

但實際的情況是,對投資者來說,這種可預測性在事前(ex ante)是感知不到的;對進行事後檢驗的計量經濟學家來說,樣本內的可預測性僅僅是源自由投資者學習 而導致的資產定價的偏差,因而是虛假的,這些變數在樣本外並不能預測收益率。

因此,該文主張 high-dimensional investor learning 是諸多樣本內 false discoveries 的另一個潛在原因,而唯有樣本外的可預測性才真正代表風險補償或錯誤定價。下圖高度總結了該文。

下面就來深度解讀這篇文章。

02 Model Setup

本節介紹 Martin and Nagel (2019) 使用的模型。

代表資產數, 代表投資者用來預測資產未來現金流的變數(firm characteristics)的個數,令 階矩陣)表示 個公司的 個變數。不失一般性且為了簡化推導,假設 。進一步假設 代表資產的分紅,而分紅高低是投資者對資產估值的依據。模型假設 dividend growth 和 滿足如下線性模型:

由上式可知,模型中假設 不隨時間變化。在現實世界中,firm characteristics 當然會隨時間發生變化,且 dividend growth 也完全有可能是 的非線性函式,但是允許 時變或考慮非線性將會使得研究 learning 問題的難度陡然增加(就現在這個簡單的設定而言,問題本身已經十分複雜)。由於 Martin and Nagel (2019) 是第一篇通過建模研究 investor learning 對 asset pricing 和 return predictability 影響的文章,因此他們決定儘量簡化模型[1]。

在模型中,引數向量 決定了變數如何影響資產未來 dividend growth 的變化,而它也正是投資者在高維變數空間中需要估計的(learning)。 模型假設 滿足多元正態分佈:

其中 是一個常數, 階單位矩陣。這個假設的核心是 的方差和 (變數的個數)成反比。它對模型儘可能貼合現實世界至關重要。這是因為上述假設保證了無論 怎麼變,模型中的信噪比都是不變的。如果沒有這個約束,則隨著使用的變數越來越多, 中可解釋的部分將會越來越大,遠超過噪音 ,這顯然是不切實際的。以上就是關於資產基本面的建模。

接下來是關於投資者的設定。該文假設投資者是風險中性(risk-neutral)以及同質的(homogeneous)。此外,他們還假設無風險收益率為 0。在風險中性 + 無風險收益率為 0 下,資產的 risk premium 為零,因此稍後對模型求解時發現的任何 in-sample return predictability 都不應歸結為 risk premium(因為 risk premium 已經在模型中被排除了)。同質性則意味著所有投資者對於 的估計是一樣的,不會因人而異,且投資者之間不會相互學習。

有了資產和投資者,接下來就要開始研究投資者如何對資產估值、確定其均衡狀態下的價格,以及在這個過程中造成的資產收益率的可預測性。 為了簡化,Martin and Nagel (2019) 使用了單期估值模型。由於投資者是風險中性且利率為零,因此 期資產的價格等於 期分紅在 時刻的期望:

由上式可知,均衡狀態下資產的價格 取決於投資者如何形成 的預期,即由投資者如何形成關於 的預期決定。而由於 ,因此 最終和投資者如何在高維變數空間估計 密切相關。 從計量經濟學家事後檢驗的角度出發,投資者在高維空間下對 的(不準確)估計如何影響資產的價格,以及這種影響是否能夠造成任何樣本內(虛假的)可預測性呢? 這就是 Martin and Nagel (2019) 想要回答的問題。

03 Rational Expectation

在探討 investor learning 之前,我們先來看基準,即理性預期的情況。

理性預期下假設投資者知道真實的 (即無需估計),因此有 ,以及 。利用下期 和理性預期下的資產價格 ,就可以計算出realized price change,即收益率(Martin and Nagel (2019) 將 realized price change 稱作“收益率”,本文遵循這一術語使用):

在理性預期下,由於投資者無需估計 ,因而有 。這意味著哪怕是事後檢驗來看,樣本內也沒有任何可預測性。為說明這一點,假設事後使用 進行截面迴歸,得到迴歸係數向量:

由於 ,將其代入有:

從實證資產定價檢驗的角度來說,我們關注的是事後聯合檢驗 是否顯著偏離零 —— 顯著偏離零意味著有(樣本內)的可預測性。利用統計檢驗, 滿足 分佈,因此只要利用實際的樣本資料就可以對其檢驗。由 的定義可知,在理性預期下,任何偏離零都是由於噪音 造成的。

除了直接聯合檢驗 ,我們也可以從另一個角度理解。令 ,並考慮以 為權重構造的投資組合(這對應了常用的樣本內構造投資組合並檢驗其收益率)。該投資組合的收益率為:

滿足 分佈可知,該投資組合的預期收益為:

在沒有任何可預測性的原假設下,該投資組合在樣本內的預期收益為 ,它之所以大於零僅是因為對樣本內噪音的過擬合。在事後檢驗中,常規操作就是考察該投資組合的收益率是否顯著的偏離 。如果發現顯著的偏離,人們會認為 可以預測 ,並把可預測性歸結於風險補償或投資者的系統性偏誤。然而,若投資者不知道真實的 ,而是需要對它估計(learning)時又會怎樣呢?估計的不準確是否會造成上述原假設被錯誤地拒絕呢(即樣本內虛假的可預測性)?

04 OLS Learning

首先來看最簡單(但稍微不太滿足實際)的情況 —— 投資者直接使用 OLS 來估計 ,即 OLS learning。至於為什麼說它稍微不滿足現實,我們放到第 5 節介紹 Bayesian Learning 時討論。

為估計 ,假設投資者首先計算全部 期 dividend growths 的均值:

然後用 迴歸有:

和理性預期(上一節)不同,由於投資者不知道真實的 ,而是通過 OLS 估計,因此這將影響他們對資產未來 dividend growth 的估計 。在這個情況下,均衡狀態下資產的價格為:

而 realized return 為:

站在投資者在 時刻的視角,他們是無法察覺對 的估計有偏誤的,因此對於投資者來說, 依然是不可預測的,正如理性預期一樣。 然而,對於事後進行統計檢驗來說,上述通過 OLS 估計的 是否影響檢驗結果呢?

定義 ,因而有 。將該式代入 的表示式並進行簡單代數運算有:

將其代入 的表示式可得:

怎麼樣,在 OLS learning 下, 看著和理性預期下不一樣了。下表對它們進行了對比:

和理性預期相比,投資者對 的 OLS 估計造成 realized return 中多出了一項,即 。因此,當我們如常進行事後統計檢驗時,收益率對 的迴歸係數 就變成了:

與理性預期相比,OLS learning 造成事後檢驗的迴歸係數 中也多了一項(上式中第一項)。觀察該項,從直覺上可知,如果 中的某些 firm characteristics 和誤差 正相關或者負相關時,就很有可能造成 聯合起來顯著偏離零且原假設被(錯誤地)拒絕。

如果我們仍然從投資組合收益率的視角來解讀,那麼在 OLS learning 下,可以推匯出該投資組合的預期收益中同樣包含兩項,較理性預期的情況下多了一項:

沒有可預測性的原假設下, 的預期是 (理性預期的情況)。然而,由於 OLS learning 造成了額外的一項 。當 很小,或者 (用來預測 dividend growth 的變數的個數)非常大的時候(即 high-dimensional learning 問題), 這一項將會造成 相對 的顯著偏離,使得事後統計檢驗拒絕原假設,認為 中有某些變數能夠預測 [2]。

讓我們串一下上面“可預測性”產生的邏輯。 該邏輯是因為投資者不知道 ,而是通過 OLS 來估計 ,並根據 對資產估值,產生均衡狀態下資產的價格。它進而造成了和理性預期相比,已實現收益率中出現額外一項,而這個額外項繼而造成了迴歸係數 顯著地聯合偏離零或投資組合預期收益顯著的偏離 ,讓人們(錯誤地)拒絕原假設。由於在模型中已經排除了 risk premium,因此該樣本內的可預測性僅僅是 investor learning 造成的。

05 Bayesian Learning

通過上一節的介紹,希望各位小夥伴搞清楚 Martin and Nagel (2019) 想要幹什麼了。但是我負責的說,OLS learning 因為有些問題,並不是他們關注的重點。下面就來上點“硬貨”—— Bayesian learning。

好訊息是,有了 OLS learning 做鋪墊,本節的內容會容易理解地多(我寫起來也容易的多)。

為了簡化模型,Martin and Nagel (2019) 假設投資者的先驗是 的真實分佈,即 。經過推導,可以得到投資者對 的後驗估計:

和 OLS learning 相比,Bayesian learning 下的 是先驗和 OLS 估計之間的貝葉斯收縮。為了更直觀的理解往先驗的收縮,上述 又可以寫作:

其中 是收縮係數,而往先驗收縮的程度滿足如下性質(都非常複合直覺):

1. 越小,越往先驗收縮(樣本點的時間跨度越短,誤差越大);

2. 越小,越往先驗收縮( 決定了先驗中 相對零的偏離程度);

3. 越大,越往先驗收縮(變數個數越多,越有可能對著樣本內過擬合,因此更需要壓縮)。

比較 Bayesian learning 和 OLS learning 可知二者的差異就體現在 上。數學運算可知,當先驗是擴散的時候( ), 收斂到單位矩陣。因此,OLS learning 是 Bayesian learning 的一個特例。現在我們就可以回答前面遺留的問題:為什麼 OLS learning 不太合理。由 的定義可知,變數偏離零的程度由 確定。如果 非常大,則意味著 dividend growth 的信噪比非常高(有很大一部分可以通過 來預測),這顯然與真實世界不符。由於在真實世界中投資者通常不會認為 dividend growth 中有很大一部分能夠被預測,因此 Bayesian learning 比 OLS learning 更符合實際。

在 Bayesian learning 下,投資者通過 來判斷 dividend growth 並對資產估值。在均衡狀態下,收益率滿足:

毫無疑問,和理性預期以及 OLS learning 相比,這個 看著更復雜了。不用慌,我們再放在一起對比一下:

在上表中,我特地使用了相同的顏色圈出了相似的項。和 OLS learning 相比,Bayesian learning 中又多了額外的一項(第一項),而它的第二項則對應 OLS learning 的第一項,其中的差異是,Bayesian Learning 的第二項中多了收縮係數 。Bayesian learning 下 中的三項可以解讀為:

1. 第一項是因為往先驗收縮,因此投資者對基本面資訊 的“反應不足”(如果不收縮,即 ,這一項就會消失)。

2. 第二項和 OLS learning 類似,是噪聲對投資者估計的影響。不過 的存在意味著先驗使得投資者對噪音的反應沒那麼強烈,因此從一定程度上降低了這部分對估計的影響; 在 Bayesian learning 下, 在前兩項誤差之間實現了最優的權衡。

3. 最後一項和理性預期一樣,為

接下來如法炮製,利用上述 來估計並檢驗 ,以及檢驗利用它構造的投資組合的預期收益。和 一樣,由於 Bayesian learning, 也有三項,分別對應 的三項(不再贅述)。而該投資組合的預期收益為:

時,上式收斂到 OLS learning 的情況,即 。下圖給出了 OLS learning 和 Bayesian learning(informative prior)兩種情況下,該投資組合預期收益如何隨 的增加而變化。當沒有先驗時,OLS learning 更容易過擬合,因此其預期收益隨 升高的更快。 使用貝葉斯收縮之後,會從一定程度上減弱這個情況,但卻無法從根本上消除樣本內的可預測性。

最後,我們再來回顧下“可預測性”產生的原因。投資者通過 Bayesian learning 估計 並根據 對資產估值,產生均衡狀態下資產的價格。這造成了和理性預期相比,已實現收益率中的額外的兩項,而這兩項進而造成利用 構造的投資組合的預期收益顯著的偏離 ,讓人們(錯誤地)拒絕原假設。因此,該樣本內的可預測性僅僅是 investor learning 造成的。

哪怕是採用了更加接近現實的 Bayesian learning,投資者的 high-dimensional learning 依然會產生樣本內虛假的可預測性。

06 Out-Of-Sample

以上就是關於投資者的 high-dimensional learning 如何影響事後樣本內統計檢驗的研究。在該文的後半部分,Martin and Nagel (2019) 也詳細討論了樣本外的可預測性。結論就是,investor learning 不會產生樣本外的可預測性,這顯然非常符合邏輯。按照投資組合的視角,它可以表述為:

假設有兩個互不重疊的時間視窗。如果我們使用視窗 1 來檢驗 並發現了一些虛假的可預測性,則使用它們作為係數的投資組合在視窗 2 內的預期收益為零;唯有當視窗 1 內發現的可預測性是真實的(即不是由 investor learning 造成的虛假的可預測性),通過它們才能在視窗 2 內(樣本外)獲得顯著大於零的超額收益。

就我個人的看法,Martin and Nagel (2019) 的發現對學術界的意義重大。在實證資產定價研究中,學術界通常假設理性預期(即投資者不存在學習問題),因而無一例外都是事後通過樣本內的資料來檢驗某個異象或者因子的超額收益是否顯著大於零。這一慣例在過去 30 年內產生了大量樣本內顯著的異象,但是其中的絕大多數在樣本外壓根不好使或者無法被複現(Hou, Xue, and Zhang (2020))。而究其原因,除了 p-hacking 以及被套利走之外,Martin and Nagel (2019) 給出了另一個解釋。

在大資料時代,我們有了過去無可比擬的資料量。然而,投資者面臨更加複雜的高維預測和估計問題。大資料如何影響投資者的估計,如何影響均衡狀態下資產的價格,如何影響市場的有效性?這些都是等待回答的問題。毫無疑問,Martin and Nagel (2019) 是一個有益和大膽的嘗試,而它提出的 investor learning 問題也足以引起人們的重視。

所有歷史資料都是樣本內[3]。

備註:

  1. 但這絲毫不影響這是一個很好的開端,我們也有理由期待今後拓展的模型會有更深入的發現。
  2. 如果 很小,則 即使造成了偏離也並不大,因此這一項在 high-dimensional learning 中才格外重要。
  3. 《所有歷史資料都是樣本內》

參考文獻

  • Carhart, M. M. (1997). On persistence in mutual fund performance. Journal of Finance 52 (1), 57 – 82.
  • Fama, E. F. and K. R. French (2015). A five-factor asset pricing model. Journal of Financial Economics 116 (1), 1 – 22.
  • Harvey, C. R., Y. Liu, and H. Zhu (2016). … and the cross-section of expected returns. Review of Financial Studies 29 (1), 5 – 68.
  • Hou, K., C. Xue, and L. Zhang (2020). Replicating anomalies. Review of Financial Studies 33 (5), 2019 – 2133.
  • McLean, R. D. and J. Pontiff (2016). Does academic research destroy stock return predictability? Journal of Finance 71 (1), 5 – 32.
  • Martin, I. and S. Nagel (2019). Market efficiency in the age of big data. Working paper, available at: https:// ssrn.com/abstract=35112 96 .

免責宣告: 入市有風險,投資需謹慎。在任何情況下,本文的內容、資訊及資料或所表述的意見並不構成對任何人的投資建議。在任何情況下,本文作者及所屬機構不對任何人因使用本文的任何內容所引致的任何損失負任何責任。除特別說明外,文中圖表均直接或間接來自於相應論文,僅為介紹之用,版權歸原作者和期刊所有。

原創不易,請保護版權。如需轉載,請聯絡獲得授權,並註明出處。已委託“維權騎士”( 維權騎士-版權保護 版權知識 原創檢測 識別字體 著作權登記 ) 為進行維權行動。