【041】機器學習驅動的基本面量化投資

語言: CN / TW / HK

本文是 因子選擇 專題的第 001 篇,也是因子動物園的第 041 篇獨立原創研究。

未經授權,禁止轉載! 】歡迎私信公眾號後臺或動物園園長獲取轉載授權。

【30 秒速覽】李斌, 邵新月和李玥陽(2019)第一次基於 A 股的大量異象,對機器學習和深度學習演算法選擇因子和預測股票收益的能力進行了深入的探究,並利用分析結果,反過來對因子的重要進行了考察。他們發現, 新的演算法的確在某種程度上可以更好地挖掘因子與股票未來收益間的線性與非線性關係 。他們也指出, 交易摩擦類因子在 A 股最為重要 ,但價值因子不重要,這一點似乎與已有研究不符。

目錄:

01. 簡介

02. 基本目標和方法

03. 方法比較的實證結果

04. 因子重要性檢驗

05. 一點評論

06. 結語

1. 簡介

近年來,隨著機器學習和深度學習的快速發展,機器學習在金融,包括因子研究領域,也得到了日益廣泛的應用。例如,周國富和 Rapach 教授也在多篇文獻中用到了以 forecast combination 為代表的機器學習方法(見 Rapach, Strauss, and Zhou (2010), Kong, Rapach, Strauss, and Zhou (2011), Rapach and Zhou (2010) 以及 Han, He, Rapach, and Zhou (2019).)。

更重要的自然是 Macos Lopez Prado ,僅 2018 年一年,他撰寫了至少 3 篇相關論文以及一部專著(見 Prado (2018 a,b,c,d))。此外,他還同 Frank Fabozzi 和 Joseph Simonian 一同作為主編,參與創辦了新的期刊 Journal of Financial Data Science ,在第一期中,三位大佬 Rob Arnott、Campbell Harvey 和投資組合理論奠基人 Harry Markowitz 聯合發表了一篇題為《A Backtesting Protocol in the Era of Machine Learning》的文章,宣告投資策略和因子研究正式步入機器學習時代。

但過去的相關研究往往仍集中於利用機器學習演算法構建新的因子,鮮少涉及利用機器學習演算法來進行大規模的因子及預測模型篩選。此外,已有研究主要關注機器學習演算法,對近年日益興起的深度學習則關注較少。最後,這些研究大多基於美股進行,較少關注 A 股市場。

因此,今天難得地著重介紹一篇中文文章——《機器學習驅動的基本面量化投資》,由武漢大學李斌教授及兩位碩士生髮表於《中國工業經濟》。

2. 基本目標和方法

作者們以 1997 年 1 月至 2018 年 10 月間 A 股市場的 96 個重要投資異象為基礎,比較了經典的 OLS 模型和多種機器學習和深度學習模型,以回答下述 3 個依次遞進的主要問題:

  • 是否有線性機器學習模型可以超越 OLS ?
  • 是否有非線性機器學習模型可以超越線性機器學習模型?
  • 如果非線性模型的確表現更好,那麼,是否有深度學習演算法可以超越機器學習模型?

特別地,作者們共選取了 5 種線性機器學習演算法、4 種非線性機器學習演算法和 3 種深度學習方法。其中,考慮到股票收益預測問題的性質,機器學習演算法都為監督學習方法。具體演算法如下表所示:

表 1 :文章所用演算法列表.資料來源:因子動物園,李斌, 邵新月和李玥陽(2019).

對於每一個因子/模型,作者使用 12 個月的滾動窗寬進行建模並對下月收益率進行預測,根據預測收益率將股票分為 10 組,構建多空因子組合。理論上,最優引數也是時變的,但基於計算量和穩健性的考慮,作者在整個分析期間,都沿用第一期選擇的最優引數。

此外,考慮到不同因子取值可能有數量級的差異,為了控制其對建模結果的影響,作者在每次建模前,對訓練集的因子進行了標準化處理。

3. 演算法比較的實證結果

表 2 展示了不同模型下的多頭、空頭及多空組合表現。從該表可以發現:

  • 線性機器學習模型表現均略優於 OLS ,顯示機器學習演算法確實可以更好地識別因子與股票未來收益之間的相關性,雖然提升幅度並不是非常大。
  • 非線性模型表現顯著優於線性模型 ,其中以 XGBoost 為甚。XGBoost 近年在資料探勘界非常流行(有玩笑稱其為 Kaggle 競賽標配),此處在因子研究中同樣也有非常出色的表現,不僅多空組合平均收益提升超過 30%,t 統計量更是超過 9,異常得顯著。
  • 深度學習演算法普遍表現出色,總體上優於機器學習演算法 ,其中 DFN 表現最好,平均收益最高(2.78%),t 統計量同樣也接近 9 。
  • 所有機器學習模型都高度顯著,且顯著優於經典的規模因子(SIZE) 。要知道,規模因子是眾所周知的 A 股市場表現最好的單因子。由此可見機器學習模型的確尤其重要價值。

此外,由於 A 股做空約束較多,多頭組合的表現也應給予較多關注。結果也是類似的,深度學習和非線性機器學習演算法,尤其是 DFN 和 XGBoost ,表現非常出色,此外,LSTM 也表現優異。

表 2 :不同模型表現概覽. 資料來源:李斌, 邵新月和李玥陽(2019),表 1.

進一步的收益差分析表明,所有機器學習演算法的績效相對 OLS 都有顯著提升,而 DFN 能顯著超越線性機器學習演算法。

在此基礎上,利用除 FC (因 FC 為單變數 OLS 的算術平均)之外的 11 類演算法,構建整合預測:

再根據整合預測來構建因子。結果顯示,在不同的窗寬下,多空組合和多頭組合的表現都顯著優於 OLS 下的表現。

表 3 :整合預測因子表現概覽. 資料來源:李斌, 邵新月和李玥陽(2019),表 3 和 表 4.

4. 因子重要性檢驗

在肯定了機器學習演算法對於因子模型的重要性後,作者們並未就此止步。他們試圖據此對不同異象的重要性進行探討。具體而言,已知機器學習演算法有良好表現,那麼,一個因子越重要,理論上,它就應該被越多的機器學習模型選入最終的模型。因此,作者們統計了每個因子被不同模型選中的次數,來分析因子的相對重要性。

表 4 展示了單因子、線性和非線性演算法中被選中次數較多的因子。可見,交易摩擦類因子非常多,成長、盈利和動量因子等也有上榜。

表 4 :重要因子列表. 資料來源:李斌, 邵新月和李玥陽(2019),表 6.

表 5 則直接給出了不同類別因子被所有 14 個模型選中次數不低於 5 次的情況。與表 4 一致,交易摩擦類因子以 52% 的上榜率遙遙領先,流動性因子和動量因子表現也不錯,價值因子則無一入圍。

表 5 :分類別重要因子統計表. 資料來源:李斌, 邵新月和李玥陽(2019),表 8.

5. 一點評論

首先,這篇文章的思路非常清晰,循著提出的幾個主要問題而有序地推進研究,且實證工作毫無疑問也非常詳盡而紮實(據說作者光 coding 前前後後就花了一年多時間),非常令人欽佩,值得好好學習。

其次,該文最後關於因子重要性的發現是非常有趣的,也有一定爭議。大部分關於 A 股的研究都認可交易摩擦類因子在 A 股當仁不讓的重要地位,但已有研究普遍認為 A 股價值因子顯著而動量不顯著,例如 Qiao (2018) 在研究了 231 個因子後指出,交易摩擦和價值因子在 A 股較為顯著,其他因子則普遍不顯著。這篇文章則發現基於機器學習的視角,價值因子不重要,動量反而更重要一些。這方面,未來值得更深入的討論。

再者,作者們未進行動態引數選擇,這固然降低了過度擬合的風險。但一直使用第一期選擇的引數,似乎也不是非常恰當。也許某些線性演算法在其他的引數下有著顯著優異的表現且同樣穩健,那麼,本文的結論就要打問號了。

最後,這篇文章基於已有因子進行整合和篩選,固然有更好的表現,但其內部的 blackbox 仍然難以讓投資者對其表現真正信服,因而在實際應用中會有不少障礙。這同此前我們梳理關於 trend factor 的研究時的疑慮是相同的。未來,也許可以更進一步,對投資組合的持倉進行深入分析和比較,基於持倉和收益率分解,將新演算法下的業績提升進行量化拆解,以讓投資者更好地理解策略。

6. 結語

機器學習和深度學習的時代已然來臨,因子研究也不可避免步入機器學習時代。雖然已有不少相關研究,但李斌, 邵新月和李玥陽(2019)這篇文章還是有不少新意,作者們第一次基於 A 股的大量異象,對機器學習和深度學習演算法選擇因子和預測股票收益的能力進行了深入的探究,並利用分析結果,反過來對因子的重要進行了考察。

他們發現,機器學習模型優於單因子(包括 SIZE),而非線性模型優於線性模型,深度學習演算法總體上優於機器學習演算法。這表明,新的演算法的確在某種程度上可以更好地挖掘因子與股票未來收益間的線性與非線性關係。

與此同時,他們的部分發現和觀點也有待進一步探究。例如,他們發現 A 股市場上價值因子不重要,但已有研究和投資者的直觀感受,都支援價值因子很顯著。

此外,更為重要的, 如何拆解機器學習和深度學習演算法的 blackbox ,讓投資者更好地理解演算法超額收益的來源,從而更好地據此指導投資實踐。也許,這也是這個機器學習新時代的核心課題

全文完。

本文僅為分享,不代表任何投資建議。文章圖表來自於相應論文,僅為介紹之用,版權歸原作者和期刊所有。

另:點選下述公眾號文章文末的閱讀原文,可跳轉至期刊的文章連結,下載文章原文及附件。該文附件包含作者提供的相關資料。

歷史推薦:

文章索引:

因子體系:

實踐方法論:

投資因子:

研究方法論:

搞事情小組:

實證研究:

技術因子:

低風險因子:

動量因子:

基本面動量因子:

References:

  • Arnott, Rob, Campbell R. Harvey, and Harry Markowitz. "A Backtesting Protocol in the Era of Machine Learning." Journal of Financial Data Science 1.1 (2019): 64-74.
  • Bali, Turan G., Robert F. Engle, and Scott Murray. "Empirical Asset Pricing: The Cross Section of Stock Returns." John Wiley & Sons, 2016.
  • De Prado, Marcos Lopez. "Advances in Financial Machine Learning." John Wiley & Sons, 2018.
  • De Prado, Marcos Lopez. "Beyond Econometrics: A Roadmap Towards Financial Machine Learning." Available at SSRN 3365282 (2018).
  • De Prado, Marcos Lopez. "Ten Applications of Financial Machine Learning." Available at SSRN 3365271 (2018).
  • De Prado, Marcos Lopez. "The 10 Reasons Most Machine Learning Funds Fail." Journal of Portfolio Management 44.6 (2018): 120-133.
  • Han, Yufeng, Ai He, David E. Rapach, and Guofu Zhou. "What Firm Characteristics Drive US Stock Returns?." Available at SSRN 3185335 (2018).
  • Kong, Aiguo, David E. Rapach, Jack K. Strauss, and Guofu Zhou. "Predicting Market Components Out of Sample: Asset Allocation Implications." Journal of Portfolio Management 37.4 (2011): 29-41.
  • Qiao, Fang. "Replicating Anomalies in China." Available at SSRN 3263990 (2018).
  • Rapach, David, and Guofu Zhou. "Forecasting Stock Returns." Handbook of Economic Forecasting . Vol. 2. Elsevier, 2013. 328-383.
  • Rapach, David E., Jack K. Strauss, and Guofu Zhou. "Out-of-sample Equity Premium Prediction: Combination Forecasts and Links to the Real Economy." Review of Financial Studies 23.2 (2010): 821-862.
  • 李斌, 邵新月 和 李玥陽. "機器學習驅動的基本面量化投資研究." 中國工業經濟 8 (2019): 61-79.

題圖:Abstract Wallpaper, from www.pexels.com.