[CIKM'22] Towards Understanding the Overfitting Phenomenon of Deep Click-Through Rate Predi...

語言: CN / TW / HK

討論了為什麼在絕大部分的基於DNN的CTR模型訓練過程中,第一個epoch之後效果最好,從第二個epoch開始反而效果開始下降。

充滿了很多實驗的一篇文章,直接說結論:

  • 與該現象有關的因素
    • 模型結構:DNN會有該現象,而LR就不會;
    • 優化演算法:收斂速度越快的演算法越會出現該現象;
    • 特徵的稀疏性:特徵越稀疏(w/ 長尾),越容易出現該現象。
  • 與該現象無關的因素
    • 模型引數量:把模型embed層減到只有一個float值,此時DNN模型的引數和LR很相似,但DNN還是會有過擬合現象;
    • 啟用函式;
    • batch size;
    • weight decay;
    • dropout;

最後,作者提出了一個假設:在CTR模型訓練過程中出現過擬合現象,是因為未訓練的樣本(包括一個epoch都沒訓練的樣本,或者測試集的樣本),分佈與已訓練的樣本非常不一樣。這裡的分佈指的是embedding向量與其樣本標籤的聯合分佈,隨後通過實驗驗證了這個假設。