一文梳理推薦系統中的特徵互動排序模型

語言: CN / TW / HK

本文梳理了從LR到CAN,推薦系統發展過程中比較知名的特徵互動排序模型。文章一共包含5個部分:(1)非深度特徵互動(2)深度特徵互動(3)自動特徵互動(4)基於圖的特徵互動(5)基於序列的特徵互動。歡迎大家在文章下方評論留言,交流探討!

作者 :範欣妍@BELIEVE,中國人民大學碩士二年級,導師為趙鑫教授,研究方向為推薦系統

引言

工業推薦系統一般包含兩個部分:召回和排序。召回階段根據使用者的興趣和歷史行為,從海量的物品庫裡,快速找回小部分使用者潛在感興趣的物品。排序模型需要融入各種特徵(例如使用者端的特徵、物品端的特徵等),使用較為複雜的模型,對召回階段輸出的物品集合進行排序,為使用者做精準的個性化推薦。排序模型融入特徵不僅需要考慮單獨每一個特徵,更需要考慮特徵之間的互動。特徵互動也叫特徵組合,通過將兩個或多個特徵組合起來,進行一系列操作,來實現對樣本空間的非線性變換,增加模型的非線效能力,以達到對於不同的特徵組合都能進行有效預測的目標。

那麼如何建模特徵互動?最容易想到的方法是對所有特徵的組合都列舉一遍。但是,這種顯式地特徵互動有一定的侷限性:(1)非線性建模能力有限(2)更高階的特徵互動計算量大,難以實現(3)資料稀疏性大時,出現次數少的特徵難以訓練(4)不能自動化實現特徵互動,人工代價大。隨著深度學習時代的到來,特徵交叉方案變得更加豐富,很多工作利用深度神經網路(DNN)來隱式地建模特徵互動的高階關係,來解決顯式特徵互動帶來的問題。一些典型的工作例如PNN,Wide&Deep,NFM,DeepFM,xDeepFM,DIN等。

本文梳理了從LR到CAN,推薦系統發展過程中比較知名的32個特徵互動排序模型。文章一共包含5個部分:

  1. 非深度特徵互動 :LR, FM, FFM, FwFM, LorentzFM, FM^2
  2. 深度特徵互動 : DNN(FNN), DeepCrossing, Wide&Deep, PNN, NFM, AFM, DeepFM, DCN, xDeepFM, FiBiNET, ONN. DCN V2
  3. 自動特徵互動 : AutoInt, AFN, AutoFIS, AIM
  4. 基於圖的特徵互動 : Fi-GNN, L0-SIGN, PCF-GNN, DG-ENN
  5. 基於序列的特徵互動 : DIN, DIEN, DSIN, DMR, CAN

其中,嚴格來說3、4、5三個部分也屬於深度特徵互動這一類,但因為其各自有明顯的特點,因此將它們單獨歸類。讀者可以選擇自己不熟悉的方向進行閱讀。

下圖是本文涉及到的排序模型的發展歷程,讓脈絡更加清晰。

特徵互動排序模型發展歷程

1 非深度特徵互動

LR

Predicting Clicks Estimating the Click-Through Rate for New Ads, WWW 2007

LR模型沒有使用特徵互動的線性函式,對於每一個特徵使用一個引數w作為權重。它可以處理大規模的離散化特徵,並且易於並行化、可解釋性強。同時LR有很多變種,例如支援線上實時模型訓練(FTRL)。

FM

Factorization Machines, ICDM 2010

LR模型假設特徵之間是相互獨立的,忽略了特徵之間的互動,而FM則是針對這一點進行改進。FM模型融入了二階特徵互動,對於每兩個特徵x_i和x_j的互動組合,用一個引數w_ij來作為權重。

為了解決了特徵互動稀疏的問題,作者對引數w_ij進行了分解,分解為了兩個向量的點積:

FFM

Field-aware Factorization Machines for CTR Prediction, RecSys 2016

在FM中,每一個特徵只學習一個隱向量,這篇文章的作者一些特徵應當屬於不同的特徵域,因此應該分別建模。具體來講,FFM針對每個特徵都會學習f個隱向量,f表示field的數量。假設樣本的 n 個特徵屬於 f 個field,那麼FFM的二次項有 nf個隱向量,而在FM模型只有有n個隱向量。

FwFM

Field-weighted Factorization Machines for Click-Through Rate Prediction in Display Advertising, WWW 2018

FFM對不同的互動方式可以精確的建模,取得很好的效果。但是,FFM中的引數個數跟特徵數和域數的乘積同階,在實際應用中開銷較大。FwFM提出帶權重的FFM,對不同域中不同的特徵互動建模時更加高效。

LorentzFM

Learning Feature Interactions with Lorentzian Factorization Machine, AAAI 2020

洛倫茲因子分解機模型沒有使用深度模型的結構,但可以達到深度模型的準確率,而且降低了深度模型的引數量和訓練時間。具體來講,LorentzFM建模特徵互動時,利用了雙曲空間中兩個特徵之間距離是否違背三角不等式來構造特徵互動,同時雙曲三角形特殊的幾何特性可以替換掉現在普遍使用的MLP層,達到了減少引數量的目標。

FM^2

FM^2: Field-matrixed Factorization Machines for CTR Prediction, WWW 2021

FmFM(FM^2)可以看做FwFM的升級版,並且FM、FwFM等模型都可以統一到FmFM框架下,並通過embedding向量維度和中間向量快取優化,在模型效果持平的前提下,提升計算效率。具體來講,特徵 F(i) 與特徵 F(j) 交叉時,引入矩陣M,特徵 F(i) 對應向量先與矩陣相乘得到中間向量,再與特徵 F(j) 對應向量點積。FM和FwFM可以統一到該框架下。FM在進行二階特徵互動時,特徵對應向量直接進行點積,等價於把FmFM中的M矩陣設定為單元矩陣(對角線全為1)。FwFM進行特徵互動時,每對特徵引入權重 ,等價於把FmFM中的轉化矩陣設定對角線全為 r 的矩陣(非對角線為0),矩陣引數可學習,對角線元素相同。

2 深度特徵互動

DNN(FNN)

Deep Learning over Multi-field Categorical Data, ECIR 2016

DNN模型通常由Embedding層+MLP層組成。通過Embedding層,將高維離散特徵轉換為固定長度的連續特徵,然後通過多個全連線層,最後通過一個啟用函式得到點選的概率。這種方法的優點在於通過神經網路擬合高階特徵互動的非線性關係,同時減少了人工特徵的工作量。這篇論文中提到的FNN則是用訓練好的FM作為初始化引數,再接DNN。

DeepCrossing

Deep Crossing: Web-Scale Modeling without Manually Crafted Combinatorial Features , SIGKDD 2016

微軟於2016年提出的Deep Crossing可以說是深度學習CTR模型的基礎性模型,旨在解決特徵工程中特徵組合的難題,降低人工特徵組合的工作量。它的整體結構與DNN類似,不同的地方在於Deep Crossing採用的MLP是由殘差網路組成的(文中提到這是第一次殘差單元被用於影象識別之外)。通過多個殘差單元,對特徵向量各個維度進行交叉組合,使模型獲得了更多的非線性特徵和組合特徵資訊,從而提高了模型的表達能力。

Wide&Deep

Wide & Deep Learning for Recommender Systems, RecSys 2016

Wide&Deep 是由Google於2016年提出的,是推薦領域取得較大成功的最早深度模型。模型包括Wide和Deep兩個部分,Wide 部分為 LR,這部分對樣本中的特徵與目標有較為明顯的關聯進行記憶性學習,即對於樣本中出現過的高頻低階特徵能夠用少量引數學習,缺點是泛化能力差;Deep部分為DNN,旨在學習到樣本中多個特徵與目標之間的隱式關聯,對於少量出現過的樣本甚至沒有出現過的樣本能做出預測。在Wide&Deep的框架下,一個優勢是Wide部分可以沿用之前非深度特徵互動的成果,尤其是特徵工程部分。這一點也促進了之後DeepFM等工作的誕生。

PNN

Product-based Neural Networks for User Response Prediction, ICDM 2016

傳統Embedding+MLP的方式並不能很好對高階交叉特徵進行獲取,同時FNN用FM初始化引數接DNN的方式也並不完美,針對這些缺點PNN進行了改進,通過引入特徵互動層 Product Layer,顯式的對特徵進行互動,以提升模型的表達能力。Product層利用內積(Inner PNN)和外積(Outer PNN)兩種方式實現對特徵的交叉組合。其中,IPNN本質上利用共享引數來減少引數量,採用一階矩陣分解來近似矩陣結果。OPNN的時空複雜度比IPNN更高,作者使用了Sum Pooling的方式來降低複雜度,但也造成了精度的損失。 實際使用更多的是IPNN。

NFM

Neural Factorization Machines for Sparse Predictive Analytics, SIGIR 2017

NFM將FM得到的互動特徵用於DNN層的輸入,並使用Bi-interaction Pooling操作對二階交叉特徵進行處理,解決傳統FM作為線性模型表達有限的問題和對高階交叉特徵學習不充分的問題,公式如下:

Bi-interaction Pooling與FM相比,沒有引入額外的引數,且具有線性複雜度。

AFM

Attentional Factorization Machines: Learning the Weight of Feature Interactions via Attention Networks, IJCAI 2017

與NFM類似,AFM首先利用FM解決稀疏特徵問題及淺層互動特徵,同時利用深度注意力網路獲取深層互動特徵。模型的核心是注意力層(Attention-based Pooling Layer)通過關注不同的交叉特徵和目標之間的關係,得到不同程度的貢獻分數,然後加權求和。同時利用MLP進一步處理訓練資料中未出現樣本的的評估問題,從而達到泛化模型的目的。

DeepFM

DeepFM: A Factorization-Machine based Neural Network for CTR Prediction, IJCAI 2017

將Wide&Deep模型的LR替換為FM。解決FM只能獲取二階特徵,無法獲取高階特徵的問題;解決傳統DNN的隱式交叉方式在高稀疏特徵無法很好獲取表徵的問題。DeepFM是一個端到端的深度學習模型,模型FM和DNN部分共享Embedding層。

DCN

Deep & Cross Network for Ad Click Predictions, ADKDD 2017

DCN對Wide&Deep中的Wide部分進行了替換,提出CrossNetwork用於特徵交叉。它的設計理念是通過引數共享的方式減少向量壓縮變換時產生引數量過多的情況,從而減少模型的過擬合,增強模型的泛化能力。同時Cross Network的方式會將模型複雜度降為層級線性增長。

xDeepFM

xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems, SIGKDD 2018

使用CIN交叉網路和DNN的雙路結構,同時以顯式和隱式的方式學習高階特徵。其中模型的核心部分是交叉網路CIN部分,由互動和壓縮兩步,通過vector-wise角度學習高階交叉特徵,CIN與DNN兩個部分同時共享Embedding層。

FiBiNET

FiBiNET: Combining Feature Importance and Bilinear feature Interaction for Click-Through Rate Prediction, RecSys 2019

結合特徵重要性和雙線性特徵互動進行CTR預估。主要通過動態學習不同特徵的特徵重要性權重,解決CTR預估中對不同場景下不同特徵的權重reweight的問題;雙線性的使用解決稀疏資料在特徵交叉建模時的有效性問題。核心結構包括SENET Layer和Bilinear-Interaction Layer。其中 SENET Layer會對每個field用pooling操作和FC層計算特徵重要性權重的Excitation;對原始每個field利用Excitation得到的特徵重要性權重重新賦權。而 Bilinear-Interaction Layer 提出一種結合Inner Product和Hadamard Product方式,學習互動特徵。

ONN

Operation-aware Neural Networks for user response prediction , NN 2020

目前大多數模型對於一個特徵在進行不同的操作時都使用相同的表示。但對於不同的操作,一個特徵的最好的表示不總是相同的。ONN解決該問題的一個思路是在基本的通用的Embedding+MLP結構下,將PNN與FFM結合起來,實現了在embedding層的每一個特徵對於不同操作(內積或者外積)有不同的表示,這對於之後進入MLP學習高階特徵互動時有更好的幫助。與PNN相比,ONN實現了operation-aware的embedding layer,即一個特徵有多種embedding,對於不同操作可以選擇不同的特徵表示。和FFM模型最大的區別在於ONN加入了MLP,深度神經網路能夠更好的挖掘特徵深層次的依賴,學習到複雜的特徵互動關係。

DCN V2

DCN V2: Improved Deep & Cross Network and Practical Lessons for Web-scale Learning to Rank Systems, WWW 2021

DCN V2是DCN的作者提出的一個改進版本。核心的改進在於cross network。

這是DCN的cross layer

這是DCN V2的cross layer

從兩幅圖的公式可以對比看出,模型最大的變化是將原來的向量w變成了矩陣W。矩陣相比向量來說,擁有更多的引數來保留高階交叉資訊,提高模型的表達能力。但是引入矩陣會增加計算量,為了減少開銷,作者提出了對W矩陣進行低秩分解,即用兩個低秩子矩陣代替原來的矩陣,實驗證明這種方式精度損失很低。另外,文章對deep層和cross層還嘗試了stacked(序列,cross層的輸出作為deep層的輸入)和 parallel(並行,cross層和deep層同時進行,最後將兩部分的輸出拼接)兩種不同的組合方式,實驗表明兩種組合方式在不同的資料集上的表現效果不同,沒有優劣之分。

3 自動特徵互動

現有的特徵互動的工作通常分為二階互動和高階互動,而且需要指定一個互動階數,迭代出所有的互動特徵。這樣做一方面計算量容易變得很大,不利於實際應用;另一方面可能會潛在引入噪聲,即不重要的特徵互動組合。自動特徵互動這一類工作的目標是希望模型可以自動學出應該保留哪些互動的特徵以及應該進行幾階互動。

AutoInt

AutoInt: Automatic Feature Interaction Learning via Self-Attentive Neural Networks, CIKM 2019

受Transformer的啟發,模型利用帶殘差連線的多頭自注意力機制顯式的進行互動特徵的獲取,能夠自動學習高階特徵交叉。核心部分是Interacting Layer,將輸入的embedding轉換為Query、Key、Value,通過自注意力的方式計算每個特徵與其他特徵的相似度,加權求和得到新特徵。模型也包含多個注意力層以構造更高階的組合特徵。

AFN

Adaptive Factorization Network: Learning Adaptive-Order Feature Interactions, AAAI 2020

現有的特徵互動的工作通常指定一個互動階數,迭代出所有的互動特徵,這樣做一方面計算量很大,另一方面會引入噪聲的特徵組合。AFN本文借鑑了Logarithmic Neural Network (LNN)的思想,模型中的Logarithmic Transformation Layer可以自動學習保留出應該互動的特徵以及應該進行幾階互動。其核心思想是引入對數mic變換,將特徵對數化,再去做交叉運算。這樣能將特徵互動中每個特徵的冪轉換為帶係數的乘法。

AutoFIS

AutoFIS: Automatic Feature Interaction Selection in Factorization Models for Click-Through Rate Prediction, SIGKDD 2020

AutoFIS的目標是自動識別出有效的特徵互動組合,避免引入噪聲特徵互動。模型整體分為兩個階段: 搜尋階段(檢測有效特徵互動)和重訓練階段(去除冗餘的特徵互動,並重新訓練模型)。模型會為每個特徵互動引入門控單元來控制是否選擇它。搜尋階段門控開啟,正常學習每個特徵互動的權重;重訓練階段,關閉不重要特徵互動的門控,即在訓練時丟掉這個特徵互動。

AIM

AIM: Automatic Interaction Machine for Click-Through Rate Prediction, TKDE 2021

AIM是AutoFIS的擴充套件版,包含三個核心元件:特徵互動搜尋(FIS)、互動函式搜尋(IFS)和嵌入維數搜尋(EDS)。其中IFS以及FIS負責特徵互動搜尋,EDS負責特徵表示搜尋。FIS負責搜尋特徵互動的組合,可以看到FIS的結構與AutoFIS一致,但基本的FIS結構只能探索特徵間的二階互動,這裡作者設計了 P 階特徵互動的搜尋演算法。IFS為每個特徵互動組合設計了不同的運算選擇,具體而言,本文設計了inner,outer與kernel product三種運算。在搜尋階段,IFS與FIS同時進行搜尋,因為不同特徵組合與組合間的運算是緊密聯絡的。特徵互動搜尋在自底向上的搜尋過程中同時完成了特徵組合搜尋與特徵組合間的運算搜尋。EDS結構,它為特徵embedding的每個值分配一個剪枝搜尋權重,用來修改重參化後的embedding。最後根據搜尋非0權重位置構建embedding table的稀疏表示。

4 基於圖的特徵互動

這部分主要介紹了近三年來應用圖神經網路到CTR模型中,來建模特徵互動的工作。

Fi-GNN

Fi-GNN: Modeling Feature Interactions via Graph Neural Networks for CTR Prediction, CIKM 2019

Fi-GNN首次嘗試將GNN用於建模特徵之間的複雜互動,屬於開創性的工作。基本思想是構建特徵圖,將特徵作為圖的節點,兩兩節點之間都存在一條邊,邊上的權重代表特徵互動的重要程度,以此將特徵之間的複雜互動轉化為特徵圖的節點之間的互動。在Embedding層中,模型使用了多頭注意力網路層得到新的field embedding,蘊含了該field和其它特徵field的高階特徵互動。輸出為一個特徵圖,作為後面Fi-GNN模型的輸入。Fi-GNN由多步組成。每一步會對節點做更新:使用注意力網路聚合鄰居節點的資訊,然後使用一個GRU單元對節點N進行狀態更新。在Fi-GNN中,每個節點通過和鄰居節點交換狀態資訊,以迴圈的方式更新自身的狀態,圖網路上更新的步數相當於特徵互動的階數。

L0-SIGN

Detecting Beneficial Feature Interactions for Recommender System, AAAI 2021

特徵互動對於在推薦系統中實現高精度推薦至關重要。然而,一些特徵互動可能與推薦結果無關,可能會引入噪聲並降低推薦精度。處理組合問題一個很好的資料結構就是圖。為了充分利用特徵互動,L0-SIGN構造了特徵圖,所有的特徵當成圖的頂點,圖中有沒有邊來表示兩個節點之間有沒有互動,邊的權重表示特徵互動的重要性。同時文章提出了一種帶有L0啟用正則化的邊預測模型,來自動檢測那些在推薦準確性方面有益的特徵互動,從而過濾掉帶來噪聲的特徵互動。

PCF-GNN

Explicit Semantic Cross Feature Learning via Pre-trained Graph Neural Networks for CTR Prediction, SIGIR 2021

和Fi-GNN用端到端建模不一樣,PCF-GNN是一個兩階段的模型。第一階段是GNN的預訓練:通過構建一種基於特徵共現關係的GNN,節點表示每一個特徵,邊的權重為特徵共現度,顯式地建模特徵共現目標。進行相應的預訓練(沒有像Fi-GNN一樣用多頭注意力機制學習節點初始表示),顯式地預測和輸出特徵的互動關係,對於沒有出現過的新的互動,也可泛化預測。第二階段是下游的應用:GNN可以固定引數,作為互動特徵提取器,在應用的階段首先推斷出互動特徵的值,然後和其餘特徵拼接在一起作為後面DNN的輸入;也可以做預訓練的正規化,在下游CTR模型訓練過程中微調GNN,更新每個特徵的表示。

DG-ENN

Dual Graph enhanced Embedding Neural Network for CTR Prediction, SIGKDD 2021

現有工作存在兩個主要的問題:特徵稀疏性,特徵互動依賴於特徵之間的共現資訊,稀疏特徵在訓練集很少出現,因此很難訓練充分;行為稀疏性,使用者行為呈長尾分佈,大部分使用者的互動行為比較稀少。

針對特徵稀疏性,參考前面兩篇工作,引入特徵圖來自動建模特徵互動,high-degree的特徵能夠輔助鄰近的low-degree稀疏特徵的表示學習,緩解特徵共現帶來的偏差和不置信。針對行為稀疏性,可以構建user-item的互動圖,這樣能夠利用其它使用者行為中蘊含的協同資訊來解決目標使用者行為稀疏的問題。最終模型把增強的使用者表示、物品表示、屬性表示、上下文表示做調整,輸入到DNN中。

5 基於序列的特徵互動

DIN

Deep Interest Network for Click-Through Rate Prediction, SIGKDD 2018

在傳統的特徵互動模型中,不同維度的Embedding在拼接後輸入到MLP中以擬合高階非線性關係,但這種框架下使用者的Embedding是不變的,很難獲取使用者的多興趣。本文的動機是模型上如何建模使用者的多峰興趣。DIN創新性地加入了Attention機制,把target item作為query在動態聚合user的歷史行為,這樣在不同場景中,使用者不同的瀏覽歷史會構建出不同的使用者表示。另外,這篇文章還有一些其他重大的創新,例如dice啟用函式,group_auc指標等。

DIEN

Deep Interest Evolution Network for Click-Through Rate Prediction, AAAI 2019

在推薦場景下,使用者的興趣會隨著時間和空間的變化而發生變化,只通過使用者歷史資料中的興趣因素,而不關注興趣的變化,使得現有的一些模型無法很好的在CTR預估任務中對使用者興趣的變化進行刻畫捕捉。DIEN利用雙層GRU對使用者興趣序列進行刻畫。Behavior Layer將使用者瀏覽過的商品按照瀏覽時間轉換成對應的embedding。Interest Extractor Layer利用GRU提取使用者興趣特徵。具體加入一個二分類模型來計算興趣抽取的準確性,用輔助網路得到預測結果。Interest Evolution Layer中利用Attention(區域性關注)配合 GRU(序列學習)的形式,從時序特徵中構建與目標物品相關的興趣演化特徵。

DSIN

Deep Session Interest Network for Click-Through Rate Prediction, IJCAI 2019

DSIN通過將使用者的歷史點選行為劃分為不同session,然後利用Transformer對每個Session進行學習得到興趣向量後,使用BiLSTM學習使用者在多個Session之間的興趣變化。Session Division Layer完成對使用者歷史點選行為的劃分,得到多個Sessions;Session Interest Extractor Layer使用Bias Encoding的方式表徵不同Session間的順序,同時考慮到使用者興趣可能來自不同因素,利用多頭注意力機制對每個session 建模得到興趣向量表示;Session Interest Interacting Layer在得到使用者的興趣向量表徵之後,利用Bi-LSTM學習不同Session之間的由順序帶來的興趣變化;Session Interest Activating Layer利用注意力機制學習不同Session和Item之間的相關性,混合上下文資訊的興趣資訊之後,對距離較近的Session賦予更大的權重。

DMR

Deep Match to Rank Model for Personalized Click-Through Rate Prediction, AAAI 2020

現有工作主要集中在使用者表示上,很少關注使用者和物品之間的相關性。本文提出了一種深度匹配排名方法(DMR),將協同過濾與匹配的思想相結合,用於CTR預測中的排名任務。模型分為user-to-item網路和item-to-item網路兩部分。在user-to-item網路中,藉助協同過濾的思想,通過embedding空間中相應表示的內積直接計算使用者與物品之間的相關性,從使用者行為中提取使用者表示。考慮到最近的行為可以更好地反映使用者的時間興趣,使用注意力機制來自適應地瞭解每種行為在行為序列中的位置的權重。本文也提出了一個輔助匹配網路,幫助更好地訓練user-to-item網路。輔助匹配網路可看作是一種匹配方法,其任務是根據使用者的歷史行為來預測下一個要點選的專案,DMR需要同時訓練匹配模型和排名模型。在item-to-item網路,與DIN類似,通過包含位置資訊的注意力機制,計算使用者互動物品與目標物品之間的物品之間相似度,然後進行聚合,以獲得另一種形式的使用者與物品的相關性表示。

CAN

CAN: Feature Co-Action for Click-Through Rate Prediction, WSDM 2022

CAN主要以一種新的方式重新思考高階特徵互動。本文首先提出co-action的概念,指出特徵互動對最終預測的影響。如果原始特徵的co-action資訊建模本身有用,那麼笛卡爾積就是建模co-action最直接的方式。最直接的使用二維笛卡爾積的方式來顯式做co-action建模會帶讓引數量急劇上升。為了解決這個問題,本文提出了Co-Action Unit使用模型化的方案建模特徵之間的互動。具體來講:Co-action Unit的輸入包含兩部分——希望建模互動關係的兩個特徵,一端資訊作為輸入,另一端資訊作為MLP的引數,用MLP的輸出來表達Co-action資訊。

對序列做DIN/DIEN類似的聚合,在co-action的視角下可以看做是對原始行為序列的embedding做一個純量的修正,item的表示只有一套。而CAN是用向量來建模的,並且使用的新的embedding和原始序列的embedding完全獨立,因此模型自由度和容量更大。

CAN提供了一種新的特徵互動思路,在特徵工程上手動特徵交叉和模型上自動特徵交叉之間做了折衷,也是記憶性和泛化性的互補。可以看作是特徵互動的一種新正規化。

推薦資料

參考資料

  1. Predicting Clicks Estimating the Click-Through Rate for New Ads, WWW 2007
  2. Factorization Machines, ICDM 2010
  3. Field-aware Factorization Machines for CTR Prediction, RecSys 2016
  4. Field-weighted Factorization Machines for Click-Through Rate Prediction in Display Advertising, WWW 2018
  5. Learning Feature Interactions with Lorentzian Factorization Machine, AAAI 2020
  6. FM^2: Field-matrixed Factorization Machines for CTR Prediction, WWW 2021
  7. Deep Learning over Multi-field Categorical Data, ECIR 2016
  8. Deep Crossing: Web-Scale Modeling without Manually Crafted Combinatorial Features , SIGKDD 2016
  9. Wide & Deep Learning for Recommender Systems, RecSys 2016
  10. Product-based Neural Networks for User Response Prediction, ICDM 2016
  11. Neural Factorization Machines for Sparse Predictive Analytics, SIGIR 2017
  12. Attentional Factorization Machines: Learning the Weight of Feature Interactions via Attention Networks, IJCAI 2017
  13. DeepFM: A Factorization-Machine based Neural Network for CTR Prediction, IJCAI 2017
  14. Deep & Cross Network for Ad Click Predictions, ADKDD 2017
  15. xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems, SIGKDD 2018
  16. FiBiNET: Combining Feature Importance and Bilinear feature Interaction for Click-Through Rate Prediction, RecSys 2019
  17. Operation-aware Neural Networks for user response prediction , NN 2020
  18. DCN V2: Improved Deep & Cross Network and Practical Lessons for Web-scale Learning to Rank Systems, WWW 2021
  19. AutoInt: Automatic Feature Interaction Learning via Self-Attentive Neural Networks, CIKM 2019
  20. Adaptive Factorization Network: Learning Adaptive-Order Feature Interactions, AAAI 2020
  21. AutoFIS: Automatic Feature Interaction Selection in Factorization Models for Click-Through Rate Prediction, SIGKDD 2020
  22. AIM: Automatic Interaction Machine for Click-Through Rate Prediction, TKDE 2021
  23. Fi-GNN: Modeling Feature Interactions via Graph Neural Networks for CTR Prediction, CIKM 2019
  24. Detecting Beneficial Feature Interactions for Recommender System, AAAI 2021
  25. Explicit Semantic Cross Feature Learning via Pre-trained Graph Neural Networks for CTR Prediction, SIGIR 2021
  26. Dual Graph enhanced Embedding Neural Network for CTR Prediction, SIGKDD 2021
  27. Deep Interest Network for Click-Through Rate Prediction, SIGKDD 2018
  28. Deep Interest Evolution Network for Click-Through Rate Prediction, AAAI 2019
  29. Deep Session Interest Network for Click-Through Rate Prediction, IJCAI 2019
  30. Deep Match to Rank Model for Personalized Click-Through Rate Prediction, AAAI 2020
  31. CAN: Feature Co-Action for Click-Through Rate Prediction, WSDM 2022
  32. DOTA:一文總結排序模型CTR點選率預估
  33. 朱勇椿:《推薦系統》系列之七:一文梳理推薦廣告特徵互動模型進展
  34. 魚遇雨欲語與餘:深入理解推薦系統:特徵交叉組合模型演化簡史
  35. yu-lzn:推薦系統(五)—— 特徵交叉
  36. 周國睿:想為特徵互動走一條新的路