快手這款推薦新演算法,我愛了~
大家好,我是對白。
前兩天剛好刷到KDD2022的一篇文章,是介紹快手在它們短影片上的一項推薦重排新演算法,不僅在使用者觀看時長和影片播放量都有了較大提升外,使用者觀看影片的標籤數也有了顯著增長,這說明該演算法同時兼具相關性和多樣性兩點。
為了測試其效果,我順便下載了一下快手這款app,於是就出現了這篇文章的封面:左圖是使用者冷啟動推給我的第一個短影片,一個穿著短裙的小姐姐,緊接著第二個短影片就是右圖的另一位小姐姐,而後面的幾個短影片也出現了電影、美食等其它方向,探索和利用(Exploit&Explore)做得都很不錯,大家可以去快手上體驗一下。
快手提出的這款新演算法叫FDSB,是一款通用的重排序框架,利用使用者物品的偏好得分與使用者物品基於不同特徵的相關性、多樣性得分從而對推薦列表中的物品重排序。
實驗結果來看,FDSB在使用者觀看時間和影片播放方面取得了顯著的改進,這表明使用者粘性得到了提高;其次,使用者觀看影片的標籤數量增加也說明FDSB可以推薦更多樣性的影片。
下面就帶大家一起領略這個演算法的奇妙之處~
論文標題:Feature-aware Diversified Re-ranking with Disentangled Representations for Relevant Recommendation
論文來源:快手&人大,KDD2022
一、FDSB核心思想
本文由快手和人大發表於KDD2022上。在具體看論文模型細節之前,我們來看一下相關推薦的任務描述。由於要關注使用者興趣、相關性與推薦物品的多樣性,我們可以自然而然地為相關推薦寫出目標排序公式:
其中,使用者偏好得分我們可以利用現有模型計算得到。困難在於後面兩項:相關性和多樣性。為模型中引入特徵這一重要因素,我們將相關性和多樣性定義為:
如上分析,可以將相關推薦的多樣化再排序描述為一個基於物品embedding和特徵的組合優化問題。由於這是一個NP-hard問題,採用貪心演算法 ,將整體目標分解為單個物品目標:
二、演算法細節
要點一:如何處理物品特徵冗餘問題?
由於物品的特徵資訊可以從不同潛在方面描述該物品的特性,基於解耦的思想,我們可以將這些特徵,根據所描述物品的不同方面分解為不同的表示。我們將稱之為對應於物品不同方面的細粒度特徵感知表示,後統稱為分離表徵。
為了學習分離表徵,論文采用一種基於多頭自注意力機制的方法DAE。具體地,以物品原始特徵作為value,以物品embedding與特徵的投影向量作為query和key來計算注意力分數,具體公式為:
這些分離表徵反映了物品的部分特徵,因此應該接近物品的整體embedding表示。具體地,採用MSE與InfoNCE兩種alignment loss來提取從物品embedding到具體特徵分離表示中的資訊:
其中,。我們還記得,物品的分離表徵可以從不同的潛在方面反映該物品的特性。而為了實現從解耦的不同潛在方面中能夠捕獲不同的語義特徵,再引入orthogonalization loss:
我們知道物品的相關性和多樣性本質上是相互矛盾的,即多樣性更強時,相關性就更弱。然而我們的相關推薦既要保證所推薦的物品與觸發物品之間的相關性,又要保證一定的多樣性。因此當多樣性表現得更強時,我們應該提高相關性的權重,反之亦然,從而實現二者的平衡。
要點二:在相關推薦中,應該如何實現物品之間的相關性與多樣性的平衡?
為了在二者之間達成一個平衡,論文設計了一種相關性-多樣性相關權重機制,我們為兩個性質分別引入兩個可學習的係數向量,即:
其中,為累計相關性。我們的目標是為使用者選擇個相關物品,具體地,採用Greedy Selection的方案對推薦列表中的物品進行再排序:
當選定第一個物品時,由於沒有其他備選物品,所以不需考慮與備選物品間的多樣性問題,這裡只用計算單物品的相關性得分,即:
當已選物品數量大於1時,則需要計算相關性和多樣性得分:
其中,多樣性函式遵循MMR方法,即,減去所選物品和候選物品之間的最大相似度作為多樣性得分。
模型的完整演算法為:
模型的複雜度與普通MMR相當,其中時間複雜度為,空間複雜度為。
三、實驗結果
3.1 一個關於分離表徵的案例解析
為了說明FDSB是如何將物品特徵分解為不同方面的,論文的實驗部分給出一個有趣的案例分析:隨機抽取一段影片,將每個特徵解耦得到的方面的注意力權重視覺化,如下圖。
從圖中,我們可以看到,影片的特徵根據語義的不同被分解為了不同方面,第一個方面側重於抽象特徵,如“動物”和“野生動物”;第二個方面捕捉了更加細粒度的資訊,如“大熊貓”和“熊貓”;第三個方面則提取了一些不尋常的特徵,如圖中的“Metal Eater”為“吞金獸”,是熊貓的暱稱。還有一個”pets“是影片中的多餘標籤,並沒有被所有的方面捕捉到。
這個例子定性地說明了論文所提出的DAE模型在學習分離表徵方面的有效性。
3.2 線上部署和A/B測試
為了進一步驗證FDSB的有效性,該模型被部署在線上快手APP的”更多相關影片“功能上以驗證整個工作流程。其中,採用影片標籤作為特徵。具體的工作流程如下圖:
在快手的實際應用場景中從(1)觀看時間,(2)影片播放和(3)觀看的影片標籤三個指標評估該框架的效能,前兩個指標反映使用者的滿意度,第三個指標通常用於多樣性。
具體的結果如開篇描述,FDSB不僅可以提升使用者忠誠度,也可以推薦更多相關影片。
3.3 實驗結果
與多個模型對比,可以看出FDSB的效果提升顯著,在Recall與MRR分別提升了25.2%與18.3%。此外,在相關性的評估指標和多樣性的評估指標中效果也不錯。
四、總結
論文提出了一種用於相關推薦的基於分離特徵的再排序框架FDSB。模型具體包含兩個部分:(1)用於實現特徵分離的自注意力方法DAE;(2)一種用於平衡候選物品相關性與多樣性的策略。模型具有一定的新穎性且效果不錯,大家不妨可以參考一下它的核心思想與網路結構。
文末提出兩個問題供大家思考:
-
除了文中所提的物品特徵,是否有更好的輔助資訊可以將觸發物品與推薦多樣性結合起來?
-
你認為基於特徵感知的細粒度推薦在其他推薦場景中是否有應用前景?以及,是否有其他高效的基於特徵的分離表徵解耦方法?
關於我
我是對白,清華計算機碩士,BAT演算法工程師。歡迎關注我的微信公眾號: 對白的演算法屋,日常分享程式設計經驗和技術乾貨,幫助你少走彎路!還可以加我微信,領資源和進交流群。
- GNN,請你的網路層數再深一點~
- 快手這款推薦新演算法,我愛了~
- Facebook出手!自適應梯度打敗人工調參
- 谷歌放棄TensorFlow了
- CV大佬:工作一年的小反思
- 網友:看完Jeff Dean新論文,我再也不相信大廠的鬼話了
- CV未來,路在何方?李飛飛指路!
- 我確實在DL上沒有天賦
- 從雙非渣碩到位元組演算法崗,很強!
- 從華為離職了
- 百餘大佬署名AI論文被爆抄襲!智源現已致歉
- 廣告深度學習計算:召回演算法和工程協同優化的若干經驗
- 乾貨 | 帶你理解對比學習損失函式的性質以及溫度係數的作用
- 谷歌、阿里、騰訊等在大規模圖神經網路上必用的GNN加速演算法
- Tensorflow之TFRecord的原理和使用心得
- 對比學習(Contrastive Learning)在CV與NLP領域中的研究進展
- 2021最新對比學習(Contrastive Learning)在各大頂會上的經典必讀論文解讀
- 訓練CV模型新思路來了:用NLP大火的Prompt替代微調,效能全面提升
- 李紀為:初入NLP領域的一些小建議
- 周志華教授:關於深度學習的一點思考