京東618廣告精排百分位AUC提升技術方案

語言: CN / TW / HK

業務背景

推薦廣告是京東推薦流量的重要組成部分,它包含了多種廣告素材,包括商品、聚合頁、活動、店鋪、視訊、直播等。推薦廣告的質量決定了京東平臺上的使用者的廣告體驗和京東平臺的廣告收入。精排是推薦廣告最重要的一環,它預估使用者對候選商品的點選率(Click-Through Rate),也是機器學習在推薦廣告中最典型的應用環節。精排點選率預估技術是機器學習演算法技術驅動業務增長的核心模組,也是技術人員持續追求最佳精度的經典領域,下圖是京東推薦廣告幾種典型的廣告素材。

2022年618,京東首頁進行了改版升級,廣告精排技術也進行了相應升級,並應用到首頁精排模型和活動智慧優選等專案中。

技術挑戰

京東首頁推薦場景的使用者構成十分複雜,有的使用者興趣十分多樣,有的使用者興趣較為單一,商品物料也變化迅速,這些因素對精準地建模廣告點選率是極大的挑戰。我們將這些挑戰總結為以下三個方向:

(1)冷啟動現象的有效緩解:京東的首頁廣告推薦場景中存在明顯的使用者和商品長尾現象,長尾使用者和商品的資料稀疏,難以充分訓練。要提升這種情況下的點選率,關鍵點是處理好任務中的冷啟動現象,對此,我們設計了一個通用的變分特徵學習框架(VELF),以更好地利用有限的資料,保障冷啟動使用者和廣告獲得更魯棒的表徵學習並避免過擬合。

(2)使用者興趣的深度挖掘:當前模型在學習使用者興趣分佈時並沒有很好的融入使用者行為和京東物料庫之間的先驗知識,缺乏對整體廣告推薦語義的把控,針對該問題,我們對使用者興趣網路結構進行了優化升級,設計了PPNet+、NeNet和Weighted-MMoE模組,通過對使用者興趣的深層次個性化建模來提升模型的整體預測能力。

(3)全域資料的充分利用:當前模型中,使用者和廣告的資料來源相對有限,對使用者互動過程中產生的全域協同資訊利用不夠充分,限制了模型預估能力的上界。對此,我們從使用者全域資訊預訓練和使用者曝光資料建模出發,對使用者全域資訊做一個立體擴充套件以提升模型預估能力。

技術方案

針對我們面臨的上述挑戰,我們對精排的工程和演算法進行了重點升級,給出了系統優化方案。通過我們的系統優化,在精排點選率模型上取得了累計超過1%的AUC提升,線上廣告收入提升也十分明顯。當前的精排模型整體結構如下圖所示,下文我們將 從變分特徵學習框架、使用者興趣網路優化和全域使用者協同資訊建模 來介紹我們的優化方案。

0 1

變分特徵學習框架

為緩解冷啟問題,優化首頁推薦廣告場景中存在的長尾使用者及物品的處理,我們設計了一個通用的變分特徵學習框架 (VELF) ,更好地利用有限的資料為冷啟的使用者/廣告獲得更可靠的特徵並避免過擬合。我們首先對使用者和廣告特徵通過分佈估計而非點估計進行建模。同時使用變分推斷(VI)的方法,對使用者和廣告的分佈進行有效的學習。傳統變分推斷的方法使用標準正態作為分佈的先驗資訊,這削弱了不同特徵之間的表達各異性。為了增強使用者和廣告之間的資訊表達,使用使用者和廣告相應的副屬性作為各自的引數化先驗資訊,進而通過後驗分佈對先驗資訊進行矯正。

模型的整體框架如下圖所示,其中u表示使用者id,i表示商品id,c(u)和c(i)分別表示使用者和商品相關的特徵,z表示特徵對應的embeding向量,zu和zi分別為使用者和商品的embeding向量,對應圖中的上下部分。在VELF中,將z的後驗分佈作為待學習潛在變數,通過變分推斷來估計z的後驗分佈p(z|x),x為包含使用者,商品和上下文的所有特徵。

由於引入了分佈建模的方法,傳統的優化方式不可導,這裡使用變分推斷的方法進行求解,我們最終的損失函式可以化簡為(詳細的推導過程可見論文《Alleviating Cold-start Problem in CTR Prediction with A Variational Embedding Learning Framework》):

第一項為模型的似然(交叉熵損失),即希望模型的預測結果和真實的標籤儘可能的相似,第二項為特徵分佈的約束項(KL散度),即希望學到的特徵後驗分佈和假設的先驗分佈儘可能的相似。

為了增強使用者和廣告之間的資訊表達,我們使用使用者和廣告相應的副屬性作為各自的引數化先驗資訊,更好的聚合具有相似特徵的使用者和廣告的特徵空間,損失函式改寫如下:

其中 為通過使用者和廣告相應的副屬性獲得的各自的引數化先驗資訊,通過變分場,以及對引數先驗分佈的正則,防止過度的擬合,最終的損失函式如下:

其中:

我們的方法在公開資料上取得了較大的收益,公開資料集實驗結果如下表。

上述相關工作已被推薦領域頂級會議 WWW2022 收錄: 《Alleviating Cold-start Problem in CTR Prediction with A Variational Embedding Learning Framework》 ,文章連結: https://arxiv.org/abs/2201.10980

0 2

使用者興趣網路優化

為了提升使用者興趣層次化挖掘的深度,我們從 強化個性化偏差,增強模型語義連線和使用者分佈異構化 三種建模角度出發,對模型的網路結構進行了深層次優化。

1 、強化個性化偏差:PPNet+

當前的網路結構中,使用者個體和目標廣告的共建語義模式,未考慮在全域性使用者的共建語義模式基礎上的個性化偏差。為增加DNN網路引數個性化,我們借鑑了快手推薦團隊提出的引數個性化網路PPNet(Parameter Personalized Net),針對京東廣告推薦場景,做了適配化改造,提出了PPNet+,除了選取使用者ID,廣告ID,三級類目ID等關鍵特徵外,還融入了物品特徵,交叉特徵和使用者行為特徵作為門控神經網路Gate NN(Gate Neural Network)的輸入特徵。同時,我們還融入了使用者歷史點選行為和曝光序列作為side info資訊,輔助 PPNet+ 網路學習使用者個性化興趣。PPNet+模型結構示意如下:

如上圖所示,PPNet+繼承了PPNet的主體結構,底層由特徵層(Features)和嵌入層(Embedding)構成,頂層由MLP學習並控制輸出。考慮到京東首頁推薦廣告場景的複雜性,我們還對序列資訊進行了處理,通過融合emb模組得到一個包含全域場景的fusion_emb特徵向量,並將其同右側的id 特徵embedding 拼接到一起作為 Gate NN 的輸入。同PPNet一樣,模型左側所有特徵的 embedding 並不接受 Gate NN 的反傳梯度,以減少 Gate NN 對現有特徵 embedding 收斂產生的影響。同時我們還對Gate NN模組進行了改造處理,將原有的Neural Layer ReLU模組替換為了對引數更加敏感的Dice啟用函式,並在Gate網路的輸入層加入normalization的操作,將不同域特徵的embedding輸入大小能在相同的範圍,幫助Gate層學習到的權重引數更好的收斂。

2、增強模型語義連線:NeNet

我們注意到,經過 強化個性化偏差 的模型改造,PPNet+的引入雖然增加個性化偏置能力,但這種個性化偏置能力卻更容易受到短期活躍使用者的行為影響,容易使模型在後續訓練的過程中逐漸失去對長尾使用者的興趣的掌控能力,導致模型在每天更新時效果的逐步下降。為了彌補這個缺陷,我們需要對現有的網路結構補足精度,恢復其在模型訓練過程中因為過度學習個性化偏置帶來的梯度更新損失。為此,我們基於殘差網路的思想提出了穿針引線網路NeNet (Needle Net),用以補償模型訓練過程中損失掉的梯度資訊,主要思想可由公式表徵如下:

為非線性啟用函式。可以看到,NeNet融合了非線性函式的學習優勢,同時又包含了原始的輸入特徵,通過類殘差學習的思想,減少了短期活躍使用者的行為帶來的影響,使模型能夠直接學習到底層非偏置化的向量特徵。NeNet不需要保證嚴格的維度對齊,也沒有模組深度要求,因此它可適用於大模型框架下的任何子模組上,相比於原始的殘差網路,學習的引數更加靈活,可適配在模型的主向量和子網路上。

3、使用者分佈異構化:Weighted-MMoE

從京東首頁入口我們可以發現,除主流的廣告推薦外,還包含多種類廣告的展示形式,即聚合頁廣告,活動廣告,店鋪廣告和視訊/直播廣告等。

通過獲取線上資料和離線實驗分析,我們發現不同廣告場景,使用者的點選消費習慣並不相同;同時,不同場景在同一介面下的展現量不同,也會導致使用者興趣的分佈差異。但在當前的模式下所有場景共用一套輸出,導致模型在預估時不同場景的輸出相互制約,進一步限制了推薦廣告的精排序效果。

針對於上述問題,我們將這些多個相互關聯但又不一致的預估目標進行了綜合建模,即引入多工學習的思想來提升上下文推薦的效果。不同於傳統的多工模型的在時間上的序列關係(例如模型在推理使用者是否會點選後還會推理是否下單),京東業務場景下的多工模型更多的是一種時間上並行關係(即使用者在不同場景下的點選不具有先後的承接關係)。考慮到上述兩種情況下,模型依然可以共享高度相似的底層輸入,為此我們引入了MMoE(Multi-gate Mixture-of-Experts)。

需要注意的是,上圖中tower A和tower B所用到的experts是同一套experts。對於不同的廣告場景任務,模型的權重選擇是不同的,所以我們為每個廣告場景配備一個 Gate 門控網路。對於不同的任務,特定的 Gate n 的輸出表示不同的 Expert 被選擇的概率,將多個 Expert 加權求和,得到,並輸出給特定的 Tower 模型,用於最終的輸出。函式表示式如下:

同時,我們發現,原始的MMoE只涵蓋了Gate之間的相互制約關係,並未綜合考慮網路層之間的資訊共享和權重分配關係,為此我們對原有的模型做了一些改動,保持核心部分的專家網路能夠共享底層輸入資訊的同時還能將這種資訊通過權重分配的方式彙總到專家輸出網路中,由此上述公式可改進為:

其中,N的個數隨著專家數目保持一致,attention network模組負責為學習到專家資訊分配權重(即weighted賦能過程),通過這樣的網路設計我們可以讓不同專家資訊在反向求導時共享彼此的資訊流,使模型始終維持一個統一的資訊共享框架。

融合使用者興趣的網路結構優化PPNet+、NeNet和Weighted-MMoE這3個策略合計精排AUC提升0.45%,對線上收入提升明顯。

0 3

全域使用者協同資訊建模

原有精排模型的資料來源資訊單薄,對使用者互動過程中產生的協同資訊利用不足,比如曝光資料和點選資料等,這限制了模型的預估能力上限。京東擁有多app多場景的線上線下的綜合全域資料,是我們可以挖掘的潛在資訊來源。本次升級中,我們從全域點選資料預訓練和使用者曝光資料建模的角度出發,以增強全域資料的利用程度,提升模型的個性化預估上限。

使用者在電商平臺與商品的互動(瀏覽,點選,加購,搜尋,購買等)資訊深刻的反映了使用者的興趣。在CTR預估的任務中,使用者行為建模也一直是學術界和工業界重點關注的話題。現有的使用者行為建模主流方案都是基於attention的機制,將候選商品作為query,對使用者行為中的不同商品計算不同的權重分數來聚合使用者行為序列。我們在此基礎上針對我們的場景進行了一系列的升級拓展,從多個視角,維度對使用者和商品進行更加深入的挖掘和刻畫,在離線資料和線上真實系統中都取得了非常明顯的效果。

1、全域資訊預訓練

在端到端的CTR模型訓練過程中,商品與商品之間的關係建模只會受到CTR預估準確性的影響,商品本身的相關性是被忽視的。而使用attention機制對使用者行為序列處理的初衷便是希望從行為序列中挑選出與當前候選商品相關的那一部分,雖然這種相關性與前述的商品本身的相關性不完全一致,但二者是呈現正相關的,許多工作如DIN在列印attention權重時也論證了這一點,相似商品的attention分數更高。另一方面,端到端的訓練過程中,商品關係的建模也僅僅使用了模型的訓練資料,一般模型的訓練資料只來源於其服務場景的點選曝光資料,對於訓練資料覆蓋率不高的長尾商品建模不充分。若直接加入其他場景的訓練資料,一方面難以保證其他場景資料能正向遷移過來(實驗證明,直接加資料在大場景下很難有收益),另一方面會存在如離線訓練耗時成倍增加,不同場景資料特徵難以對齊等諸多問題。因此,我們通過預訓練的方式,使用京東全站的資料,預先建模商品之間的相關性,將其通過embdedding以及相似性分數作為後驗統計特徵的方式融入模型中,提升模型的表達能力。

由於在推薦系統中,使用者和商品,商品和商品之間的關係非常適合使用圖的方式組織,圖模型在建模商品相關性之間的關係具有天然的優勢。因此我們使用graph embedding的方式離線生成每個商品的embedding向量。主要生成流程如下,具體細節可參考EGES[1]。

通過graph embedding得到每個商品的預訓練向量後,可通過faiss進一步得到一份離線詞表,表中記錄了商品庫中與每個商品最相似的N個商品以及相似度分數。在模型訓練的過程中,一方面可將預訓練得到的商品embedding作為一種side info,與模型建立的隨機初始化的商品embedding引數相結合(相加,點積或concat可根據實驗效果調整)聯合訓練。離線實驗表明,相比於隨機初始化的方式,這種引入預訓練graph embedding的方式可幫助模型更好的學習候選商品和使用者行為中商品的關係。另一方面,由於使用者行為中有很多行為與候選sku沒有關係,即存在較多噪聲,且序列越長,噪聲訊號越多,例如在SIM中提到,通過同類目過濾的方式,過濾大部分噪聲。類似的,我們可通過faiss生成的離線詞表,根據候選商品和使用者行為商品間的相似度分數對分數低於閾值的不相關商品進行過濾,並將相似度分數做一些離散化處理後,作為一種後驗統計特徵加入模型中。

2、基於曝光資訊的興趣建模(Gama)

雖然使用者的點選,加購,購買等正向行為能夠反映使用者的近期和長期興趣,但在資訊流推薦場景中,使用者的實時興趣也不斷受平臺展示出的商品的影響。例如使用者在平臺上瀏覽時可能從未點選過T恤,但平臺給使用者曝光過某一款T恤後,或許是因為價格很便宜,或許是因為樣式使用者很喜歡,使用者當前時刻對T恤產生了興趣。這一類實時興趣由於使用者的點選,加購,購買等行為沒有包含過,因此無法通過這些來建模。因此,需要通過引入使用者的曝光序列來刻畫使用者的實時興趣。

曝光序列建模存在兩方面的挑戰:1.曝光序列長,計算負擔大,而線上系統耗時要求較高;2.曝光序列中大多數商品與當前候選商品無關,噪聲訊號多。針對這兩個問題,我們創造性的提出了一種門控自適應小波多分辨分析模型 Gama ,將無參訊號處理方法和曝光序列資訊獲取進行了結合,解決了上述兩大問題,在不降低模型效能的條件下,從海量曝光序列中自適應地挖掘多維使用者興趣,下面對我們的方法進行描述。

我們提出的模型結構如下圖所示,其中主要模組包括小波分析模組(Wavelet MRA)和興趣門控網路(Interest Gate Net)。小波分析模組,採用無參高效的小波分析方法,對曝光序列進行多層級資料分解,進而去除噪聲,挖掘出使用者曝光序列中蘊含的連貫興趣。而興趣門控網路的加入,旨在自適應地調整多解析度的資料分解結果的聚合權重。

小波分析模組(Wavelet MRA):

針對向量化的曝光序列Eu,小波多分辨分析方法將其看作是多路訊號,逐級進行資料分解,其中第J級的分解結果包括穩定的低頻訊號a和孤立的高頻訊號d,而低頻訊號a會繼續進行下一級的分解。該多分辨分析過程可形式化為以下公式:

其中的H和G分別為低通過濾器和高通過濾器,其具體形式採用的小波基。常見的小波基包括Daubechies、Coiflet、Harr等,其形式請參考小波分析相關資料。

興趣門控網路模組(Interest Gate Net):

對於上述分析方法獲得的多路訊號,最簡單的使用方法是採用其平均值。但該方法無法自適應的學習到各訊號分量權重,因此我們進一步提出一下興趣門控網路。假設目標商品表徵為eq,我們採用注意力機制可對某一訊號s進行聚合:

而針對所有我們需要考慮的分解訊號(如d1,d2,a3),我們可以獲得使用者表徵wu:

其中

我們首先驗證了該方法在公開資料集(Taobao)的效果,在多種基於使用者興趣的CTR建模框架中取得了約10%的效果提升,同時該方法對冷啟動使用者尤為有效。

同時,我們在京東資料集上也做了離線實驗,取得了不錯的AUC提升,線上A/B效果提升明顯。

上述兩項全域協同資訊建模建模工作AUC累計提升0.35%,線上收入提升明顯,相關工作已被機器學習頂級會議 SIGIR2022 收錄: 《Gating-adapted Wavelet Multiresolution Analysis for Exposure Sequence Modeling in CTR prediction》 ,文章連結: https://arxiv.org/abs/2204.14069

0 4

其他工作

在變分特徵學習框架、使用者興趣網路優化和全域使用者協同資訊建模工作之外,在精排模型上我們還做了以下升級:對特徵由XGBoost綜合打分後排序,對重要特徵的embedding向量做維度擴充套件;升級神經網路結構的Dense層為Nadam,Sparse層為adagrad;在使用者行為序列中引入時間和位置資訊增強序列屬性豐富度;引入商品廣告的主題ID頻次網路子結構。綜合上述技術的整體優化方案,精排模型的累計AUC收益超過1%,在精排上我們還有幾個創新的工作在進展中,包括生成資料式CTR框架、Item-server分桶序列框架和Item協同替代表示學習技術。

總結與展望

總結過去,京東零售廣告演算法定向組和工程團隊經過半年的技術探索,針對模型冷啟動場景、使用者興趣挖掘和全域協同建模三個維度的挑戰提出了針對性的系統升級方案: 變分特徵學習框架、使用者興趣網路優化和全域使用者協同資訊建模 ,總結歸納出了一套推薦廣告精排AUC百分位的提升技術方案,這套技術方案已於618開幕前夕在京東APP完成了全量上線。同時,本文中的技術方案也應用在了京東APP泛商品活動智慧優選等專案,為京東618大促活動帶來了顯著收益。

京東零售廣告資料與演算法團隊負責人林戰剛表示,"過去,我們通過技術創新構建更精準的使用者行為建模和預測能力,提升使用者體驗的同時帶來了平臺收益,實現了平臺和使用者的雙贏。未來,我們將通過持續提升資料的長度、寬度、厚度,建立針對全域使用者的深度理解,基於此構建更復雜更精準的智慧演算法模型,在新形勢下助力京東廣告業務發展"。展望未來,首先我們將積極探索新的精排技術正規化,包括生成資料式CTR框架和Item協同替代表示學習技術框架。其次,在使用者興趣的深度挖掘上,我們構建了圍繞使用者特徵的User Server動態表徵賦能框架。面對多元的訓練資料和更長更寬更厚的全域使用者協同資訊,我們設計了Item全域行為序列架構。精排點選率預估技術是機器學習演算法技術驅動業務增長的核心模組,也是技術人員持續追求演算法最佳精度的經典領域,我們會持續精進,與同行一起探索未來技術。

專案成員:黃若然、徐曉曉、吳向東、胡軍士、楊晨、于謙、楊效淳、趙梓皓、陳明明、劉衝、馬魁、齊浩、李健、王昆垚、徐海平、王建領、王寶、高嵩、金均生、範朝盛、彭長平

如果對我們的工作感興趣,歡迎聯絡做技術交流

範朝盛: [email protected]

參考文獻

[1] Wang J, Huang P, Zhao H, et al. Billion-scale commodity embedding for e-commerce recommendation in alibaba[C]//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2018: 839-848.

[2] Zhou G, Zhu X, Song C, et al. Deep interest network for click-through rate prediction[C]//Proceedings of the 24th ACM SIGKDD international conference on knowledge discovery & data mining. 2018: 1059-1068.

[3] Jiaqi Ma, Zhe Zhao, Xinyang Yi, Jilin Chen, Lichan Hong, and Ed H. Chi. 2018. Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts[C] //Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (KDD '18).  2018: 1930?1939.

[4] Andreas Veit, Michael Wilber, and Serge Belongie. 2016. Residual networks behave like ensembles of relatively shallow networks[C]//Proceedings of the 30th International Conference on Neural Information Processing Systems (NIPS'16). 2016: 550?558.