搜尋場景下的智慧實體推薦
分享嘉賓 :陳溪 騰訊 研究員
編輯整理: 吳曉 慶 東南大學
出品平臺:DataFunTalk
導讀: 本 次分享題目為搜尋場景下的智慧實體推薦,主要分為四部分講解:
-
場景介紹及概覽
-
實體推薦相關性
-
稀疏資料下的實體召回
-
多領域多場景下的實體推薦
01
場景介紹及概覽
1. 場景介紹
首先是整體場景介紹和概覽,我們的實體推薦是推薦與query相關的實體,並聚合為不同的維度呈現出來。
① 通用推薦
舉例:query為“劉德華”,推薦相關的人物與影視。
② 垂直領域推薦
舉例:query為影視領域時,推薦相關電視劇及同演員影視;query為小說領域時,推薦相似小說、同作者小說等。
下圖右下角我們在小說閱讀器場景下實體推薦的嘗試。
2. 產品技術框架
下面介紹我們的整體技術框架,主要分為:基礎資料、底層能力、推薦系統、應用場景四部分。
① 基礎資料
在基礎資料上會使用原始日誌,包含搜尋日誌、曝光點選;還會接入知識圖譜、垂直靈犀、垂直網站以及doc內容資訊。
② 底層能力
在底層能力上,對於query會做文字理解和實體理解工作,文字理解工作包含意圖判斷、實體識別以及實體消歧,實體理解包含實體質量、實體分類以及實體關聯。
③ 推薦系統
在基礎資料和底層能力之後,進入到推薦邏輯之中。在推薦系統中主要分為召回、排序和質量控制三個部分。在召回部分主要採用多路召回佇列的方式,比如基於協同過濾的方法、基於內容的方法以及基於語義或知識圖譜的方法等。排序的過程主要是通過CTR融合多路召回佇列,針對不同的業務場景會考慮使用者體驗以及整體的多樣性做重排。質量控制中會將質量較差或者比較敏感的資訊過濾掉。
④ 應用場景
在應用場景中,除了在結果頁搜尋場景中應用,也在QQ瀏覽器內其他場景進行了嘗試,比如小說閱讀器,百科以及第三方頁面等,都有一定的效果。
02
實體推薦相關性
實體推薦需要保證與query的相關性是合理的,在這種情況下,我們產出了自己的方案。
1. 使用者查詢
在搜尋場景下,使用者的查詢行為是主動行為,一般帶著比較明確的意圖;與之相對應的推薦結果是被動接收的,本身對於推薦的實體沒有明確的預期。在這樣的情況下:
-
我們既要保證推薦的結果與query是相關性的,也要保證開放性,讓使用者獲取到新的知識。
-
採用的方案:對query預測隱含的類別,然後對最終的推薦結果做限制。
我們瀏覽了使用者大量的查詢詞之後,將query主要分為三大類:
-
query不直接包含實體,但隱藏著對實體的需求 。比如:query為“中國特色的運動會吉祥物”,使用者對虛擬人物類實體有需求。
-
query包含單/多個實體 。比如:query為“人世間劇情介紹”,使用者需求為影視類實體。
-
query就是實體名稱 。比如:query為“天龍八部”,在知識圖譜中對應多個實體ID,需求的可能性較多。
2. 補充多場景資訊,豐富query內容
query本身是一個較短的文字,蘊含資訊量少,較難預測,因此補充多場景資訊,以達到豐富query內容的目的。比如:query為“艾爾登法杯”,是一個新詞,查詢詞的熱度陡增,訓練資料無積累,純文字識別難度大,因此我們引入了知識圖譜和搜尋場景的特徵。在知識圖譜特徵中,將“艾爾登法杯”的屬性融合進去;結合搜尋場景的特徵,我們將點選的標題和站點資訊融合,輔助我們識別意圖。
3. 結合使用者會話內的前序行為,輔助判斷查詢詞指向
針對部分多義項的實體名稱,我們結合使用者會話內的前序行為進行判斷。比如:query為“天涯明月刀”,可以指向遊戲、書籍、影視等,此時我們根據使用者歷史查詢行為進行判斷。若使用者A歷史行為包含遊戲查詢詞,那麼此時選擇遊戲實體的概率更高;使用者B歷史行為中點選書籍站點,那麼此時選擇書籍實體的概率更高;若使用者沒有前序行為,將最熱門的實體作為兜底策略。
4. 融合
將前面搜尋場景特徵、知識圖譜特徵、使用者前序行為特徵進行融合。將這些特徵分別做embedding對映,上層通過多塔融合特徵,每個塔單獨負責預測每一個類別的概率,再通過動態設定各個類別的閾值,判斷最終是否出現此類別,後續通過出現的類別控制召回。
03
稀疏資料下的實體召回
確認了使用者query需求之後,進入召回階段。我們發現在上述方案下,對於頭部查詢詞有較好的覆蓋情況。相對熱門查詢詞,針對冷門查詢詞或實體的召回比較困難,因此如何緩解稀疏資料下的實體召回是我們深入討論的問題。
1. 搜尋場景下資料的稀疏性
通過分析整體的資料,將資料的稀疏性分為兩個方面:
-
查詢詞的稀疏性 :冷門查詢詞或者新出現查詢詞沒有資料積累,查詢詞熱門但積累實體不足,因此召回困難。比如:query為“冰墩墩”,使用者搜尋的query都圍繞“冰墩墩”、“雪容融”展開,這種情況下可挖掘的實體有限,但存在著深層可激發的興趣點還有“其他冬奧會吉祥物”。
-
實體的稀疏性 :由於馬太效應,熱門實體反覆推薦,新鮮感弱化;另一方面是基於長尾理論,大量冷門實體很少被推薦,但並不代表冷門實體沒有需求,因此冷門實體可以用作啟用使用者深層興趣,激發使用者更多的需求。
針對這兩種稀疏性,我們產出了不同的解決方案:
① 查詢詞稀疏性解決方案
將原始query轉化為召回能力強、相似度高的query補充召回。轉化過程中主要使用三條路徑:
-
itemCF :藉助使用者行為,挖掘有關聯的,但字面不一定相似的query。比如使用者搜尋“谷愛琳滑雪”,此時由於使用者對人物的不熟悉出現了錯別字,我們將其糾正為“谷愛凌個人簡介”。
-
IR :倒排索引的方式。我們對query文字分詞,挖掘字面相似的query。比如“谷愛琳滑雪”可以召回“谷愛凌簡介”。
-
SR:基於雙塔的語義模型。召回語義相近,但發散性更好的query。比如“谷愛琳滑雪”可以召回“谷愛凌國籍”等。
在我們的場景下,我們既要考慮轉化後的query與原始query的相似性,也要考慮query本身召回實體的能力。因此我們在訓練雙塔模型時,將query本身召回實體能力作為約束條件。首先通過query的歷史表現擬合分數,歷史表現包含實體點選、返回實體個數等特徵;然後將擬合後的分數作為輔助目標,在學習過程中,將預測的分數和擬合的目標分數做差值,將差值融合到loss中。這樣的模型更適合我們的實體推薦場景。
搜尋場景特點: 大部分以核心實體展開。 在此特點下,我們既要挖掘相似的query,也要挖掘核心實體輔助召回。 因此引入了實體連結方法。
-
實體識別:我們引入知識圖譜屬性構造別名字典,同時根據使用者搜尋行為反饋輔助識別,最後使用NER的方式做通用實體識別補充。
-
場景適配 :包含核心實體判斷和意圖類別匹配。只有核心實體我們才會保留,同時判斷query的意圖和實體的類別是否匹配。
-
實體消歧 :得到候選實體後,需要進行實體消歧。考慮實體embedding、實體屬性、實體描述、同時考慮搜尋場景下百科的熱度、query特徵、doc特徵等。
② 實體稀疏性解決方案
實體在知識圖譜中呈現出圖的結構,我們選擇使用GNN實現實體embedding泛化。首先根據使用者session、知識圖譜關聯和doc內容構建實體關係圖;然後對正負樣本取樣,生成最終的訓練集合。
-
實體關係圖構建 。基於使用者session可以得到使用者熟知的關係,基於知識圖譜可以補充未知知識,基於網頁或者資訊流內容的方式可以挖掘出現頻率較高的實體對,補充具有時效性的關係和新奇的知識。
-
正負樣本生成 。正樣本取樣使用有偏動態遊走的方式。通過負樣本的優化豐富整體訓練資料。負樣本包含easy樣本和hard樣本,easy樣本通過隨機負取樣和熱度負取樣的方式得到,hard樣本由兩種取樣方式得到,第一種是通過同類型實體熱度負取樣和top鄰居節點型別熱度負取樣的方式得到,第二種是通過加長步數降低q值隨機遊走,遊走到的節點按次數排序,選取末端節點作為負樣本。
訓練過程存在冷門實體訓練不充分情況,於是需要補充實體的side info,包含實體類別、實體上位詞、實體關鍵詞; 然後通過Attention動態調整特徵權重。
存在問題:僅考慮當前節點資訊,泛化能力受到遊走正樣本限制。
因此,我們引入GraphSAGE模型的思想引入當前節點的鄰居節點資訊來豐富表徵。
以下是我們模型的結構:
根據場景特點做了優化,在GraphSAGE中,在Sample方面我們嘗試使用不同階鄰居,最終採用K=2,以保證相關性和訓練迭代效率; 改變原有均勻取樣的方式,優化為30%的均勻取樣和70%的熱度取樣。 在Aggregate時,採用attention機制聚合取樣鄰居,考慮不同鄰居對當前節點的影響。 將EGES模型embedding作為輸入,藉助預訓練優勢,防止區域性最優問題。
04
多領域多場景下的實體推薦
在引入了實體的Graph embedding後,通過向量檢索的方式豐富整體的召回,再結合基於使用者行為、知識圖譜的召回方式,就獲得了多路的召回佇列。然後進入排序階段。由於實體含有不同的類別和屬性,且query可以對映到不同的領域,因此需要對多領域多場景的推薦做適應性的策略。
1. 多維度特徵建設
多維度的特徵建設主要有query維度、實體維度和聯合維度。
-
query維度 :引入query關鍵詞、query意圖、query點選資訊、同時考慮query本身需求多樣性。
-
實體維度 :考慮實體質量、歷史表現、確認搜尋結果頁優質。
-
聯合維度 :考慮歷史表現、query和文字的相似度、query與實體察覺度。
2. 多領域模型建設
-
場景特點1 : 不同領域的實體屬性不同。
-
場景特點2 : 類別間資料不平衡,熱門類別資料充分,冷門類別資料不足。
針對場景特點,優化我們的模型結構。
將query特徵、通用實體特徵共享,以保證這部分特徵訓練充分;對於不同領域的特徵,具有獨享的特徵;每部分特徵都含有專門的網路進行預測。
3. 多場景維度細化
針對不同的場景,通過維度細化提升使用者體驗。在我們的推薦場景下,除了圖片、名稱、描述之外,還提供類別提示。
-
類別作用 :輔助理解推薦邏輯、幫助使用者瞭解同類實體。因此,細化類別後,使用者會有相應感知。
-
細化類別 :引入知識圖譜資訊,知識圖譜中實體類別體系及概念體系。
今天的分享就到這裡,謝謝大家。
在文末分享、點贊、在看,給個3連擊唄~
01 / 分享嘉賓
陳溪
騰訊
研究員
本科畢業於上海交通大學,南加州大學碩士。畢業後加入搜狗,參與了自動補全、搜尋推薦等產品相關的研發工作。目前就職騰訊,負責QQ瀏覽器中實體推薦相關產品的優化。
02 / 專題電子書 限時免費送
03 / 報名看直播 免費領PPT
04 / 關於我們
DataFun: 專注於大資料、人工智慧技術應用的分享與交流。發起於2017年,在北京、上海、深圳、杭州等城市舉辦超過100+線下和100+線上沙龍、論壇及峰會,已邀請超過2000位專家和學者參與分享。其公眾號 DataFunTalk 累計生產原創文章800+,百萬+閱讀,14萬+精準粉絲 。
分享、點贊、在看 ,給個 3連擊 唄 ! :point_down:
- 搜尋場景下的智慧實體推薦
- 美團基於知識圖譜的個性化新聞推薦系統
- 360 x 清華大學:圖文跨模態表示最新研究成果公開
- 圖譜問答在小米小愛中的實踐探索
- 騰訊圖神經網路與推薦預訓練模型
- 圖機器學習在螞蟻集團推薦業務中的應用
- 杉數科技王子卓博士:資料驅動的智慧決策
- AI賦能金融風控全場景,輕鬆實現信貸評分、工程管理、理賠反欺詐!
- 可證明安全的隱私計算
- Flink Table Store v0.2 應用場景和核心功能
- 華為圖神經網路在推薦系統中的應用
- 揭祕位元組跳動解決ClickHouse複雜查詢問題的技術實踐
- Alluxio 2.8版本新看點
- OpenMLDB 最新版本、架構設計與落地案例分享
- 145億次播放,6千餘萬用戶,凱叔講故事APP資料埋點治理及分析實踐
- 推薦演算法中的特徵工程
- 華為在聯邦廣告演算法上的探索及應用
- Atlas超算平臺基於 Fluid Alluxio 的計算加速實踐
- 多租的安全性怎麼保障?揭祕阿里雲大資料平臺MaxCompute在多租上的實現!
- 未來10年,AI開發者面臨的三大“坑”!