飛槳圖神經網絡PGL助力國民級音樂App,創新迭代千億級推薦系統

語言: CN / TW / HK

每當夜深人靜時,你打開網易雲音樂,或聽歌刷樂評,或看直播閒聊,享受着以心交心的放鬆愉悦。在這背後,有一羣技術人員苦思冥想地探索着,只為讓“雲村”越來越懂你。

“不同於一般的聊天文本或圖片,音樂本身是跨域數據,具備若干特徵,數據維度非常多。而1.8億月活海量用户的音樂相關數據,帶來的計算量、推薦量、參數規模都巨大無比。”網易雲音樂機器學習平台技術團隊意識到,在這樣複雜問題面前,傳統機器學習方法漸漸無力招架。

此外,雲音樂的直播業務興起,商業化表現良好,團隊的擔子更重了,“直播行為與音樂行為差異甚大,這意味着計算量與難度進一步增加。”壓力之下,該團隊將目光瞄向“圖神經網絡”,並最終選擇應用百度飛槳PGL圖神經網絡技術來迭代升級雲音樂的推薦系統。

 

推薦系統為何

    需要圖神經網絡?

作為全球知名音樂社區,網易雲音樂在繁榮發展的同時,其推薦系統面臨三大難題:囊括音樂、歌單、Mlog、直播、雲圈、動態等的多域數據;海量用户產出的超大規模數據;超30萬音樂人發佈歌曲,超28億用户產生歌單,27%用户交流/生產內容構成的動態數據標籤。

傳統的機器學習方法需要嚴格制定一套規範來提取樣本,逐項指定樣本的各個特徵。但云音樂用户產生的多域數據,可能會有若干個特徵,加上近2億的用户規模以及高頻率的動態更新,必須進行巨量的計算,機器學習方法的訓練效率因此大受限制,變得十分低效。

而圖神經網絡技術的約束性較小,把每個用户當做點,用户的標籤作為邊,不同用户之間基於點和邊的關聯形成網,在此基礎上建模分析,因此能更高效地表徵、篩選某一類用户。比如,當兩位素不相識的寶媽,同樣愛聽某些親子歌曲時,她們在“圖”中就有可觸達的連接,模型會根據這些連接關係學習出合適的表徵,並把這些親子歌曲推薦給相似的用户羣體。

事實上,圖神經網絡已經成為目前互聯網企業高效表徵用户與內容結構的關鍵技術。既能基於用户在歌曲、歌單、動態、Mlog等各方面的跨域行為聯合建模;又能支持多種行為子圖,如深挖用户在歌曲方面的播放、點贊行為;並支持載入用户節點的畫像特徵與內容節點的類型特徵;還支持靈活擴展,如適用音樂業務場景的圖神經網絡應用能很方便地遷移改造用來支持直播業務場景。

 

飛槳PGL圖神經網絡的

三大領先能力

市面上提供圖神經網絡技術的廠商不少,説起選擇百度飛槳PGL的原因,網易雲音樂機器學習平台技術團隊總結了三點:飛槳PGL支持超大規模數據的全圖存儲、子圖檢索、高效圖學習三大領先能力。

團隊曾經嘗試過多家國內外頂級廠商的圖神經網絡技術,其中兩家國際大廠的產品沒有現成的分佈式編程範式,無法高效地處理超大規模圖模型訓練當中遇到的圖存儲、分佈式訓練等問題,在單機層面頂多支持到千萬級別或億級別,而到了百億甚至千億級別,只有飛槳PGL挺住了。

據介紹,雲音樂的數據規模非常龐大,數據關係即使經過裁剪也高達千億級別以上。而飛槳PGL技術,原生支持分佈式圖存儲和分佈式採樣,可將圖的特徵存儲在不同的Server上,也支持將不同子圖的採樣分佈式處理,並基於PaddlePaddle Fleet API來完成分佈式訓練,實現在分佈式的“瘦計算節點”上加速計算,因而能夠為雲音樂處理高達百億級別的大規模數據。

不僅如此,飛槳PGL實現了極低成本的大規模圖存儲,這讓網易雲音樂技術團隊非常認可。“飛槳PGL的分佈式圖存儲方案比較靈活,適合雲音樂,能快速搭起若干個分佈式網絡,無需專業數據庫存儲底層能力,存儲成本降低70%+。”在4億節點與400億邊數據這樣的場景下,飛槳PGL的分佈式圖引擎資源,以60彈性節點(4CPU,16GB)的配置,可提供比中心化數據庫更簡單、更靈活的存儲服務。

再者,他們團隊還體驗到飛槳PGL的另一個優點,即靈活的子圖檢索模式飛槳PGL不僅預置常用模式,同時聯動分佈式圖存儲引擎,支持自定義子圖檢索模式,更符合業務實際需求,使用起來更順手更高效。

飛槳PGL給網易雲音樂技術團隊印象最深的一次是,用不到30多台閒置老舊CPU機器在1天內訓練完100個epoch數百億邊的LightGCN模型。這在業內人士聽來可能會有些不可思議。“要是換成過去那種單機方案很難實現,因為內存早已爆掉了,無法存儲這麼巨大的圖。”團隊成員介紹道,也許還有其他方案能實現,但飛槳PGL的方案,性價比極高,適合大規模應用。雲音樂的推薦系統採用飛槳PGL技術後,在冷門歌曲分發、雲村廣場、陌生人一起聽等多個細分業務場景的效率都有不同程度的顯著提升,最高甚至提升了近一倍。

可以説,飛槳PGL所提供的支持超大規模數據的極低成本全圖存儲、靈活子圖檢索、高效圖學習等能力,在雲音樂的工業實踐中真正用下來,發現都是能夠滿足實際需要的。這正是飛槳平台源於產業實踐,更適合產業應用的最好證明。

 

飛槳PGL圖神經網絡

打開應用新空間

基於超大規模複雜數據的用户與內容理解是許多互聯網內容企業所面臨的共同課題。飛槳PGL圖神經網絡技術在網易雲音樂的成功落地,佐證了自身作為企業可用的高性價比超大規模圖神經網絡方案的強大實力,將助力這些企業高效、低成本地表徵用户與內容,創建完善精準推薦機制,做用户的“知心人”,進而催生新形態新模式,從中獲取商業收益。

接下來網易雲音樂機器學習技術團隊還將立足雲音樂的實踐,探索圖神經網絡技術與AI的深度融合創新,如構建音樂社區的用户和內容理解中台,以及基於知識圖譜的圖神經網絡落地應用;並計劃與飛槳一起反哺開源社區,助推圖神經網絡技術在產業界廣泛落地。

點擊進入獲得更多技術信息~~