京東零售焦文健:挖掘客戶意見,驅動經營改善

語言: CN / TW / HK

分享嘉賓:焦文健 京東零售 資料產品專家

編輯整理 :吳祺堯 加州大學聖地亞哥分校

出品平臺:DataFunTalk

導讀: 現在大家越來越重視使用者研究。 一個公司成功的核心要素首先要去確定目標市場的需求和需要,並且要能夠比競爭對手更好地提供顧客滿意度。 本次分享會從產品和業務的角度去展 示在實際京東的業務場景下文字挖掘技術是如何發揮作用和價值。

今天的介紹會圍繞下面四點展開:

  • 客戶意見的重要性

  • 文字挖掘方案及架構

  • 場景化產品洞察方案

  • 應用案例

01

客戶意見的重要性

市場營銷的成功四大要素中,基本上都是圍繞著顧客價值、顧客滿意、顧客的信任感和顧客維繫體系來建立。在IDC的研究中發現在擅長使用者研究並收穫良好客戶體驗的公司中,它們會比競爭對手的收入高出4%到8%。

京東主要經營電商業務,我們也研究了使用者買單的動機。傳統上商品基本上圍繞著客戶核心功能上的需求來進行銷售。現在越來越多的商品對概念進行了延伸。除了核心的物理功能外,如外觀設計、售後、配送服務等構成了中間的形式層面的產品。在最外層,在精神層面,商品需要和使用者進行更深入的交流,屬於附加產品。基本上任何一款產品想要成功都需要在這三個層面上有不同程度的完善。

我們如果僅僅針對使用者的行為進行分析,比如通過瀏覽、點選、收藏、加購等,還不能完全滿足對消費者的刻畫、理解以及認知,具有一定的侷限性。它無法去捕捉客戶的主觀意見,難以對使用者心智層面進行洞察。在電商的環境下,使用者的行為分析更多的是分析使用者在下單前、購買前的使用者行為資料,但是在使用者購買產品後的使用體驗是使用者行為無法捕捉到的。這更多地需要使用使用者的評論,售後的諮詢或者與客服的電話溝通中的文字資訊進行分析。對於文字的通用分析有較高的門檻,在未來潛力巨大。根據IDC的研究,整個結構化的資料目前只佔到全部資料量的20%,另外80%會以檔案的形式存在。這種非結構化的資料增長非常快,所以未來有很大的潛力。

02

文字挖掘方案及架構

每天有近五億的使用者活躍在京東的平臺上,每日新增的評價、諮詢、搜尋等資訊達到幾千萬條。這背後蘊含了大量的文字資訊,我們希望從中挖掘使用者的根本需求,即他們在使用一款產品後會用到什麼,遇到什麼樣的問題,還有哪些方面還沒有得到需求上的滿足。這就需要使用我們對非結構化資料的解析以及分析能力。

整體業務邏輯如上圖所示。最左邊是使用者的原始反饋資料,包含使用者對商品提出的各種意見和問題。在此基礎上,我們會使用NLP演算法對資料做抽取,並在此基礎上把使用者的正負向情感做分類,之後在結構化地抽取客戶在吐槽什麼型別的問題。最後,我們會將得到的結果產品化,變成一種給予業務分析師直接使用的功能,使得他們可以從分析的視角更直觀地應用資料。從文字的分析角度來看,比如最左側的一列是使用者的原聲,即包含使用者的吐槽,我們需要把每一句中大家在吐槽哪一種型別的問題提取出來。這是一個分類問題,我們還需要對型別做梳理,將型別層層拆解,分為大概五級的細粒度類別。例如,“我買完就降價”這一句話,首先把它理解成吐槽商品的價格問題,而進一步我們可以把它理解成吐槽商品降價快這一問題點,從而使得問題可以有一個相應的改善。

京東的品類非常多,不同類目的商品的問題結構或者標籤結構不太一樣,需要我們逐步地做一些梳理。比如食品,快消,電腦數碼這些品類,它們的問題點不太一樣。我們使用五個級別進行梳理,其中到了第四級就是偏產品屬性的維度,例如是在描述材質問題還是CPU記憶體方面的問題,也有可能是外觀不好看,用料差,記憶體不夠用的一些細粒度的觀點。

我們文字挖掘的架構設計會首先將原始的使用者評價的文字做清洗與切詞。有的時候一句很長的評論裡面可能會包含多種情感與觀點,此時我們需要切成短句之後再進行抽取和分析。中間我們還加入了業務側的知識沉澱,因為在京東的場景下,每一個品類的內部會有自己的分析師,他們會通過關鍵詞等方式積累一些業務的分類。為了更好地拓展整個中臺的能力,我們會把他們的知識引入來豐富我們的標籤結構,也可以用來豐富標註資料。如果文字命中了業務維護好的資訊,就可以直接輸出業務維護的標籤內容;反之則輸入情感模型來判斷當前短句是屬於中性情感,正向情感還是負向情感。中性情感和正向情感我們會進行其他的處理。對於負向情感,我們會將其分為兩大類。第一類是服務類的問題,比如物流、配送、客服等通用性問題,不同品類之間這類問題相差不大,所以我們可以直接對文字使用TextCNN這種多分類模型識別屬性,最後使用USE對屬性與標籤進行相似度的識別,最終輸出多級標籤的分類結構。第二類是商品類的問題,如材質、外觀、CPU記憶體等。這類問題品類之間差異化比較大,我們通過引入Roberta模型進行屬性分類,並在此基礎之上使用USE進行標籤與屬性的相似度識別,最後形成模型的分類結果。

下面和大家分享一下文字挖掘架構中幾個關鍵的設計要點。

首先是業務知識的引入。在前期使用業務資料的關鍵詞可以對架構做一個補充,一方面能夠提高效率,另一方面也能夠提供給我們很多可以用於在標註時參考的短句。另外,有時候業務會針對使用者文字中的一些短句直接判斷出所屬的問題以及背後的原因,屬於專業性的業務知識判別。比如我們看到顯示器邊角存在黑屏或者暗角的描述,我們往往會認為這個可能是在描述螢幕本身出現了什麼樣的問題,但是從專業的電腦行業知識來看,很大的概率是背後的電路或者映象管發生故障。所以在架構中維護業務知識可以直接去指導改善文字中反映的問題。

第二部分是我們在模型層面的優化。我們的業務分析師會通過建立關鍵詞庫的方式處理每一個品類中一些問題的標籤關鍵詞以及其對應的短句。在此基礎之上,我們做了深度模型的訓練和召回,使得準確率和觀點識別量均有非常大的提升。最近京東線上跑的模型全部都已遷移成了預訓練的roberta base加上對比學習的方式來支援。當然這對於硬體的成本會有很大的消耗,它需要有GPU的支援。如果我們不需要很高的精準度,那麼將roberta替換成兩層的lstm也可以實現類似地效果,而且它直接通過CPU就可以完成訓練,成本的消耗相對較小。

第三部分是標註環節的規範化和優化。對於文字類的處理,標註環節決定了模型的上限效果。如果標註做得好,那麼模型的上限以及效果會比較好。對客戶的文字意見進行處理和分析時,因為模型是一個多分類問題,標註的類目和分類非常多。此時遇到的問題是如何提高標註效率和精準度。京東的經驗是通過多次標註的方式。在第一階段,我們先通過多分類標註為所有商品提供每一類的屬性。每一類屬性下提供了一定量級的樣例樣本,例如外觀、工藝材質、活動介紹等。在標註人員調整完標定的標籤之後,我們可以對標註結果進行擴散,最終使用USE在樣本的範圍中做一些其他相似語料的擴散。第二階段是對擴散完畢的資料進行進一步標註,只不過這裡只需要進行一個二分類的標註即可。具體地,我們對擴散完畢後新擴充的語句交由標註人員去判斷是否真正屬於擴散的屬性。綜上所述,每一個模型的訓練需要經過兩輪標註,但是每一輪標註的資料量可以大幅減少,同時這種方式可以更好地擴展出一些優質的標註資料。對樣例較少的資料,這種方式還可以解決資料失衡的問題。針對第五級的標籤,即觀點層面上,比如細粒度的語句“外觀不好看”等,由於它的分類特別多,所以我們採用USE相似度的方式找到衍生的短句,並在它們中標識是否真正屬於我們提取的標籤。如果它屬於當前標籤,我們會使用聚類的方式形成新的標籤。通過這一流程,我們可以擴充、完善前期沒有總結出來的標籤類別。

在最後一個環節,我們需要在訓練集和測試集上由模型跑出一個效果來,但是在最終業務應用的環節裡我們還會給業務人員一些具體的樣例資料去做驗證,以此來觀察模型是否符合實際業務經驗。這個環節往往會耗費較大的精力和時間。模型迭代之後,我們會抽取一些文字進行人工評估,基本上1000條資料平均需要三個小時才能完成。此外,驗收過程中不同的評估人員會存在理解偏差。為了解決這些問題,我們構建了一個標準化的測試集。具體地,我們預設了一批文字和對應答案。當模型進行迭代需要驗證效果時,我們直接可以使用建立好的測試集進行實驗,標準化的結果(準確率、召回率等)可以直接被計算出來,省去了耗時耗力的人工過程,提高了工程效率。

03

場景化產品洞察方案

基於前述文字挖掘的設計架構,我們製作了一個產品使其能運用到不同的場景中解決使用者的問題。它最直觀的應用是在業務人員的使用體驗的改善。我們把大量的文字語義做了結構化處理後,通過對不同品類、品牌、產品的聚合,使用產品化的方式提供給業務人員,讓他們更方便地分析、定位使用者的吐槽以及吐槽背後的原因。

我們拆解的邏輯是結合NPS的十大要素。NPS是行業裡比較通用的淨推薦值,用來度量使用者滿意度。傳統上,它通過取樣調研的方式手機使用者反饋,通過問卷的形式來讓抽樣使用者對自己的產品進行打分。但是這樣的指標,雖然它在一定程度上能夠度量客戶的滿意度,但是它無法解釋指標產生變化的背後原因。我們通過大小資料結合的方式,就可以通過產品評價、售後中使用者的吐槽來分析哪些問題比較集中。或者哪些問題是影響使用者體驗的核心問題。

第二個應用場景是需求的洞察,包括針對特定的消費者去挖掘它們背後的觀點。因為在每一款產品、每一個品牌背後都有自己特定的目標人群。我們可以結合京東的大資料,基於使用者畫像做使用者的分群。通過這種方法,我們可以針對不同年齡,不同性別或者新使用者、首購使用者、復購使用者、流失使用者等群體,觀察他們的吐槽分別是什麼樣子的,收到什麼樣因素的影響,流失到了其他哪些品牌。這樣的資訊對業務有著更實際的指導意義。

在意圖洞察中,我們對搜尋詞進行了詞性的劃分和分析。每一個品類裡,我們把使用者長搜詞和熱詞,或者最近增長最快的一些詞找出來,評估每一個詞的需求滿足度。每一個詞可能就代表著背後的一種需求,如果它的需求滿足度不高,就意味著使用者有大量的搜尋是沒有找到自己需要的商品。上述未被滿足的需求在細分的品類和市場當中可能蘊含著一些機會等著我們去發掘。此外,比如“老年手機”是手機中一個細分的品類,它最近的增長趨勢較好,那麼使用者可能同時會搜尋“超長待機”、“大屏”、“大字型”、“大聲”等資訊。從搜尋詞裡就蘊含著圍繞老年手機我們應該去主打什麼型別的功能賣點。

同時,我們也支援一些靈活的批量文字自定義上傳。如果有些其他源的文字也可以直接上傳至產品系統,形成簡報或者通過API來呼叫資料。本質上來說,我們通過產品化的方式,將演算法與模型的結果做了封裝,從而讓它們更好地在業務中進行應用。

洞察結果產品化的核心價值是通過研究海量的文字資料,實現使用者研究的智慧化升級以前我們的品牌或者業務想要了解使用者的體驗以及使用者人群差異需要通過調研問卷等方式去實現。這種方法覆蓋的樣本量比較少,研究週期很長,成本也比較高。對於一些小公司,根本沒有時間與精力投入這樣的使用者研究中。通過洞察結果產品化的方式可以大大簡化流程環節,通過海量的資料覆蓋到核心的目標使用者群體。智慧分析可以快速地提高可供決策參考的結果。  

04

應用案例

下面展示幾個實際的業務場景的例子。

比如耳機耳麥這個案例。我們最近完成完成了一個試點,它在特定的一個品類上做了上線,上圖最左邊就是上線後的效果。原來的評價都是使用者的原始語義標籤,現在我們將耳機耳麥中核心的、使用者最關心的功能點,如音質、做工、電池效能、連線效能、佩戴舒適等進行抽取。然後,針對這一款產品,在每個功能點上展示使用者的平均。例如大部分使用者任務你的連線效能很好,但是覺得音質不太好,導致整個產品評價不高。所以,通過分析品類重點屬性,可以把產品實際的表現拆解為各個方面呈現給消費者。以前大家只能通過商家的商品詳情頁上的描述來獲取商品的功能介紹,現在我們也可以通過使用者原始評價中抽取它們,省去了使用者的翻閱操作。於此同時,商家也可以藉此契機對展示的問題做一些相關的改善。對於一些質量不高,對質量把控不嚴的商家,這種展示形式會帶來更大的壓力。我們發現通過這樣的方式,在不同維度上,商家對產品是會進行相應的改善。比如包裝的破損,商家就從原來的塑料包裝改成了紙盒進行替代。在整個品類中,我們也會去尋找質量問題較為集中的品牌,對低質量的品牌做清退;或者對於“佩戴不舒適”等這型別的問題,我們會推動品牌開放七天無理由退換貨的政策,以此來保證更好的使用者體驗。

我們檢測了上線一個月NPS的效果,分析使用者的滿意度得分,發現上線後的八月比七月的NPS上升了27%左右。包裝的差評率也得到了很大程度的改善。

另外一個例子是SSD固體硬碟這一產品。很多使用者回去吐槽“不配螺絲無法安裝”這一問題。那麼我們就去推動近一半的品牌將螺絲作為贈品贈送給購買SSD的使用者。通過這一做法,針對配件不滿意的使用者比例大幅下降,這其實在背後是大量使用者的體驗得到了改善,原本可能會流失或者不在這個品牌裡進行購買的使用者會被挽留。

在需求端,傳統的使用者分析有一個經典的Kano模型。它希望我們在做產品規劃前分析使用者需求時,能夠基於需求的功能點和使用者的期望程度進行劃分。因為不同型別的功能使用者的期待不同,有的技術需求必須要被滿足,而且再次基礎之上還會有使用者的期望需求,以及使用者還沒有發現但做出來會給他們帶來驚喜的需求。通過這一模型可以按照需求的不同層次去組織自己的資源。

雖然這是一個偏理論性的模型,但是我們可以基於使用者的評價資訊或者搜尋資訊,把客戶的關注度以及市場上需求的滿足度進行評估和劃分。例如上圖所示,最右下角是客戶關注度很高,但是滿足度比較低,有可能負向的聲音較多或者搜尋後沒有找到心儀的產品,我們稱這個區域為心智搶佔區。在這個區域的產品,如果你能及時儘早地做出來,是可以較好地去搶佔使用者的心智,找到一個潛在的商機。

同樣地,我們也需要去了解使用者在選購每一款產品的背後關注的因素是哪些。比如筆記本,使用者關注的屬性有外觀、尺寸、材質、CPU型別等。我們可以通過搜尋詞的分析和統計識別使用者最關心的要素。筆記本品類下使用者首先會去考慮品牌,其次會去考慮需要買多大尺寸的電腦。針對外觀尺寸這一屬性,下面又會有很多型別。我們可以從中找到目前市場潛力比較大,增長率會比較高,且市場競爭還相對沒有那麼大、頭部市場的集中度還沒有達到飽和狀態的型別,從而在組合的策略中優先去考慮如上圖右上角的潛力趨勢。

我們組織成了一個啟明星系統,在裡面把功能按照體驗洞察、商機挖掘、使用者超市進行拆分,以此把我們的核心演算法能力,結構化、非結構化資料,結合我們的業務應用場景,整合成一個內外部統一的系統來給大家使用,使得我們的演算法通過產品化的方式規模化地應用至業務中。  

最後做一個簡單的總結。現在我們越來越多地發現使用者體驗在經營中被重視,這也是因為我們可以把產品的價值分為實用功能價值以及創新體驗價值,而能夠帶來溢價的往往是創新的這一部分。但是如何做創新,就需要從使用者的洞察中去發掘。其次,整個資料的價值發揮依賴於三個條件,而且缺一不可。第一個是資料的資源,即你有多少的評價和搜尋資料;第二個是資料的能力,比如演算法、算力等;另外一點是應用的場景,如體驗診斷、精準營銷、推薦等。這三個條件組合在一起才能夠把資料的價值發揮出來。最後,深度學習是無法單獨地體現演算法價值的。在使用深度學習之前,我們需要能夠洞察和分析業務的場景以及問題,找到內在邏輯。在深度學習之後,還需要使用輸出的結果指導業務的決策和優化。多方面協同才能夠把深度學習的價值發揮出來。

05

精彩問答

Q:產品的五個屬性等級是預定義好的嗎?

A:定義需要不同的業務部門進行處理。其實產品的一些工作也會有業務人員的參與。我們這產品上也有自助分析的功能,會把新詞、高頻詞分析出來。通過這樣的工具更有助於產品以及業務人員從資料中總結使用者可能會關注的一些標籤和問題。所以它不是一成不變的,而是持續地在應用過程中進行豐富和擴充套件。

Q:標註的標準由誰來決定?

A:標註的標準需要產品、研發、演算法部門一起來跟進。我們會把標準清晰地給到標註人員。為了讓他們更好地理解標註標準,我們會同時給出正例和反例。比如哪一句話屬於外觀問題,哪一些短句是相似的,還有那些不屬於外觀的短句等。因為文字分析和標註沒有通用和統一的標準,所以我們儘量會讓標註人員去做選擇題,而不是人工地往文字資料中維護一些資訊。我們兩輪的標註,第一輪會給標註人員多分類任務,即選取文字中包含的屬性是什麼;第二輪標註是判斷一個短句是否屬於一個屬性標籤。具體的標準是由產品的研發人員去指定,然而對於一些標註錯誤的情況,我們還會額外抽取出來,再進一步給標註人員做一些宣貫。

今天的分享就到這裡,謝謝大家。

在文末分享、點贊、在看,給個3連擊唄~

分享嘉賓:

活動推薦:

小夥伴們,DataFun年終大會又來啦,在今年的大會上,我們不但會回顧當下的熱門技術方向,同時還將對未來的技術趨勢進行分享總結。其中,我們也設定了資料開發與資料治理論壇,感興趣的小夥伴,歡迎識別下圖二維碼,免費報名參與~

關於我們:

DataFun: 專注於大資料、人工智慧技術應用的分享與交流。發起於2017年,在北京、上海、深圳、杭州等城市舉辦超過100+線下和100+線上沙龍、論壇及峰會,已邀請近1000位專家和學者參與分享。其公眾號 DataFunTalk 累計生產原創文章500+,百萬+閱讀,12萬+精準粉絲。

分享、點贊、在看 ,給個 3連擊 唄! :point_down: