10w+訓練標籤?成本太高!PaddleNLP情感分析賦能消費“回暖”
隨著餐飲行業進入線上線下、堂食外賣並重的“雙主場”時代,面對鋪天蓋地的使用者評論資料,如何用數字化手段優化經營成為餐飲企業降本增效的關鍵。
黑蟻資本,是一家來自上海的深耕消費領域投資的企業,成立之初就決心讓“投後服務”成為機構的核心能力之一,而“數字化”正是黑蟻服務被投企業的重要內容。為了幫助被投企業提升評價資料的處理效率,黑蟻投後數字化團隊基於PaddleNLP情感分析技術,開發了使用者評論洞察系統,幫助品牌高效深入瞭解使用者反饋,自動抽取出高價值資訊,實現量化統計分析,從而降低經營成本,優化產品和服務,提升市場競爭力。
據悉,情感分析技術(Sentiment Analysis Technology)是一種當前流行的旨在對帶有情感色彩的主觀性文字進行分析、處理、歸納和推理的技術,在消費決策、輿情分析、個性化推薦等領域都擁有廣泛的應用前景。
情感分析示意圖
初衷:想以更低成本,聆聽使用者聲音
正如哈勃望遠鏡,哈勃輿情取“哈勃”二字是希望通過工具看見別人所看不到的東西,其開發的最初靈感來源於黑蟻投後團隊對消費行業數字化的洞察。
2021年初,黑蟻資本運營董事Jeru劉湛帶領黑蟻投後數字化團隊在對被投品牌做調研時發現,使用者的反饋對驅動產品迭代、改進服務非常重要,但是聆聽使用者聲音的成本卻很高。
Jeru介紹,過去一個品牌想獲取使用者評論情況,如NPS淨推薦值,包括推薦意願和復購意願,需要經過一系列的調研分析:請第三方公司採用問卷調查、實地攔截、線下采訪等方式進行調研;完成調研後再找打標籤的公司,人工在產品使用者評論下抽取約2000條評論,在Excel表格裡打標籤標記。
上述這種方式存在明顯的問題。一方面,調研採集到的樣本的資料量有限且真實性有待考證,大大影響後續分析的客觀性和準確性;另一方面,人工打標籤的方式不僅標註不統一,主觀性強,而且操作成本非常高。
Jeru回憶到,當時市場上大多數的產品只是單純用陳舊的技術做評論分析,精準度和精細度並不是很高。他就思考,如何將使用者評論洞察自動化,讓非結構化的評論資料變成結構化的資料呢?因為只有結構化的資料才方便量化統計分析,使經營者更直觀快捷地瞭解使用者,獲得科學的指引,從而實現精準的產品運營決策。
瓶頸: PaddleNLP解研發燃眉之急
在經過半年的市場調研後,Jeru迅速組織技術專家投入到研發中,在團隊共同努力下,歷經兩年時間,黑蟻終於自主研發出使用者評論洞察系統哈勃輿情,截止到目前,黑蟻已經發布了30多個系統版本,基本上每週都會更新迭代一次。
哈勃輿情類似於一個智慧化“顧客情感溫度計”,它能從不同的維度來感知顧客在不同指標上的情緒並進行分析,比如,使用者會對某一種品牌的評價經常提到某一項(提及率,代表使用者的心智),在一句評論中可能會表達多個“觀點”,這些“觀點”往往包含三要素:維度、觀點詞、情感。維度一般是名詞(比如菜品、價格),觀點詞一般是形容詞(比如辣、豐富),兩者合在一起表達的是一種某東西怎麼樣的觀點,哈勃輿情可以判斷顧客所表達觀點情感是正向還是負向,最後將情緒指標得分以量化的形式呈現給經營管理者,從而幫助品牌商找到問題。
哈勃輿情繫統圖研發過程並非一帆風順。哈勃輿情剛開始研發模型做情感預測時,他們只能判斷整句評論(粗粒度)的好壞,而無法對多觀點獨立(細粒度)做預測情感,致使情感預測結論資料準確率不高,研發進入了瓶頸。
2022年5月,一次偶然的機會,Jeru在GitHub上看到PaddleNLP開源了通用資訊抽取技術UIE,他當時感覺UIE非常適合哈勃輿情的研發,或許可以解決困擾他們已久的難題。
據瞭解,UIE是一個大一統諸多工的開放域資訊抽取技術方案,開創了基於Prompt的資訊抽取多工統一建模方式。PaddleNLP結合文心大模型中的知識增強NLP大模型文心ERNIE 3.0,發揮了UIE在中文任務上的強大潛力,推出面向通用資訊抽取的產業級技術方案。
由於PaddleNLP在情感分析能力上表現優異,能夠完成涉及句子級情感極性分類、屬性抽取、觀點抽取、屬性級情感極性分類等多項情感任務,並提供視覺化能力,幫助使用者快速分析業務資料,這極大幫助了黑蟻投後數字化團隊開發哈勃輿情,也幫他們節省了大量的訓練成本。
“沒有出現通用模型之前,開發者需要分行業去訓練模型,要知道一個行業要用到10萬以上量級的標籤來訓練模型,才會取得比較好的效果。”Jeru感慨到訓練成本太高。
Jeru進一步解釋說,在預訓練大模型出來之前,傳統的技術方案下,幾乎所有的NLP公司都傾向於找打標籤的人員通過打標籤的方式來訓練自己的模型。但有了預訓練大模型後,整個行業的玩法發生了改變。現在大家只需要使用一個通用的大模型,無需標註,或僅需少量標註,就能對獨立觀點進行精準情感預測,這樣就極大降低了開發成本。同時基於UIE的技術方案不限定行業領域和抽取目標,可零樣本快速冷啟動各類資訊抽取任務,加上強悍的小樣本微調能力,使得觀點抽取查全率與精準率大幅提升。
具體來說,在UIE-base和fp32精度下,相較人工至少需要一天時間來統計1000條樣本的情況,該系統的細粒度抽取觀點效率約為30條/分鐘,粗粒度情感判定約為135條/分鐘,經過行業微調後的資料準確率達到了85%以上。
終極:希望以互動方式回答人類問題
據瞭解,哈勃輿情繫統不僅供黑蟻的投資團隊用於行業分析報告研究,還幫助黑蟻投資的諸多品牌傾聽使用者的聲音,實現降本增效。
例如,黑蟻為被投企業某區域火鍋品牌做菜品分析時,系統針對菜品建立專門指標體系,進行評估量化,逐月分析菜品的變化,幫助品牌找出了可優化的菜品,調整更新了口味、配方和原料,最終讓火鍋店使用者對菜品的評分從60分提高到90分。
此外,黑蟻團隊在開展縣域中青年消費需求研究時,將田野和定量調研回收的資料交由哈勃輿情來處理,憑藉其強大的語義解析AI模型幫助團隊更高效地瞭解具體品類下縣域消費者心智。
關於未來的產品規劃,黑蟻將花更多時間精力針對不同行業進行樣本微調,不斷完善模型的識別能力。
Jeru談到,“我們希望系統未來能以互動的方式給出回答。當我問系統‘為什麼某品牌的使用者忠誠度更高‘的問題時,它不再是以詞語的方式給出答案,而是以人類語言的方式組織觀點,更直觀地告訴我答案,我認為這是一個終極。”
如今,利用人工智慧技術促進經營轉型已經在消費行業獲得越來越多的認可與推崇。餐飲、電商、零售……新消費浪潮下的各個品牌正在新品開發、品牌建設、銷售服務等方面推進智慧化升級,通過AI優化業務場景,努力與使用者建立更有溫度的聯接,不斷提升企業的市場競爭力。
未來,飛槳將攜手更多金融投資機構持續助力消費行業,在情感分析能力方面,通過情感傾向分析、評論觀點抽取、對話情緒識別等場景化能力,以AI技術賦能消費行業數字化轉型,共同探索“深度學習+”消費的創新之路,為消費行業智慧化升級注入更強大動力。
參考
- PaddleNLP 情感分析方案
https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/sentiment_analysis
- PaddleNLP 專案地址
- 基於飛槳實現的特定領域知識圖譜融合方案:ERNIE-Gram 文字匹配演算法
- 文心一言:這48小時,我被問了xxxx個問題
- 百度生成式AI產品文心一言邀請測試,五大場景、五大能力革新生產力工具
- 成為AI架構師的三大能力
- 動轉靜兩大升級!一鍵轉靜成功率領先,重點模型訓練提速18%
- 即刻報名!飛槳黑客馬拉松第四期如約而至,等你挑戰
- 文心一言,3月16日見!
- 百度集團副總裁吳甜釋出文心大模型最新升級,AI應用步入新階段
- PGLBox全面解決圖訓練速度、成本、穩定性、複雜演算法四大問題!
- C 到Python全搞定,教你如何為FastDeploy貢獻程式碼
- 飛槳框架v2.4 API新升級!全面支援稀疏計算、圖學習、語音處理等任務
- 10w 訓練標籤?成本太高!PaddleNLP情感分析賦能消費“回暖”
- 文心ERNIE 3.0 Tiny新升級!端側壓縮部署“小” “快” “靈”!
- 帶你零門檻掌握基於大模型技術的AIGC場景應用
- 從百度飛槳YOLOSeries庫看各個YOLO模型
- 30分鐘使用百度EasyDL實現健康碼/行程碼智慧識別
- 智慧健身動作識別:PP-TinyPose打造AI虛擬健身教練!
- 超大規模的產業實用語義分割資料集PSSL與預訓練模型開源啦!
- 使用百度 EasyDL 實現電動車進電梯自動預警
- 中國信通院報告:百度飛槳超越TensorFlow和PyTorch,居中國市場應用規模第一