想要精準營銷,從學習搭建一套對的標籤體系開始丨DTVision分析洞察篇
在人與人打交道的過程中,我們會在有意無意間給周圍的人通過貼標籤的方式進行大致的判斷,比如好說話的、難相處的、聰明的、愛熱鬧的……貼標籤就是用最快的速度將人和事歸類,這是人類運用“模式識別”認識世界、進行社會交往最便捷的方式之一。
而在企業的數字化轉型過程中,搭建標籤體系也早已不是什麼神祕的事情。在數字經濟時代的今天,各行各業都早已意識到了資料的重要性,開始挖掘資料的價值。標籤體系,正是將資料承載的資訊和價值進行了具象化的呈現。通過採集使用者在產品中的使用痕跡,進行標籤分析、客戶洞察,再落地到實際的企業精細化運營過程中去。可以說,標籤是從實際業務場景出發,解決實際的業務問題的一個過程。
然而,落地到標籤體系實際的設計與落地中來,卻並不是那麼簡單,一蹴而就的事情。很多人都在做,卻從第一步開始就做錯,更不用說能帶來真正的價值。那麼到底應該如何應用和理解標籤體系,這個系列將結合數雁的專案交付經驗進行詳細的講解,今天先來聊聊標籤的設計與加工,一般需要經過以下幾個步驟:
· 標籤體系設計
· 標籤模型設計
· 標籤加工與更新
· 標籤應用
一、標籤體系設計
標籤服務於業務應用場景,好的標籤體系設計能夠讓業務人員在使用時隨需隨取,及時查詢出需要的資料,就算不具備這個標籤,業務人員也可以自己快速加工出來,無需尋求資料開發人員的幫助。那需要做到
·標籤類目劃分合理
·標籤涵蓋的資料來源豐富,標籤完善
·後續擴充套件性高,即基於基礎標籤加工出新的標籤時,方便快捷
標籤體系的設計一般會按照以下步驟:
1、資料梳理
根據現有業務背景,以及資料,梳理出大概的標籤體系。如企業一般資料大概來源於這幾部分:
● 使用者基礎資料
使用者ID、性別、年齡、手機號、郵箱、身份證號、會員等級等基礎資訊。
● 業務交易資料
如在零售領域,使用者發生的每一筆交易都會有記錄,如下圖:
● 使用者行為資料
如使用者在APP、PC、小程式等的瀏覽、點選、收藏、評論行為,可反映出使用者的行為特點。
● 活動/積分資料
會員商城的cha會員等級、積分兌換等資料。
● 售後投訴資料
客戶投訴、售後處理等資料。
基於對資料的梳理,可進行標籤基本體系的梳理,梳理出一部分有價值的標籤。
2、基於OLP模型體系化梳理標籤
OLP模型是目前比較通用的建立標籤體系的模型,OLP指“實體-關係-屬性”模型,用下方場景舉例:
· 實體:指物件,如人、書籍、門店等,可針對每個實體建立一套標籤體系
· 屬性:實體帶的特徵,如人有性別、年齡屬性,書籍有價格、內容屬性,門店有售賣渠道、地址位置等屬性,屬性是一種型別的標籤
· 關係:通過動作產生關係,如基於購買動作,人和書籍產生關係,基於這個動作可產生消費時段偏好、支付方式偏好等標籤
基於該模型,對標籤進行查漏補缺,梳理出標籤類目與標籤。
3、定義標籤與加工口徑
· 標籤中文、英文名:標籤的中文名稱、英文名稱
· 標籤所屬類目:標籤所屬一級、二級、三級類目
· 標籤型別:根據不同維度的劃分,採用其中一種。比如統計類標籤、預測類標籤、自定義標籤等,亦或是原子標籤、衍生標籤、組合標籤、演算法標籤等
· 標籤值定義:定義每個標籤的標籤值,如“近一個月買入金額區間”標籤,可根據購買金額的區間段定義“零/低端”、“普通”、“中端”、“準高階”、“高階”等標籤值
· 標籤含義(描述):描述該標籤業務含義,如“最近30天的購買商品的金額區間,對使用者消費力進行評估”
· 標籤業務口徑:標籤以哪個資料定義為準,如“使用者活躍城市”標籤,以使用者購買次數最多的城市為口徑加工,而不是瀏覽次數、評論次數等
· 標籤技術口徑:描述該標籤從哪個表的哪個欄位取值,SQL取數邏輯是什麼
· 業務方來源:該標籤的業務需求方是誰
· 標籤更新週期:描述標籤更新頻次,天(如T+1、T+2等)、周、月、小時、分鐘更新等
· 標籤更新優先順序:同一時間端跑多個標籤時,若資源有限,先跑優先順序高的標籤
基於以上工作,最終得出一份標籤體系表,以這份表和業務方最終確認標籤劃分、標籤與標籤值、標籤加工口徑是否有疑義,沒問題,便可進入標籤開發環節。
二、標籤模型設計
進入具體開發之前,需考慮標籤模型層設計,在數倉加工出來哪些資料,標籤產品加工哪些資料。標籤模型依舊遵循數倉建模的“ODS-DWD-DWS-ADS”分層設計,基於DWD、DWS層抽象一層標籤模型層,加工標籤基礎標籤,屆時在標籤產品上讓業務人員通過規則可加工生成新的標籤。
一般遵循“公共層資料”、“大資料量計算”的標籤放在數倉中資料開發寫SQL實現,“通過規則可定義”、“標籤規則經常修改”的標籤在標籤產品中配置。數倉一般實現:
1、公共層資料
包含基礎屬性資料、基礎指標(指標也可以作為一種標籤,如最近30天購買金額、最近30天訪問次數等),這些資料不僅給標籤系統用,也可以給BI報表、資料門戶使用,所以放在數倉中加工表。
● 基礎資訊類標籤
● 交易類標籤
● 行為類標籤
2、大資料量計算的標籤
如計算曆史最高花費金額、商品的歷史最高庫存、累計消費金額、使用者排序等,這些標籤的計算基於的資料量大,最好放在hive中跑批上線。
在數倉中加工好標籤基礎表,這些表中的標籤一般稱之為原子標籤,再將該表對接標籤產品,在標籤產品中進行衍生類、組合類標籤加工。
三、標籤配置
基於標籤模型的設計,一部分基礎指標類的標籤在數倉已建設完成,一部分標籤需要在產品介面上實現。我們接下來看下業務人員如何在袋鼠雲標籤產品「客戶資料洞察平臺」中配置標籤。
1、根據業務物件,建立實體、關係
假設一個電商類客戶,需要建立一套使用者標籤體系,則首先建立“使用者”實體物件,並在實體物件下接入標籤多張基礎表,如使用者基礎資訊表、使用者行為事件的指標表等,這些表的欄位可作為原子標籤直接使用,也可作為後續加工衍生、組合標籤的基礎。
同時,在後續加工衍生標籤時,在某些場景上會用到多個實體下的原子標籤加工,這時候可以用“關係”將2個實體關聯起來,如將“使用者”實體與“書籍”實體通過使用者表的“最近購買商品ID”、以及書籍表的“書籍ID”關聯起來,便可以用到2個表的欄位進行某個標籤的加工,如下圖:
2、讀入原子標籤
從標籤基礎表中讀入原子標籤,進行原子標籤的元資料管理。
讀入原子標籤時,有些欄位可能儲存的是編號或一些列舉值,但業務人員需要看到具有真實業務含義的值,此處可做一層字典值對映。比如將“省市編號”對映為具體的省市名稱。
3、建立衍生標籤
基於接入的資料表的原始欄位和原子標籤,通過“且、或”關係、“求和、去重計數、計數、最大值、最小值、均值”聚合函式、“等於、不等於、小於、小於等於、大於、大於等於、包含、不包含等”操作符,對源表字段進行加工,生成衍生標籤。
如基於使用者訪問次數、交易次數,加工“使用者活躍度“衍生標籤,包含“高活躍”、“一般活躍”、“睡眠狀態”標籤值,對使用者活躍度進行衡量。
除通過視覺化規則加工標籤外,也會開放SQL介面寫SQL加工標籤,因為在實際場景中,客戶場景不盡相同,有些複雜標籤需要SQL快速實現,在產品介面上也可直接操作。
同時,雖然產品上會開放基於函式計算的標籤加工、SQL類的標籤加工,但還是會建議客戶將公共層的指標類標籤、及複雜類標籤放在數倉中實現,以使標籤配置這層輕量,屆時進行資料跑批時快速。
4、建立組合標籤
基於原子標籤和衍生標籤,可進行組合標籤的建立,如基於最近交易時間、最近1年交易次數,最近1年交易金額區間這3個標籤,加工“使用者綜合價值”組合標籤,將客戶分為“低價值使用者”、“一般保持使用者”、“重要發展使用者”等。
5、建立實時、演算法標籤
· 實時標籤:如基於使用者實時行為資料通過Flink引擎計算實時標籤,如使用者點選APP上的一個商品廣告,且加入購物車,判斷該客戶屬於“某型別商品感興趣使用者”,作為客戶短期興趣標籤。
· 演算法標籤:如基於使用者的基金交易行為,預測該使用者屬於追漲、殺跌、高拋等哪種型別的客戶,作為客戶的風險偏好標籤。
最終將這些實時與演算法標籤的元資料可統一接入標籤平臺統一管理。
標籤邏輯建立好之後,同時配置標籤的更新週期、更新優先順序,進行標籤的定時跑批、手動跑批等。
四、寫在最後的話
作為「全鏈路數字化技術與服務提供商」,袋鼠雲一直致力於為客戶提供有價值的、全鏈路的資料服務,也希望通過更加優質的資料產品和服務助力企業數智化“蝶變”。全新升級的資料智慧分析與洞察平臺——數雁EasyDigit,包含客戶資料洞察平臺DataTag、指標管理分析平臺EasyIndex。
其中,客戶資料洞察平臺,即標籤體系構建與客戶畫像洞察平臺。通過標籤萃取、標籤治理、客群圈選、畫像分析、資料服務,構建以業務價值為導向的標籤體系與多樣化群組,深度掌握客戶特徵,應用於企業運營與營銷,支撐商業化分析,驅動業務增長,讓企業海量資料不再孤立無用,無形的資料創造無限的價值。
袋鼠雲開源框架釘釘技術交流群(30537511),歡迎對大資料開源專案有興趣的同學加入交流最新技術資訊,開源專案庫地址:http://github.com/DTStack
- 一看就懂!任務提交的資源判斷在Taier中的實踐
- 看這篇就夠了丨基於Calcite框架的SQL語法擴充套件探索
- 無監控,不運維!深入淺出介紹ChengYing監控設計和使用
- DAG任務排程系統 Taier 演進之道,探究DataSourceX 模組
- 數字孿生賦能智慧港口解決方案,助力港口數字化轉型
- Iceberg在袋鼠雲的探索及實踐
- Kerberos身份驗證在ChunJun中的落地實踐
- 從資料治理到資料應用,製造業企業如何突破數字化轉型困境丨行業方案
- 行業方案 | 新規落地,企業集團財務公司如何構建數智財務體系?
- 資料安全新戰場,EasyMR為企業築起“安全防線”
- ChunJun框架在資料還原上的探索和實踐 | Hadoop Meetup精彩回顧
- 開源直播課丨大資料整合框架ChunJun類載入器隔離方案探索及實踐
- 啟用資料價值,探究DataOps下的資料架構及其實踐丨DTVision開發治理篇
- 實用五步法教會你指標體系的設計與加工
- 他來了!袋鼠雲大資料基礎平臺EasyMR正式上線
- ChunJun&OceanBase聯合方案首次釋出:構建一體化資料整合方案
- 開源專案丨ChengYing 1.1版本重磅釋出:新增超多功能,全新優化體驗!
- 開源交流丨一站式大資料平臺運維管家ChengYing安裝原理剖析
- 終於有人把不同標籤的加工內容與落庫講明白了丨DTVision分析洞察篇
- ChunJun Meetup演講分享 | 基於袋鼠雲開源框架的數倉一體化建設探索