實用五步法教會你指標體系的設計與加工

語言: CN / TW / HK

今天我們來和大家聊一聊一個新話題,一個對於企業業務發展十分關鍵的東西——指標。

指標建設是衡量企業業務效果的主要依據,本文結合自身實踐經驗和大家分享指標的設計與加工過程,講述其基礎概念和設計加工方法,以及設計加工過程中的注意點,希望對感興趣的同學有所幫助。

一、指標建設的必要性

1、什麼是指標

指標是客觀描述某個事物某個特徵的可量化的數字度量,如使用者最近30天購買次數,某商品最近30天銷售額等。

指標常從多個維度來描述,如某地區的新增使用者數、線上線下的新增使用者數,維度讓指標更加具象與豐滿。

2、建設背景

大資料時代數字化轉型背景下,企業所需要的往往不單單是資料,而是資料背後對映的業務洞察,相比較資料我們更加關心的是其體現的業務價值以及覆蓋的業務場景。

龐大的資料只有和業務相結合轉化為資訊,經過處理呈現才能真正體現他們的價值。

指標作為資料計算的結果,是直接反映衡量業務效果的依據,應用在企業的方方面面,如資料報表、分析平臺及日常取數等。

● 資料報表

它是直接的指標結果檢視的載體,作為業務部門的人,可能每月或者每週甚至每天都要輸出業務報表,不管是傳統的紙質文件,線上的excel還是後來的報表工具,最終目的都是一樣,我們希望通過報表實現資料驅動業務精益增長的目的。

● 分析平臺

作為資料計算結果多樣化展示的平臺,不管是視覺化大屏,還是其他一些BI系統,都是通過資料計算結果的呈現,更好地輔助業務瞭解行業現狀。

● 日常取數

有資料在哪裡,便要去哪裡拿,取數的過程,往往是基於不同的業務場景,滿足不同的業務需求,對資料進行加工計算獲取,當然在這過程中,資料計算結果往往需要保證較高的準確性和一致性。

3、建設過程中遇到的問題

資料指標作為資料計算的結果,是企業資料價值的直觀體現。在業務擴張、指標計算需求的暴增背景下,隨之而來的指標管理問題也越來越多:

  • 指標管理不統一:管理機制不統一、分散管理、重複建設、成本高、費時費力

  • 指標口徑不一致:同名不同義、同義不同名、計算邏輯複雜多變、開發技術門檻高,過程不可視

  • 指標流程不規範:沒有統一的流程控制,開發和使用人員分離,溝通成本高、週期長,結果可信度不高

4、解決方案

要解決以上問題,幫助企業建立指標體系,我們需要從以下三個方面入手:

● 指標平臺

建立統一的指標管理平臺,集中管理資料指標,沉澱指標資產。

● 指標體系

有一套標準規範的指標搭建方法論,搭建企業級資料指標體系。

● 流程管理

搭載統一的流程控制機制,全面把控資料指標的生命週期。

如果是平臺、流程是基礎,那指標內容的搭建便是關鍵。指標體系的搭建作為整個指標管理的核心,為指標管理提供最堅實的基礎支撐。

二、指標建設五步法

總結以下五個步驟,從0到1搭建指標體系:

file

1、明確目標

搭建指標體系的第一步就是明確搭建目標,大部分企業由於目標不清晰造成指標管理混亂,通過指標體系的搭建,我們要實現“一個指標、一個口徑、一次加工、多次使用”,做到統一指標口徑,減少重複工作,結果統一輸出。

● 統一關鍵指標

建立公司級統一的關鍵指標,幫助企業通過統一的指標框架來助力業務擴張。

● 減少重複工作

為每一個成員提供統一的平臺來協同,瞭解企業整體資料業務情況,減少資料團隊重複性工作和時間花費。

● 結果統一輸出

針對指標結果,提供一套能將指標和上層應用結合起來的輸出方式,發揮資料指標最大的價值。

2、需求分析

明確目標之後,我們開始著手去構建指標體系,在設計指標之前,我們首先要進行需求分析。

同一個企業,不同的業務線、不同的部門,甚至是同一部門的不同人員,提出來的指標計算需求都會有所不同。所以在需求分析的階段,我們要做到基於不同行業的業務情況,分析資料指標需求,合理劃分主題,更好地為後續指標設計提供業務支撐。

1)需求調研

● 主導人

資料分析師,數倉架構師;

● 調研方式

列好提綱,面對面訪談;

● 調研內容

· 指標應用場景調研:指標應用在哪些業務場景中,應用方式有哪些(BI使用、業務人員自行取數、資料門戶展現等)

· 指標來源調研:指標加工的源資料來源於哪些系統,資料是否都採集上來,分為哪些業務域、業務過程

· 指標現有情況調研:現在有哪些指標,缺少多少,能滿足百分之多少的業務場景;指標建設現在遇到的問題是什麼;之前的指標加工是否規範,是否需要調整

· 指標需求調研:瞭解客戶需要完成的指標加工範圍

● 產出

訪談彙總結果與需求收集表。

2)需求分析

● 目標

梳理需要加工的指標,指標業務口徑,指標更新頻率;

● 主導人

資料分析師;

● 產出

指標需求表。

資料分析師基於業務部門、科技部門的業務場景和需求,挖掘和提煉具體的指標、業務定義、優先順序、實現難易程度、大概的實現方式。

並根據指標數量、難易程度、資料依賴關係,劃分初步的階段性計劃,一期完成哪些指標、給哪些業務場景用,二期完成哪些指標,給哪些業務場景用。

3、指標設計

1)指標拆解

● 主導人

資料分析師;

根據上述的業務需求分析,按照從上往下的方式對指標進行分級拆解,看需要的指標需要由哪些指標加工出來,各個指標的關係,明確各指標之間的關係,可層層溯源,一般分為3層:

· 一級指標:公司戰略層面的指標,全公司認可的衡量公司業務目標的核心指標,如某大業務線產品收入、累計使用者數、新增使用者數、付費使用者數等,面向管理層

· 二級指標:業務策略層面的指標,如產品收入拆解到各個產品線,累計使用者數拆解到各個渠道,面向不同業務線

· 三級指標:業務執行層面的指標,對二級指標進行路徑拆解,如產品收入需要拆解到付費使用者數、客單價上面;付費使用者數又可以拆解為新增付費使用者數、復購使用者數,根據這些指標可以不斷優化運營或銷售策略,面向業務部門

file

2)指標建模

● 主導人

數倉架構師;

根據對業務需求的理解、資料情況的探查,劃分對應的業務域、業務過程、維度、度量、統計週期等,搭建指標建設的框架。

● 資料來源

資料指標遵循ODS-DWD-DWS-ADS的數倉設計架構,主要基於DWS輕度彙總表來加工;

資料架構師根據指標需求,看企業數倉設計的完善性,是否需要增加底層的明細表或彙總表,將基礎表梳理加工好之後,開始指標的加工。

● 指標定義

我們先了解下指標的的組成:

指標= 統計週期+維度+過濾條件+度量

· 維度:描述性資料,指標統計的環境,如地區、個人賬戶、產品名稱、產品型別、銷售渠道

· 度量:數字性資料,銷售金額、貸款金額、銷售數量、如賬戶餘額、國債餘額、基金餘額

· 統計週期:計算指標的時間範圍,如近30天、當年、當月、近7天、上月、上週、去年

· 過濾條件:計算指標的條件限制,如正常狀態、有效狀態、全國範圍內,西湖區的、工作日的

file

統計週期、維度、度量是組成的必要條件,過濾條件根據業務場景而定。

● 維度與度量

在指標加工前,需要先定義資料模型,資料模型中定義“維度”與“度量”,因為這兩個是組成模型的基礎必要條件。

資料模型按照數倉的業務主題來建立,如存款業務、貸款業務,可遵循星型模型或雪花模型,建立事實表與維表的關聯關係,其可以是多張表的關聯關係,也可以是單張表。表確定好之後,選擇“維度”與“度量”,作為後續指標加工的基礎。

我們以一個銀行“存款業務模型”的模型來看,其是圍繞賬戶存款餘額明細資料建立的存款業務主題資料模型。

file

file

資料模型建好之後,選取維度與度量,作為後續指標加工的基礎。

維度

選取資料模型中,作為環境描述的欄位作為統計的維度。

file

度量

選取資料模型中,後續要加計算的數值型欄位作為度量。

file

● 統計週期

統計週期也是指標必不可少的條件,描述一個指標應該指定其時間週期,比如累計交易次數、最近30天交易次數、最近90天交易次數等。一般系統會內建常用的統計週期,也會支援使用者自定義統計週期,統計週期需要特別注意的便是日期格式了,比如yyyymmdd,還是yyyy-mm-dd。

file

根據以上內容,已準備好資料模型,和指標的三要素:維度、度量、統計週期。

指標型別

袋鼠雲指標管理產品按照指標加工型別,分為原子指標、派生指標、複合指標、SQL指標。

· 原子指標:某一業務行為事件的度量,統計資料來源,如交易筆數、交易金額、交易使用者數、賬戶餘額

· 派生指標:基於原子指標進行維度、統計週期的派生。派生指標=統計週期+派生維度+過濾條件+原子指標,如近7天賬戶消費金額,去年賬戶餘額總和、昨天產品銷售金額等

· 複合指標:多個指標的加減乘除運算,如平均交易額、資產負債率等

· SQL指標:通過自定義SQL生成的指標,適應複雜的指標配置邏輯,滿足開發人員不同的指標開發場景

file

4)指標內容

● 主導人

資料分析師、數倉架構師;

基於指標需求、指標建模、指標分類確定指標的具體內容,作為指標開發的指導。

· 指標名稱:指標中文名稱

· 指標編碼:指標英文名稱,也是存表的欄位

· 指標目錄:指標所屬類目的分類

· 指標分類:屬於原子、派生、複合、SQL指標的哪種

· 業務口徑:指標的業務口徑,如最近30天付費使用者數指最近30天發生過一筆及以上購買交易的使用者數量之和

· 技術口徑:由哪個指標、哪些維度加工而來

· 指標責任人:該指標的負責人,可作為該指標的維護人與告警接收人

· 更新頻率:日更新、周更新、月更新等

· 描述資訊:對指標的額外描述資訊

5)指標評審

● 主導人

資料分析師、數倉架構師;

指標模型設計完成、指標內容設計完成後,資料分析師與數倉架構師召開指標評審會議,面向資料開發、業務人員進行評審。

· 說明每個指標的定義、業務口徑、技術口徑、更新週期等

· 說明各個資料指標的型別,以及派生指標由數倉的哪些資料模型加工,其派生維度是什麼,統計週期是什麼;複合指標的派生維度,由哪些指標加工而成

評審後進行補充完善,之後進入指標開發階段。

4、指標開發

file

1)指標加工

我們來看下各類指標如何加工:

● 原子指標

原子指標來源於資料模型,是從上述“資料模型”中直接讀到的度量,是資料模型表中的一個欄位,如上述的“存款業務模型”中,可以把“存款利率”、“存款匯率”、“賬戶餘額”、“固定餘額”、“分成比例”等度量作原子指標。

選好度量後,同時需要選取描述該度量的維度,這些維度用於描述度量。如將“賬戶編號”、“機構編號”、“客戶經理編號”、“客戶編號”、“賬戶狀態”等作為維度,則可以表示各個賬戶的存款賬戶餘額、各個客戶的存款賬戶餘額、各個分行/支行的存款賬戶餘額,各個客戶經理管理賬戶的存款賬戶餘額等。

file

所以原子指標是資料模型中維度和度量的組合對映,非一個有真實含義的指標,因為它表示的“客戶”的“賬戶餘額”,還沒有加上統計週期與計算邏輯,比如客戶當日賬戶餘額、客戶最近一年平均賬戶餘額等。但原子指標是後續派生、複合指標加工的基礎,不可缺少。

● 派生指標

派生指標是基於原子指標進行維度與統計週期的派生,並設定計算邏輯。

如“當日存款賬戶餘額”,可基於原子指標“賬戶餘額”來進行派生,維度選取“賬戶編號”、“機構編號”、“客戶經理編號”、“客戶編號”,計算邏輯選取“求和”,統計週期選取“當日”,表示各個賬戶的當日存款賬戶餘額、各個客戶的當日存款賬戶餘額、各個分行/支行的當日存款賬戶餘額,各個客戶經理管理賬戶的當日存款賬戶餘額等。

file

派生指標中內建的計算邏輯有:求和、均值、計數、去重計數、最大值、最小值等,也可以自定義函式。

內建的統計週期有:當日、當月、當年、去年、最近7天、最近30天、歷史截止當前,也支援自定義。

● 複合指標

複合指標是基於原子指標或派生指標進行的加減乘除運算。如“當日基金賬戶利潤”複合指標,可基於複合指標“當日基金賬戶利潤率”、派生指標“當日基金賬戶餘額”加工而來。

//

在“當日基金賬戶利潤率”>1時,當日基金賬戶利潤=當日基金賬戶利潤率 * 當日基金賬戶餘額

在“當日基金賬戶利潤率”=1時,當日基金賬戶利潤=(當日基金賬戶利潤率+ 0.05)* 當日基金賬戶餘額

file

複合指標的維度,需為加工公式中用到指標的公共維度,可以計算這些維度的該複合指標。如“當日基金賬戶利潤率”指標的維度有“機構編號”,“當日基金賬戶餘額”指標的維度有“賬戶編號”、“客戶編號”、“機構編號”、“客戶經理編號”,則基於這2個指標加工的複合指標“當日基金賬戶利率”只能有其公共維度“機構編號”,可檢視各個機構的當日基金賬戶利率。

高階設定:公式中用的來源指標可設定指標資料的過濾條件,加工後的複合指標可取聚合函式,根據實際情況使用即可。

以上便是複合指標的加工。

● SQL指標

當存在以上通過內建函式、內建運算子加工不出來的邏輯較為複雜的指標時,可採用自定義SQL指標實現。只要遵循正確的語法結構,便可以靈活加工。

file

指標加工完後,後續可在指標血緣關係中檢視指標間的上下游關係。

file

2)指標落庫

指標邏輯配置成功後,每個指標可配置其更新週期,排程策略配置完成後,進行指標釋出。釋出後便按照設定週期週期性加工。同時,也支援手動立即更新。

file

指標更新後,會將每個指標和其維度儲存在Hive表中,每個指標和其維度儲存一張單獨的表。

3)指標運維

指標上線後,運維同學便需要進行指標的日常運維,觀察指標執行情況,及時處理報錯情況,保證指標的正常加工和線上業務可用。

5、指標應用

指標常應用在資料門戶、BI資料分析、視覺化大屏展示,業務人員資料分析中。那產生的指標怎麼與上層應用對接呢

1)指標API

通過API服務將指標平臺加工好的指標,提供給上層的展示、分析系統。

在建立API時定義需要查詢出去的指標,多個指標的公共維度作為該API的入參。通過API介面,查詢對接的指標結果。

file

外部系統呼叫API的url,用API-TOKEN認證便可以進行資料的查詢。

file

2)自助取數

在自助取數平臺中,可直接查詢指標平臺定義好的維度、指標,業務人員靈活拖拉拽,實現線上取數。並且取數邏輯可沉澱成固定的報表模板,報表可週期性自動生成資料,業務人員屆時拿結果資料即可。

想了解更多袋鼠雲指標產品「指標管理分析平臺」相關資訊,歡迎【點選閱讀原文】瞭解。

袋鼠雲開源框架釘釘技術交流群(30537511),歡迎對大資料開源專案有興趣的同學加入交流最新技術資訊,開源專案庫地址:https://github.com/DTStack/Taier