基於AI演算法的資料庫異常監測系統的設計與實現

語言: CN / TW / HK

總第532

2022年 第049篇

美團資料庫平臺研發組,面臨日益急迫的資料庫異常發現需求,為了更加快速、智慧地發現、定位和止損,我們開發了基於AI演算法的資料庫異常檢測服務。本文從特徵分析、演算法選型、模型訓練與實時檢測等維度介紹了我們的一些實踐和思考,希望為從事相關工作的同學帶來一些啟發或者幫助。

  • 1. 背景

  • 2. 特徵分析

    • 2.1 找出資料的變化規律

  • 3. 演算法選型

    • 3.1 分佈規律與演算法選擇

    • 3.2 案例樣本建模

  • 4. 模型訓練與實時檢測

    • 4.1 資料流轉過程

    • 4.2 異常檢測過程

  • 5. 產品運營

  • 6. 未來展望

  • 7. 附錄

    • 7.1 絕對中位差

    • 7.2 箱形圖

    • 7.3 極值理論

1. 背景

資料庫被廣泛用於美團的核心業務場景上,對穩定性要求較高,對異常容忍度非常低。因此,快速的資料庫異常發現、定位和止損就變得越來越重要。針對異常監測的問題,傳統的固定閾值告警方式,需要依賴專家經驗進行規則配置,不能根據不同業務場景靈活動態調整閾值,容易讓小問題演變成大故障。

而基於AI的資料庫異常發現能力,可以基於資料庫歷史表現情況,對關鍵指標進行7*24小時巡檢,能夠在異常萌芽狀態就發現風險,更早地將異常暴露,輔助研發人員在問題惡化前進行定位和止損。基於以上這些因素的考量,美團資料庫平臺研發組決定開發一套資料庫異常檢測服務系統。接下來,本文將會從特徵分析、演算法選型、模型訓練與實時檢測等幾個維度闡述我們的一些思考和實踐。

2. 特徵分析

2.1 找出資料的變化規律

在具體進行開發編碼前,有一項非常重要的工作,就是從已有的歷史監控指標中,發現時序資料的變化規律,從而根據資料分佈的特點選取合適的演算法。以下是我們從歷史資料中選取的一些具有代表性的指標分佈圖:

圖1 資料庫指標形態

從上圖我們可以看出,資料的規律主要呈現三種狀態:週期、漂移和平穩 [1] 。因此,我們前期可以針對這些普遍特徵的樣本進行建模,即可覆蓋大部分場景。接下來,我們分別從週期性、漂移性和平穩性這三個角度進行分析,並討論演算法設計的過程。

2.1.1 週期性變化

在很多業務場景中,指標會由於早晚高峰或是一些定時任務引起規律性波動。我們認為這屬於資料的內在規律性波動,模型應該具備識別出週期性成分,檢測上下文異常的能力。對於不存在長期趨勢成分的時序指標而言,當指標存在週期性成分的情況下,,其中T代表的是時序的週期跨度。可通過計算自相關圖,即計算出t取不同值時的值,然後通過分析自相關峰的間隔來確定週期性,主要的流程包括以下幾個步驟:

  1. 提取趨勢成分,分離出殘差序列。使用移動平均法提取出長期趨勢項,跟原序列作差得到殘差序列( 此處週期性分析與趨勢無關,若不分離趨勢成分,自相關將顯著受到影響,難以識別週期 )。

  2. 計算殘差的迴圈自相關( Rolling Correlation )序列。通過迴圈移動殘差序列後,與殘差序列進行向量點乘運算來計算自相關序列( 迴圈自相關可以避免延遲衰減 )。

  3. 根據自相關序列的峰值座標來確定週期T。提取自相關序列的一系列區域性最高峰,取橫座標的間隔為週期( 如果該週期點對應的自相關值小於給定閾值,則認為無顯著週期性 )。

具體過程如下:

圖2 週期提取流程示意

2.1.2 漂移性變化

對於待建模的序列,通常要求它不存在明顯的長期趨勢或是存在全域性漂移的現象,否則生成的模型通常無法很好地適應指標的最新走勢 [2] 。我們將時間序列隨著時間的變化出現均值的顯著變化或是存在全域性突變點的情況,統稱為漂移的場景。為了能夠準確地捕捉時間序列的最新走勢,我們需要在建模前期判斷歷史資料中是否存在漂移的現象。全域性漂移和週期性序列均值漂移,如下示例所示:

圖3 資料漂移示意

資料庫指標受業務活動等複雜因素影響,很多資料會有非週期性的變化,而建模需要容忍這些變化。因此,區別於經典的變點檢測問題,在異常檢測場景下,我們只需要檢測出歷史上很平穩,之後出現數據漂移的情況。綜合演算法效能和實際表現,我們使用了基於中位數濾波的漂移檢測方法,主要的流程包含以下幾個環節:

1. 中位數平滑

a. 根據給定視窗的大小,提取視窗內的中位數來獲取時序的趨勢成分。

b. 視窗需要足夠大,以避免週期因素影響,並進行濾波延遲矯正。

c. 使用中位數而非均值平滑的原因在於為了規避異常樣本的影響。

2. 判斷平滑序列是否遞增或是遞減

a. 中位數平滑後的序列資料,若每個點都大於( 小於 )前一個點,則序列為遞增( 遞減 )序列。

b. 如果序列存在嚴格遞增或是嚴格遞減的性質,則指標明視訊記憶體在長期趨勢,此時可提前終止。

3. 遍歷平滑序列,利用如下兩個規則來判斷是否存在漂移的現象

a. 當前樣本點左邊序列的最大值小於當前樣本點右邊序列的最小值,則存在突增漂移( 上漲趨勢 )。

b. 當前樣本點左邊序列的最小值大於當前樣本點右邊序列的最大值,則存在突降漂移( 下跌趨勢 )。

2.1.3 平穩性變化

對於一個時序指標,如果其在任意時刻,它的性質不隨觀測時間的變化而變化,我們認為這條時序是具備平穩性的。因此,對於具有長期趨勢成分亦或是週期性成分的時間序列而言,它們都是不平穩的。具體示例如下圖所示:

圖4 資料平穩示意

針對這種情況,我們可以通過單位根檢驗( Augmented Dickey-Fuller Test [3] 來判斷給定的時間序列是否平穩。具體地說,對於一條給定時間範圍指標的歷史資料而言,我們認為在同時滿足如下條件的情況下,時序是平穩的:

  1. 最近1天的時序資料通過adfuller檢驗獲得的p值小於0.05。

  2. 最近7天的時序資料通過adfuller檢驗獲得的p值小於0.05。

3. 演算法選型

3.1 分佈規律與演算法選擇

通過了解業界的一些知名公司在時序資料異常檢測上公佈的產品介紹,加上我們歷史積累的經驗,以及對部分線上實際指標的抽樣分析,它們的概率密度函式符合如下情況的分佈:

圖5 分佈偏斜示意

針對上述的分佈,我們調研了一些常見的演算法,並確定了箱形圖、絕對中位差和極值理論作為最終異常檢測演算法。以下是對常見時序資料檢測的演算法對比表:

我們沒有選擇3Sigma的主要原因是它對異常容忍度較低,而絕對中位差從理論上而言具有更好的異常容忍度,所以在資料呈現高對稱分佈時,通過絕對中位差( MAD )替代3Sigma進行檢測。我們對不同資料的分佈分別採用了不同的檢測演算法( 關於不同演算法的原理可以參考文末附錄的部分,這裡不做過多的闡述 ):

  1. 低偏態高對稱分佈 :絕對中位差( MAD

  2. 中等偏態分佈 :箱形圖( Boxplot

  3. 高偏態分佈 :極值理論( EVT

有了如上的分析,我們可以得出具體的根據樣本輸出模型的流程:

圖6 演算法建模流程

演算法的整體建模流程如上圖所示,主要涵蓋以下幾個分支環節:時序漂移檢測、時序平穩性分析、時序週期性分析和偏度計算。下面分別進行介紹:

  1. 時序漂移檢測 。如果檢測存在漂移的場景,則需要根據檢測獲得的漂移點t來切割輸入時序,使用漂移點後的時序樣本作為後續建模流程的輸入,記為S={Si},其中i>t。

  2. 時序平穩性分析 。如果輸入時序S滿足平穩性檢驗,則直接通過箱形圖( 預設 )或是絕對中位差的方式來進行建模。

  3. 時序週期性分析 。存在週期性的情況下,將週期跨度記為T,將輸入時序S根據跨度T進行切割,針對各個時間索引j∈{0,1,⋯,T−1}所組成的資料桶進行建模流程。不存在週期性的情況下,針對全部輸入時序S作為資料桶進行建模流程。

案例 :給定一條時間序列ts={t 0 ,t 1 ,⋯,t n },假定其存在週期性且週期跨度為T,對於時間索引j而言,其中j∈{0,1,⋯,T−1},對其建模所需要的樣本點由區間[t j−kT−m , t j−kT+m ]構成,其中m為引數,代表視窗大小,k為整數,滿足j−kT−m≥0, j−kT+m≤n。

舉例來說,假設給定時序自2022/03/01 00:00:00至2022/03/08 00:00:00止,給定視窗大小為5,週期跨度為一天,那麼對於時間索引30而言,對其建模所需要的樣本點將來自於如下時間段:

[03/01 00:25:00, 03/01 00:35:00]

[03/02 00:25:00, 03/02 00:35:00]

...

[03/07 00:25:00, 03/07 00:35:00]

  1. 偏度計算 。時序指標轉化為概率分佈圖,計算分佈的偏度,若偏度的絕對值超過閾值,則通過極值理論進行建模輸出閾值。若偏度的絕對值小於閾值,則通過箱形圖或是絕對中位差的方式進行建模輸出閾值。

3.2 案例樣本建模

這裡選取了一個案例,展示資料分析及建模過程,便於更清晰的理解上述過程。其中圖(a)為原始序列,圖(b)為按照天的跨度進行摺疊的序列,圖(c)為圖(b)中某時間索引區間內的樣本經過放大後的趨勢表現,圖(d)中黑色曲線為圖(c)中時間索引所對應的下閾值。如下是針對某時序的歷史樣本進行建模的案例:

圖7 建模案例

上圖(c)區域內的樣本分佈直方圖以及閾值( 已剔除其中部分異常樣本 ),可以看到,在該高偏分佈的場景中,EVT演算法計算的閾值更為合理。

圖8 偏斜分佈閾值對比

4. 模型訓練與實時檢測

4.1 資料流轉過程

為了實時檢測規模龐大的秒級資料,我們以基於Flink進行實時流處理為出發點,設計瞭如下的技術方案:

  1. 實時檢測部分 :基於Flink實時流處理,消費Mafka( 美團內部的訊息佇列元件 )訊息進行線上檢測,結果儲存於Elasticsearch( 以下簡稱ES )中,併產生異常記錄。

  2. 離線訓練部分 :以Squirrel( 美團內部的KV資料庫 )作為任務佇列,從MOD( 美團內部運維資料倉庫 )讀取訓練資料,從配置表讀取引數,訓練模型,保存於ES,支援自動和手動觸發訓練,通過定時讀取模型庫的方式,進行模型載入和更新。

以下是具體的離線訓練和線上檢測技術設計:

圖9 離線訓練和線上檢測技術設計

4.2 異常檢測過程

異常檢測演算法整體採用分治思想,在模型訓練階段,根據歷史資料識別提取特徵,選定合適的檢測演算法。這裡分為離線訓練和線上檢測兩部分,離線主要根據歷史情況進行資料預處理、時序分類和時序建模。線上主要載入運用離線訓練的模型進行線上實時異常檢測。具體設計如下圖所示:

圖10 異常檢測過程

5. 產品運營

為了提高優化迭代演算法的效率,持續運營以提高精準率和召回率,我們藉助Horae( 美團內部可擴充套件的 時序資料異常檢測系統 )的案例回溯能力,實現線上檢測、案例儲存、分析優化、結果評估、釋出上線的閉環。

圖11 運營流程

目前,異常檢測演算法指標如下:

  • 精準率 :隨機選擇一部分檢測出異常的案例,人工校驗其中確實是異常的比例,為81%。

  • 召回率 :根據故障、告警等來源,審查對應例項各指標異常情況,對照監測結果計算召回率,為82%。

  • F1-score :精準率和召回率的調和平均數,為81%。

6. 未來展望

目前,美團資料庫異常監測能力已基本構建完成,後續我們將對產品繼續進行優化和拓展,具體方向包括:

  1. 具有異常型別識別能力 。可以檢測出異常的型別,如均值變化、波動變化、尖刺等,支援按異常型別進行告警訂閱,並作為特徵輸入後續診斷系統, 完善資料庫自治生態 [4]

  2. 構建Human-in-Loop環境 。支援根據反饋標註自動學習, 保障模型持續優化 [5]

  3. 多種資料庫場景的支援 。異常檢測能力平臺化以支援更多資料庫場景,如DB端到端報錯、節點網路監測等。

7. 附錄

7.1 絕對中位差

絕對中位差,即Median Absolute Deviation( MAD ),是對單變數數值型資料的樣本偏差的一種魯棒性測量 [6] ,通常由下式計算而得:

其中在先驗為正態分佈的情況下,一般C選擇1.4826,k選擇3。MAD假定樣本中間的50%區域均為正常樣本,而異常樣本落在兩側的50%區域內。當樣本服從正態分佈的情況下,MAD指標相較於標準差更能適應資料集中的異常值。對於標準差,使用的是資料到均值的距離平方,較大的偏差權重較大,異常值對結果影響不能忽視,而對MAD而言少量的異常值不會影響實驗的結果,MAD演算法對於資料的正態性有較高要求。

7.2 箱形圖

箱形圖主要通過幾個統計量來描述樣本分佈的離散程度以及對稱性,包括:

  • Q0:最小值( Minimum

  • Q1:下四分位數( Lower Quartile

  • Q2:中位數( Median

  • Q3:上四分位數( Upper Quartile

  • Q4:最大值( Maximum

圖12 箱線圖

將Q 1 與Q 3 之間的間距稱為IQR,當樣本偏離上四分位1.5倍的IQR( 或是偏離下四分位數1.5倍的IQR )的情況下,將樣本視為是一個離群點。不同於基於正態假設的三倍標準差,通常情況下,箱形圖對於樣本的潛在資料分佈沒有任何假定,能夠描述出樣本的離散情況,且對樣本中包含的潛在異常樣本有較高的容忍度。對於有偏資料,Boxplot進行校準後建模更加符合資料分佈 [7]

7.3 極值理論

真實世界的資料很難用一種已知的分佈來概括,例如對於某些極端事件( 異常 ),概率模型( 例如高斯分佈 )往往會給出其概率為0。極值理論 [8] 是在不基於原始資料的任何分佈假設下,通過推斷我們可能會觀察到的極端事件的分佈,這就是極值分佈( EVD )。其數學表示式如下( 互補累積分佈函式公式 ):

其中t代表樣本的經驗閾值,對於不同場景可以設定不同取值,,分別是廣義帕累託分佈中的形狀引數與尺度引數,在給定樣本超過人為設定的經驗閾值t的情況下,隨機變數X-t是服從廣義帕累託分佈的。通過極大似然估計方法我們可以計算獲得引數估計值與,並且通過如下公式來求取模型閾值:

上述公式中q代表風險引數,n是所有樣本數量,Nt是滿足x-t>0的樣本數量。由於通常情況下對於經驗閾值t的估計沒有先驗的資訊,因此可以使用樣本經驗分位數來替代數值t,這裡經驗分位數的取值可以根據實際情況來選擇。

8. 參考資料

[1] Ren, H., Xu, B., Wang, Y., Yi, C., Huang, C., Kou, X., ... & Zhang, Q. (2019, July). Time-series anomaly detection service at microsoft. In Proceedings of the 25th ACM SIGKDD international conference on knowledge discovery & data mining (pp. 3009-3017).

[2] Lu, J., Liu, A., Dong, F., Gu, F., Gama, J., & Zhang, G. (2018). Learning under concept drift: A review. IEEE Transactions on Knowledge and Data Engineering, 31(12), 2346-2363.

[3] Mushtaq, R. (2011). Augmented dickey fuller test.

[4] Ma, M., Yin, Z., Zhang, S., Wang, S., Zheng, C., Jiang, X., ... & Pei, D. (2020). Diagnosing root causes of intermittent slow queries in cloud databases. Proceedings of the VLDB Endowment, 13(8), 1176-1189.

[5] Holzinger, A. (2016). Interactive machine learning for health informatics: when do we need the human-in-the-loop?. Brain Informatics, 3(2), 119-131.

[6] Leys, C., Ley, C., Klein, O., Bernard, P., & Licata, L. (2013). Detecting outliers: Do not use standard deviation around the mean, use absolute deviation around the median. Journal of experimental social psychology, 49(4), 764-766.

[7] Hubert, M., & Vandervieren, E. (2008). An adjusted boxplot for skewed distributions. Computational statistics & data analysis, 52(12), 5186-5201.

[8] Siffer, A., Fouque, P. A., Termier, A., & Largouet, C. (2017, August). Anomaly detection in streams with extreme value theory. In Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (pp. 1067-1075).

----------  END  ----------

團隊簡介

美團基礎技術部/資料庫研發中心/資料庫平臺研發組,負責為美團各個業務線提供高效便捷的資料庫使用入口,幫助美團DBA穩定快捷地維護資料庫,同時提供分析診斷平臺,實現資料庫自治。

也許你還想看

  |  資料庫異常智慧分析與診斷

  | 資料庫全量SQL分析與審計系統性能優化之旅

  | 美團MySQL資料庫巡檢系統的設計與應用

閱讀更多

---

前端  |     演算法  |   後端  |  資料

安全  |  Android  |   iOS    |   運維  |  測試