如何快速構建Prometheus監控體系,4大通用要點詳解

語言: CN / TW / HK

Prometheus發展到今天,已經全面接管了 K8s 上的監控體系 ,形成了一套以它為核心的統一方案,但監控依然是雲原生領域非常讓人頭疼的 問題 之一。

一方面是因為監控非常重要,直接關係到應用的 高效、平穩 執行;

另一方面, 雲原生使監控更加複雜 了,除了業務方面,叢集、節點、Service、Pod 等等維度眾多,並且還要應對短時間內不斷變化的現實,同時還面臨降低資源開銷的挑戰。

告警 來說,現實困境包括:

  • 沒有告警 :系統裝箱過度,導致節點 CPU 100%,業務已崩而排程器還在不停排程Pod;

  • 海量告警=沒有告警 :一天 200 個告警電話,處理一個告警的時候同時又收到10個告警;

  • 可自愈的告警不該告警 :週末揹著電腦和朋友聚餐,接到告警電話立馬處理,登入系統後發現已經自動恢復,關上電腦結果又出現告警…

在具體的 監控指標規劃 上,業界通用的兩個原則是  USE 和 RED  。

資源 監控指標來看,如節點和容器的資源使用情況等等,需要考慮利用率(Utilization),資源被有效利用起來提供服務的平均時間佔比;飽和度(Saturation),資源擁擠的程度,比如工作佇列的長度;錯誤率(Errors),錯誤的數量。

服務 監控指標來看,比如 kube-apiserver 或者某個應用的工作情況,要考慮每秒請求數量(Rate)、每秒錯誤數量(Errors)、服務響應時間(Duration)。

怎麼樣,是不是感覺實現起來 複雜度 挺高的?

今天給你推薦一個監控方面的優質專題, Prometheus 監控體系構建:架構設計與告警實現 ,騰訊技術專家孟凡傑的分享, 原理+實操 ,幫你掃清監控方面的障礙,掌握可複製的解決方案。

公號粉絲0元領:point_down:

新增後

獲取 免費報名連結 和配套課件哦~

:loudspeaker: 本專題不適合學生群體

如有相關程式設計經驗可酌情考慮

公號粉絲加贈:雲原生領域經典電子書及Prometheus拓展學習文件,直播間還會有抽獎福利,可別錯過了!

2天內容,8大內容要點 ,包括 以 Prometheus 為核心的監控系統的架構設計以及如何實現有效告警 。在建立對監控體系的整體認知基礎上進一步實操,對企業級的應用做到心中有數。

特別提示,其中 8月10日(週三)晚8點的直播 千萬別錯過,可隨時提問,老師會進行答疑。

如果你存在以下困惑都建議你來聽聽:

  • 對 Prometheus 上手難有怨言

  • 對通過修改配置檔案來管理 Prometheus 的方式有痛點

  • 對因為資料量過大而無法擴充套件您的 Prometheus 感到有困擾

  • 在生產環境執行多套 Prometheus 叢集面臨管理和使用上的不便

  • 在企業數字化轉型過程中對於如何架構適合您的雲原生監控方案有困惑

新增後

獲取 免費報名連結 和配套課件哦~

:loudspeaker: 本專題不適合學生群體

如有相關程式設計經驗可酌情考慮