“高校”行業智慧運維解決方案解析(含落地實踐)

語言: CN / TW / HK

背景與挑戰

自資訊化“十二五”以來,“三通兩平臺”成為教育行業資訊化建設領域的重點。在以上背景下,各地教育部門和學校紛紛開展了大量建設實踐。

隨著當前教育應用創新的層出不窮,高校資訊化建設也從數字校園向智慧校園轉變時校園IT系統也面臨著新的變革與挑戰,主要包含以下兩方面:

  • 應用平臺層面:教育資源公共服務平臺、教育管理公共服務平臺中的重要業務系統如一卡通、財務、查分系統等對可用性和敏捷性均提出了更高的要求;

  • IT運維層面: 大量的系統和裝置對運維提出了更高的要求,系統複雜難有有效的監控工具,因此導致運維問題難以快速定位,運維效果難以有效評估。

此外,隨著數字校園向智慧校園的轉變,該過程給校園IT運維也帶來了以下痛點:

  • 健康度感知:教育資源公共服務平臺、教育管理公共服務平臺整體健康度體系難以建立,無量化指標管理;

  • 定位難:由於第三方提供的系統質量難以保證,導致師生在使用各系統平臺(如備課系統、自主學習系統、校園綜合管理系統等)時出現的問題難以復現,難以定位;

  • 高併發:難以提前評估系統的併發瓶頸,導致階段性爆發的考生查分熱潮,時常引發系統宕機。

解決方案

高校智慧業務運維三大階段包含運維工具補全階段、IT運維管理標準化階段以及智慧運維階段。

高校運維工具補全

運維工具補全階段主要包含基礎設施監控,業務應用監控、使用者體驗監控、集中告警等校園IT基礎設施監控的補全。

此外,隨著智慧校園的的建設,學校IT基礎建設的逐漸完善,多校區共用同一機房的特點,使得IT基礎設施的實時線上與安全效能顯得尤為重要。

基於以上背景,雲智慧基礎設施監控通過豐富的協議接入能力以及模型化定義能力,可快速支援新資源,實現資源的一體化監控,實時瞭解掌握伺服器網路硬體軟體等基礎設施當前的健康狀況,以便評估衡量基礎設施使用率,為使用者基礎設施優化和了解基礎設施裝置的處理能力提供準確的資料,預測潛在的故障,進行提前預警。

校園機房視覺化實時告警方面,雲智慧提供機房的三維全景檢視,包括機櫃、機櫃外單獨裝置;溫溼度採集模組採集機房區域溫溼度狀態後接入該機房的串列埠伺服器,串列埠服務連線網路後可將溫溼度狀態資料傳送到雲智慧伺服器統一監控。

指標檢測方面,雲智慧內建了上萬指標項,成功做到了開箱即用。

雲智慧可主動發現業務問題,保障各園區教學樓專線高可用。一方面,雲智慧通過全國乃至全球節點對高校對外業務進行7*24小時主動撥測,以便及時發現問題,主動告警;另一方面,通過在各校區辦公樓佈置雲智慧監控魔盒,實時監控專線質量,提高使用者體驗。

隨著校園各業務系統的逐漸完善,業務和業務之間的呼叫關係也逐漸複雜化,因此導致業務系統出現問題時難以快速定位。基於上述因素,面對複雜多樣化的系統時,學校業務系統需要視覺化的工具進行集中管理,同時量化第三方提供的業務系統質量,以便學校業務系統故障定位和分析。

雲智慧擁有端到端全技術棧應用效能管理,包含支援移動和智慧裝置以便更好的理解真實使用者體驗;支援端到端高度虛擬化應用來跟蹤負載變化;以及支援公有云、私有云及混合雲的跨雲環境部署方式。以上效能可快速定位教務系統問題,包含以下幾方面:

  • 精細運維:包含自動發現全域性拓撲圖、快速定位效能問題、應用間關聯分析;

  • 使用者體驗:包含自動獲取所有使用者行為、細粒度追蹤真實的使用者行為、操作及流程效能;

  • 深度診斷:包含程式碼級問題診斷、分析堆疊語句效能影響、資料庫SQL細化分析;

  • 行為分析:包含業務行為統計分析、端到端事務追蹤、快速定位效能問題。

業務分析方面,雲智慧可基於唯一的請求ID標識自動串接整個請求,從前端到後端應用程式碼以及基礎設施,基於單次請求序列還原問題快照,幫助高校從外到內逐步分析師生使用系統的問題根源,以此達到師生使用問題快速復現的目的。

雲智慧高效解決方案可快速定位程式碼級問題。包含基於業務拓撲發現問題、移動端程式碼崩潰問題分析、Web端真實使用者體驗監控分析、請求與關鍵事務分析以及單次請求分析。

雲智慧可基於各教務系統整合梳理應用以及IT資源情。一方面,系統架構拓撲圖分層展示系統所有物件的健康程度及相互之間的依賴關係。另一方面,使用者可根據資源快速檢視縱向依賴關係以及分析關聯的物件,從而加速根因排查過程。

雲智慧提供告警的統一出口,以此實現告警集中化、自動化、多樣化、智慧化、人性化。主要包含以下幾方面:

  • 匯聚分散告警,進行標準格式化,實現集中化處理;

  • 告警處置的自動化,確認、派單、升級、恢復;

  • 告警通知功能支援多種通知方式,確保問題事件通知能夠被即時送達;

  • 基於規則對海量的、持續的冗餘訊息進行告警壓縮和告警合併,抑制告警訊息的數量,減少告警訊息的頻率;

  • 提供告警靜默選項,對系統維護時間視窗內的告警進行靜默處理,從而減少不必要的告警騷擾。

高校運維管理標準化

高校運維管理標準化階段包含ITSM、CMDB、運維自動化等方面技術的實現。雲智慧通過基於標準化的管理流程,規範第三方服務,以此優化師生使用者體驗。

IT服務管理(ITSM)總體設計方面,通過雲智慧數字化運營服務管理產品可以滿高校IT服務管理系統的建設。通過現有產品功能+系統API介面+自定義流程+部分功能二次開發定製即可以滿足對智慧校園專案的建設內容。

資訊化資產集中管控方面,雲智慧擁有基於自動發現的CMDB資料維護。通過Agent、API等多種方式,自動採集Iaas、Pass、Saas層的配置項資訊。支援多資料來源聯邦採集,並調和各資料來源的採集資料,確保CMDB中配置項資訊的全面和準確。

下圖為CMDB整體架構設計圖。通過雲智慧CMDB,可以完成對IaaS、PaaS到SaaS層的運維元資料的全面管理,為運維監控、服務管理和自動化等系統提供完整而準確的元資料支撐。

以下是CMDB應用於監控告警處理與自動化平臺的資料良性迴圈過程。CMDB作為各種資源的配置資訊庫,為監控告警資訊提供資訊下鑽能力,讓單點告警資訊拓展到具體影響面。自動化平臺通過告警自愈觸發系統修復,此時將通過CMDB獲得任務執行的目標列表,提高任務執行的準確性與可性行。待問題系統修復後,CDBM將自動採集系統資訊並更新原庫中資訊,完成資訊歸檔。

資訊辦工單視覺化方面,雲智慧通過工單統計,使得高校資訊辦工作有跡可循,從而達到持續優化的目的。

高校運維智慧化

高校運維智慧化包含智慧分析、預測分析、機器學習、AI等技術的實現。一方面,通過實現AIOps智慧運維場景,轉變運維管理模式,從而提高智慧化和自動化水平。另一方面,運用人工智慧演算法基於資料特徵感知業務隱患,從而可基於歷史資料預測故障發生。

雲智慧提供的指標異常檢測旨在通過演算法發現KPI(關鍵效益指標)時間序列上的異常點,然後通過告警告知運維人員相關風險。與此同時,指標異常檢測也是其他AIOps場景的前置場景,其檢測結果為後續的告警收斂、根因定位、故障自愈等場景提供輸入資訊。

單指標智慧異常檢測具體如下圖所示:

多指標智慧根因分析具體如下圖所示:

智慧日誌異常檢測包含日誌異常模式檢測、日誌統計異常檢測、日誌順序異常檢測以及其他異常檢測等。

雲智慧提供基於使用者體驗的運維思路。從資料監控,到分析優化,到管理指導,最終提升了師生的總體滿意度。達到了從基礎、提升、管理、高階4個階段的轉變,實現從工具化運維接到智慧化運維的演進。

落地實踐

某高校統一監控平臺案例

需求痛點

  • 業務系統眾多,呼叫關係難以視覺化;

  • 難以感知使用者訪問體驗;

  • 出現問題,無法快速定位根源;

  • 系統眾多需要集中管理和集中監控。

方案亮點

  • 對已有業務系統建立的統一監控平臺

  • 使用APM探針技術對業務系統的使用者體驗進行端到端的追蹤

方案價值

  • 管理價值:對龐大、多樣、複雜的業務系統能夠有全域性上的把控;

  • 運維與開發價值:能夠有效監控業務系統的全量訪問資料,從全域性到區域性做到精準定位、深入問題診斷。(譬如,業務系統執行拓撲、訪問效率、資料庫查詢語句、主機資訊等)

  • 整體價值:快速提升業務系統的效能,滿足全校師生的使用者體驗,保障正常教學活動的開展。

FlyFish開源福利

雲智慧已開源資料視覺化編排平臺 FlyFish 。通過配置資料模型為使用者提供上百種視覺化圖形元件,零編碼即可實現符合自己業務需求的炫酷視覺化大屏。 同時,飛魚也提供了靈活的拓展能力,支援元件開發、自定義函式與全域性事件等配置, 面向複雜需求場景能夠保證高效開發與交付。

如果喜歡我們的專案,請不要忘記點選下方程式碼倉庫地址,在 GitHub / Gitee 倉庫上點個 Star,我們需要您的鼓勵與支援。此外,即刻參與 FlyFish 專案貢獻成為 FlyFish Contributor 的同時更有萬元現金等你來拿。

GitHub 地址: https://github.com/CloudWise-OpenSource/FlyFish

Gitee 地址: https://gitee.com/CloudWise/fly-fish

微信掃描識別下方二維碼,備註【飛魚】加入AIOps社群飛魚開發者交流群,與 FlyFish 專案 PMC 面對面交流~