“高校”行業智能運維解決方案解析(含落地實踐)

語言: CN / TW / HK

背景與挑戰

自信息化“十二五”以來,“三通兩平台”成為教育行業信息化建設領域的重點。在以上背景下,各地教育部門和學校紛紛開展了大量建設實踐。

隨着當前教育應用創新的層出不窮,高校信息化建設也從數字校園向智慧校園轉變時校園IT系統也面臨着新的變革與挑戰,主要包含以下兩方面:

  • 應用平台層面:教育資源公共服務平台、教育管理公共服務平台中的重要業務系統如一卡通、財務、查分系統等對可用性和敏捷性均提出了更高的要求;

  • IT運維層面: 大量的系統和設備對運維提出了更高的要求,系統複雜難有有效的監控工具,因此導致運維問題難以快速定位,運維效果難以有效評估。

此外,隨着數字校園向智慧校園的轉變,該過程給校園IT運維也帶來了以下痛點:

  • 健康度感知:教育資源公共服務平台、教育管理公共服務平台整體健康度體系難以建立,無量化指標管理;

  • 定位難:由於第三方提供的系統質量難以保證,導致師生在使用各系統平台(如備課系統、自主學習系統、校園綜合管理系統等)時出現的問題難以復現,難以定位;

  • 高併發:難以提前評估系統的併發瓶頸,導致階段性爆發的考生查分熱潮,時常引發系統宕機。

解決方案

高校智能業務運維三大階段包含運維工具補全階段、IT運維管理標準化階段以及智能運維階段。

高校運維工具補全

運維工具補全階段主要包含基礎設施監控,業務應用監控、用户體驗監控、集中告警等校園IT基礎設施監控的補全。

此外,隨着智慧校園的的建設,學校IT基礎建設的逐漸完善,多校區共用同一機房的特點,使得IT基礎設施的實時在線與安全性能顯得尤為重要。

基於以上背景,雲智慧基礎設施監控通過豐富的協議接入能力以及模型化定義能力,可快速支持新資源,實現資源的一體化監控,實時瞭解掌握服務器網絡硬件軟件等基礎設施當前的健康狀況,以便評估衡量基礎設施使用率,為用户基礎設施優化和了解基礎設施設備的處理能力提供準確的數據,預測潛在的故障,進行提前預警。

校園機房可視化實時告警方面,雲智慧提供機房的三維全景視圖,包括機櫃、機櫃外單獨設備;温濕度採集模塊採集機房區域温濕度狀態後接入該機房的串口服務器,串口服務連接網絡後可將温濕度狀態數據傳送到雲智慧服務器統一監控。

指標檢測方面,雲智慧內置了上萬指標項,成功做到了開箱即用。

雲智慧可主動發現業務問題,保障各園區教學樓專線高可用。一方面,雲智慧通過全國乃至全球節點對高校對外業務進行7*24小時主動撥測,以便及時發現問題,主動告警;另一方面,通過在各校區辦公樓佈置雲智慧監控魔盒,實時監控專線質量,提高用户體驗。

隨着校園各業務系統的逐漸完善,業務和業務之間的調用關係也逐漸複雜化,因此導致業務系統出現問題時難以快速定位。基於上述因素,面對複雜多樣化的系統時,學校業務系統需要可視化的工具進行集中管理,同時量化第三方提供的業務系統質量,以便學校業務系統故障定位和分析。

雲智慧擁有端到端全技術棧應用性能管理,包含支持移動和智能設備以便更好的理解真實用户體驗;支持端到端高度虛擬化應用來跟蹤負載變化;以及支持公有云、私有云及混合雲的跨雲環境部署方式。以上性能可快速定位教務系統問題,包含以下幾方面:

  • 精細運維:包含自動發現全局拓撲圖、快速定位性能問題、應用間關聯分析;

  • 用户體驗:包含自動獲取所有用户行為、細粒度追蹤真實的用户行為、操作及流程性能;

  • 深度診斷:包含代碼級問題診斷、分析堆棧語句性能影響、數據庫SQL細化分析;

  • 行為分析:包含業務行為統計分析、端到端事務追蹤、快速定位性能問題。

業務分析方面,雲智慧可基於唯一的請求ID標識自動串接整個請求,從前端到後端應用代碼以及基礎設施,基於單次請求序列還原問題快照,幫助高校從外到內逐步分析師生使用系統的問題根源,以此達到師生使用問題快速復現的目的。

雲智慧高效解決方案可快速定位代碼級問題。包含基於業務拓撲發現問題、移動端代碼崩潰問題分析、Web端真實用户體驗監控分析、請求與關鍵事務分析以及單次請求分析。

雲智慧可基於各教務系統整合梳理應用以及IT資源情。一方面,系統架構拓撲圖分層展示系統所有對象的健康程度及相互之間的依賴關係。另一方面,用户可根據資源快速查看縱向依賴關係以及分析關聯的對象,從而加速根因排查過程。

雲智慧提供告警的統一出口,以此實現告警集中化、自動化、多樣化、智能化、人性化。主要包含以下幾方面:

  • 匯聚分散告警,進行標準格式化,實現集中化處理;

  • 告警處置的自動化,確認、派單、升級、恢復;

  • 告警通知功能支持多種通知方式,確保問題事件通知能夠被即時送達;

  • 基於規則對海量的、持續的宂餘消息進行告警壓縮和告警合併,抑制告警消息的數量,減少告警消息的頻率;

  • 提供告警靜默選項,對系統維護時間窗口內的告警進行靜默處理,從而減少不必要的告警騷擾。

高校運維管理標準化

高校運維管理標準化階段包含ITSM、CMDB、運維自動化等方面技術的實現。雲智慧通過基於標準化的管理流程,規範第三方服務,以此優化師生用户體驗。

IT服務管理(ITSM)總體設計方面,通過雲智慧數字化運營服務管理產品可以滿高校IT服務管理系統的建設。通過現有產品功能+系統API接口+自定義流程+部分功能二次開發定製即可以滿足對智慧校園項目的建設內容。

信息化資產集中管控方面,雲智慧擁有基於自動發現的CMDB數據維護。通過Agent、API等多種方式,自動採集Iaas、Pass、Saas層的配置項信息。支持多數據源聯邦採集,並調和各數據源的採集數據,確保CMDB中配置項信息的全面和準確。

下圖為CMDB整體架構設計圖。通過雲智慧CMDB,可以完成對IaaS、PaaS到SaaS層的運維元數據的全面管理,為運維監控、服務管理和自動化等系統提供完整而準確的元數據支撐。

以下是CMDB應用於監控告警處理與自動化平台的數據良性循環過程。CMDB作為各種資源的配置信息庫,為監控告警信息提供信息下鑽能力,讓單點告警信息拓展到具體影響面。自動化平台通過告警自愈觸發系統修復,此時將通過CMDB獲得任務執行的目標列表,提高任務執行的準確性與可性行。待問題系統修復後,CDBM將自動採集系統信息並更新原庫中信息,完成信息歸檔。

信息辦工單可視化方面,雲智慧通過工單統計,使得高校信息辦工作有跡可循,從而達到持續優化的目的。

高校運維智能化

高校運維智能化包含智能分析、預測分析、機器學習、AI等技術的實現。一方面,通過實現AIOps智能運維場景,轉變運維管理模式,從而提高智能化和自動化水平。另一方面,運用人工智能算法基於數據特徵感知業務隱患,從而可基於歷史數據預測故障發生。

雲智慧提供的指標異常檢測旨在通過算法發現KPI(關鍵效益指標)時間序列上的異常點,然後通過告警告知運維人員相關風險。與此同時,指標異常檢測也是其他AIOps場景的前置場景,其檢測結果為後續的告警收斂、根因定位、故障自愈等場景提供輸入信息。

單指標智能異常檢測具體如下圖所示:

多指標智能根因分析具體如下圖所示:

智能日誌異常檢測包含日誌異常模式檢測、日誌統計異常檢測、日誌順序異常檢測以及其他異常檢測等。

雲智慧提供基於用户體驗的運維思路。從數據監控,到分析優化,到管理指導,最終提升了師生的總體滿意度。達到了從基礎、提升、管理、高級4個階段的轉變,實現從工具化運維接到智慧化運維的演進。

落地實踐

某高校統一監控平台案例

需求痛點

  • 業務系統眾多,調用關係難以可視化;

  • 難以感知用户訪問體驗;

  • 出現問題,無法快速定位根源;

  • 系統眾多需要集中管理和集中監控。

方案亮點

  • 對已有業務系統建立的統一監控平台

  • 使用APM探針技術對業務系統的用户體驗進行端到端的追蹤

方案價值

  • 管理價值:對龐大、多樣、複雜的業務系統能夠有全局上的把控;

  • 運維與開發價值:能夠有效監控業務系統的全量訪問數據,從全局到局部做到精準定位、深入問題診斷。(譬如,業務系統運行拓撲、訪問效率、數據庫查詢語句、主機信息等)

  • 整體價值:快速提升業務系統的性能,滿足全校師生的用户體驗,保障正常教學活動的開展。

FlyFish開源福利

雲智慧已開源數據可視化編排平台 FlyFish 。通過配置數據模型為用户提供上百種可視化圖形組件,零編碼即可實現符合自己業務需求的炫酷可視化大屏。 同時,飛魚也提供了靈活的拓展能力,支持組件開發、自定義函數與全局事件等配置, 面向複雜需求場景能夠保證高效開發與交付。

如果喜歡我們的項目,請不要忘記點擊下方代碼倉庫地址,在 GitHub / Gitee 倉庫上點個 Star,我們需要您的鼓勵與支持。此外,即刻參與 FlyFish 項目貢獻成為 FlyFish Contributor 的同時更有萬元現金等你來拿。

GitHub 地址: https://github.com/CloudWise-OpenSource/FlyFish

Gitee 地址: https://gitee.com/CloudWise/fly-fish

微信掃描識別下方二維碼,備註【飛魚】加入AIOps社區飛魚開發者交流羣,與 FlyFish 項目 PMC 面對面交流~