行業方案|“機場”行業智能運維解決方案介紹

語言: CN / TW / HK

背景與現狀

2022年1月7日國家出台了“十四五”民用航空發展規劃, 規劃表明2021-2025年中國民航業將呈現兩階段發展,其中2021-2022年是恢復期和積蓄期,2023-2025年是增長期和釋放期。在第二階段,將重點擴大國內市場、恢復國際市場,提高對外開放水平, 加快提升容量規模和質量效率等,以此全方位推進民航高質量發展。

中國民用航空局機場司副司長張鋭,針對民航機場目前發展面臨的困難與挑戰提出了一些思考。過去依靠機場產業發展速度與規模上取得的成績,如今許多深層次的矛盾開始展現,主要包括:

  • 超30個機場處於飽和甚至超飽和狀態;

  • 受機場保障資源和運行效率的制約,效率難以保證;

  • 大量服務設施設備調度不科學帶來的能耗浪費;

  • 不安全事件和事故徵候發生率仍然高企;

針對上述問題,機場行業需要持續深化信息化全場景滲透、數字化運營品質監控以及需通過 IT 系統對業務流程進行固化、優化以及再造。

在2019世界交通運輸大會民航安全與發展論壇上,中國民用航空局機場司副司長張鋭發表了《推進四型機場建設實現機場高質量發展》的主題演講,針對民航機場目前發展面臨的困難與挑戰,提出了對推進四型機場建設的一些思考。四型機場即建設平安、綠色、智慧、人文的全面發展機場。

  • 平安:安全生產基礎牢固,安全保障體系完備,安全運行平穩可控的機場;

  • 綠色:在全生命週期內實現資源集約節約、低碳運行、環境友好的機場;

  • 智慧:生產要素全面物聯,數據共享、協同高效、智能運行的機場;

  • 人文:秉持以人為本,富有文化底藴,體現時代精神和當代民航精神,弘揚社會主義價值觀的機場。

當前機場信息化現狀主要存在機場資源瓶頸、IT建設滯後、管理面臨風險等問題。因此,打造數字化最佳體驗機場是機場信息化發展的必然趨勢。

痛點分析

基於以上背景分析,當前機場行業主要存在以下痛點:

  • 系統故障處理慢:部分機場因自助安檢閘機故障,致使百名旅客長隊,最終導致誤機;

  • 人工巡檢繁瑣:機場機房分佈遠,巡檢週期長,只能看出明顯告警,無法識別具體問題;

  • 系統管理困難:IT資產變更頻繁且種類多,變更申請流程不完善導致系統管理困難;

  • 設備故障發現晚:部分機場設備系統故障,致使值機、安檢等業務均受影響,最終導致被約談;

  • 第三方應用多:網站、App等第三方平台逐漸增多,可自助值機接口穩定性也逐漸變高;

  • 工單錯亂維護難:由於缺乏統一的工單管理,導致故障報修工單無合理分配製度,全靠人工維護。

解決方案

方案優勢

雲智慧提供面向“智慧機場”領域的一體化智慧運維實踐。過往項目覆蓋700+機場運維和項目團隊人員角色;對接100+機場各類廠商的資源設備;梳理了100+機場應用系統的配置項;對10000+航司監控指標進行集中管控。

雲智慧聚焦為機場行業提供高可用IT服務,為保障IT服務的質量,雲智慧圍繞服務等級協議SLA展開各種運維工作。以此同時,雲智慧在可用性要求、安全合規、運維技術、管理模式、服務分級、業務要求、運維職責劃分等方面也做了不同的優化。

與此同時,雲智慧提供一個體系(簡潔高效的運維體系),兩種能力(基礎設施服務能力、業務系統服務能力),三項原則(安全合規、標準作業、快速響應)以及四大工具(運維管理、智能自動、數據可視、配置管理)進一步保障了機場行業IT運維的穩定運行。

  • 高可用性:因行業特殊性,對IT服務提供服務(包含應用系統、設備、數據等資源)的可用性提出更高的要求,往往通過採用主從、集羣等多種技術手段及有效的運維工作來滿足這一要求;

  • 安全合規:因機場擁有服務的人員數量大、範圍廣等特殊屬性,故更強調日常運控及應急處置協同效率以及機場安全運行及監測能力;

  • 標準作業:機場對可用性的高要求,傳遞到運維工作則集中表現為日常運維維護工作的標準化、精細化,包含標準作業程序、標準維護程序、應急操作程序及配套的“一體化指揮控制”;

  • 建轉運:機場往往面臨新航站樓、交通樞紐站、新系統等的“建轉運”工作,故需要有組織、有步驟接收新運維對象且需快速建立運維機制;

  • 智能自動:機場IT資源在劃撥調配、日常維護、故障處理時工作繁重且對可靠性要求高。此時,運行團隊要求穩定但很難靈活擴張,往往需要在標準作業以及自主可控的基礎上實現智能化、自動化水平,以此提高工作效率,降低人為風險。

主要場景

雲智慧運維體系提供全套運維服務體系化建設、全域IT基礎設施集中式管控、全程用户體驗端到端追蹤、全景運維態勢立體化可視等主要場景服務。

運維服務體系化建設

建設目標

建章立制

資源盤清

關係構建

關係構建方面,雲智慧通過模型關係將模型與其他模型有效的關聯,為各模型下實例資源間關係的建立提供規則和約束。此外,模型拓撲管理方面通過定義全局模型拓撲圖,從而在一個視圖中以全局視角直觀展示各個模型之間的關聯關係。與此同時,雲智慧以業務層級拓撲為基礎,從業務和應用的視角來組織和維護軟硬件、網絡、服務等資源的配置項信息和關聯關係。

管理優化

工具賦能

  • 智能客服:利用自然語言識別技術,幫助用户解決常見問題,快速響應用户的同時極大減少運維工程師工作量;

  • 坐席監控:可實時查看坐席的接待數、對話數、平均響應時間、平均對話時長、消息總數等信息和某個坐席的詳情數據;

  • 移動提單:靈活地對接企業微信、釘釘等企業 IM 以及客户自有 APP,支持用户通過移動端訪問智能客服和在線服務枱,支持用户自助提交工單、查詢工單處理進度;

  • 服務目錄:提供服務目錄的統一定義和管理功能,為企業的服務提供統一的、一致準確的信息源,為其他服務管理活動提供支撐;

  • 流程表單:提供可視化工單流程定義面板、豐富的可視化控件和功能強大的表單設計器,能夠滿足各種場景下的工單定製要求;

  • 知識庫鏈接:平台內置大量知識條目,集中管理歷史沉澱經驗及常用場景知識,便於知識應用即查即用,提升問題解決效率,減少對專業人才的依賴;

  • 工單看板:對IT服務管理中涉及到的各類工單數據進行直觀監測,實時展示服務風險點、服務質量、服務效率以及服務水平,幫助管理層從全局視角對IT服務的質量進行感知與管控。

IT基礎設施集中管控

全景監控

通過Agent、SNMP(V1、V2、V3)、WMI、SSH、Telnet、IPMI、ILO、北向接口、串口、ODBC/JDBC、自定義SQL、URL、WMI、Java等連接方式對上百家廠商的服務器、網絡設備、操作系統、存儲、虛擬化、中間件、數據庫、Web服務等資源配置數據和指標數據進行統一採集。成熟的建模能力和指標採集適配能力,為多類型設備全方面運維管控提供強有力的數據源支撐。

統一納管

雲智慧解決方案支持對業務及服務器、數據庫、中間件等離散的系統資源統一納管,全年365天7*24小時實時展示各項資源和應用系統的整體運行情況,可基於系統架構構建系統資源的層級化拓撲, 便捷查看上下依賴關係,例如應用所依賴的容器、虛擬機。拓撲節點的顏色展示各對象的健康程度,使原來錯綜複雜的運維管理工作變的簡單和輕鬆。

告警降噪

告警管理能根據告警相關的基本規則,通告自動學習的算法能力,如:集羣合併、IP合併等把同一時間與該告警相關的告警進行了聚合。此外,通過對告警的智能分析,使機場可以避免無效告警、告警風暴的發生,快速對故障的排查和定位,全面提升告警管理能力。主要包含以下能力:

  • 調度人員通過告警感知大屏7*24h及時獲取告警;

  • 調度人員通過大屏的拓撲聯動功能判斷問題影響的範圍;

  • 緊急情況時調度通過系統負責人模塊聯繫系統管理員,加速響應及處理速度;

  • 領導及調度在值班管理模塊直接查看各單位值班人員。

此外,知識庫可聯動工單系統,告警時依據告警源合併字段進行匹配,在推薦知識頁籤展示相似度最高的五個關聯知識;點擊知識標題可以查看知識詳情。

自動巡檢

為預防事故的發生,運維人員需要每天對大量設備逐一巡檢。在傳統運維模式下,運維人員必須依次登錄設備完成巡檢,不僅耗費大量的時間,而且手工操作的方式容易出錯。自動巡檢可以通過快速聚焦問題以此提升效率。

  • 機場可根據實際需要在自動化作業場景中添加相應的場景,並將操作和編排任務與運維場景關聯。

  • 內置多種常見的操作系統、數據庫、中間件等巡檢模版,能夠滿足日常巡檢需求。

  • 支持靈活配置巡檢指標以及閾值,高亮展示異常指標,異常情況一目瞭然。

  • 支持定時執行策略、巡檢通知、自定義郵件模版以及郵件附件類型,保證巡檢任務有計劃地執行。

用户體驗追蹤

業務流暢性追蹤

通過雲智慧300+全球分佈式監測節點以及國際先進的 Web 監控技術,主動追蹤基於雲端架構的網站真實用户訪問鏈路, 深入監控 CDN、主機、運營商、API 等各個環節的性能指標。對於管理決策者、業務職能部門可以快速瞭解用户畫像,包含歸屬地區、運營商,以及哪些地區訪問量高、頁面訪問量等情況,以此幫助航司做出較優的運營決策。

  • 監控頁面顯示任務狀態、監控頻率、監控類型、異常以及恢復情況,此外,還顯示平均可用率以及響應時間等概要信息,幫助用户快速定位故障異常、及時掌握恢復信息,讓用户直觀瞭解監控任務在局部區域是否產生性能波動和異常;

  • 支持郵件、手機短信、語音電話、App推送等多種告警方式,支持多種告警頻率的連續提醒,確保告警消息及時送達;

  • 對監控項目的故障消息、系統消息以及提醒消息進行彙總展示,並可以查看消息對應的歷史快照信息。

應用性能追蹤

雲智慧提供基於端到端服務請求鏈路細化追蹤、分析代碼及SQL執⾏性能,提供應用拓撲及代碼層事務追蹤。針對單次請求,可通過基本信息和業務拓撲發現潛在問題,追蹤慢元素和堆棧詳情,分析錯誤和異常信息及堆棧,分析SQL語句、API調用與請求參數等的執行情況。

資源圖譜追蹤

雲智慧配置資源圖譜故障場景,主要是依託CMDB的層級拓撲,對故障CI進行定位。一方面打通事件與CMDB,將CMDB中的相關CI關鍵屬性信息如IP地址、主機名、應用標識、負責人、電話、資源的所屬位置等豐富到告警事件中,加強告警的易讀性和準確性。另一方面,通過告警生成工單,在處置的過程中,關聯CI保障數據的準確性,對故障進行閉環管理,加強CMDB配置數據的流動性和唯一性。其目標就是通過配置資源圖譜拓撲可視化能力,幫助運維人員對故障進行根因分析、故障自動處置,快速恢復業務。

日常日誌追蹤

日誌採集依託雲智慧在智能算法、日誌分析的能力,以此幫助各大機場採集、整合以及分析分散在各類服務器主機、容器、網絡設備中的日誌,在業務系統運維監控方面做好事前預防,減少問題發現和故障排除的時長,提升異常檢測的準確率。

全景運維態勢可視

雲智慧全棧式監控場景能夠對IDC基礎設施到上層業務的全方位監控。主要包括以下內容:

  • 對面向機房動力環境設施、服務器硬件、操作系統、網絡、應用、業務等運行健康度狀態、性能狀況進行實時監控與管理。

  • 平台提供有代理(Agent)、無代理的(Snmp、Wmi、Syslog、Jdbc等協議的方式)來監控方式,當代理採集的監測指標無法滿足用户的監控需求時,用户可以通過雲智慧產品提供的開放採集能力,開發相關指標來滿足個性化的監控需求;

  • 雲智慧當前用户的數據中心均是兩地三中心模式。為滿足業務連續性的需要,雲智慧提供分佈式、跨中心部署方式,以此滿足用户多中心監管需要。

案例分享

機場類一體化運維管控平台項目

項目背景

該機場航班、航線、客流量呈現爆發式增長,業務運轉事件及用户體驗問題頻出,業務及IT缺乏數字化管控措施。

服務內容

  • 對基礎設施、網絡鏈路、應用系統性能進行統一監控,快速跟蹤分析應用性能問題至故障根源;

  • 支持每日30TB的數據量實時採集、處理與分析,以業務場景進行碎片化數據邏輯關聯;

  • 統一雙航站樓的IT服務管理流程。

民航類一體化運維管控平台項目

項目背景

該航司高層缺少運營指標分析的決策支持,導致一線生產部門缺少業務威脅和風險,信息化建設成果缺少展示和宣傳。

服務內容

  • 解決航班、飛機、空勤、旅客、成本收入、綜合信息六個方面數據分析和展示;

  • 使用了大數據技術進行建模和預測;

  • 建立了大屏和移動端分析視窗;

  • 實現異常檢測、根因分析、關聯分析;

民航科技類一體化智能運維項目

項目背景

目前運行在其核心平台上的應用採用微服務架構,以容器模式進行部署運行。會導致應用碎片化程度更高,分佈式依賴關係更復雜, 故障發現與定位分析更加困難。

服務內容

通過建設智能運維提升業務連續性、保障業務高可用,同時促進IT運維降本增效。覆蓋包括

  • 業務節點:4000個

  • 微服務節點:10000+

  • 流入日誌:100億條/日、

  • 流入數據:53萬條/秒

  • 處理性能:500MB+/秒

  • 日增數據:20T

FlyFish開源福利

雲智慧已開源數據可視化編排平台 FlyFish 。通過配置數據模型為用户提供上百種可視化圖形組件,零編碼即可實現符合自己業務需求的炫酷可視化大屏。 同時,飛魚也提供了靈活的拓展能力,支持組件開發、自定義函數與全局事件等配置, 面向複雜需求場景能夠保證高效開發與交付。

如果喜歡我們的項目,請不要忘記點擊下方代碼倉庫地址,在 GitHub / Gitee 倉庫上點個 Star,我們需要您的鼓勵與支持。此外,即刻參與 FlyFish 項目貢獻成為 FlyFish Contributor 的同時更有萬元現金等你來拿。

GitHub 地址: https://github.com/CloudWise-OpenSource/FlyFish

Gitee 地址: https://gitee.com/CloudWise/fly-fish

微信掃描識別下方二維碼,備註【飛魚】加入AIOps社區飛魚開發者交流羣,與 FlyFish 項目 PMC 面對面交流~