行業方案|“醫療”行業智能運維解決方案介紹

語言: CN / TW / HK

行業背景

發展要求

近年來,在若干政策指引下,醫院信息化管理系統、電子病歷系統、區域醫療信息互聯互通等重點工作逐步得到完善。國家衞健委開始着手細化醫院的評審和評級種類,明確了驗收細則和時間點,考核日趨嚴格。例如,衞健委要求到2022年,全國二級和三級公立醫院電子病歷應用水平平均級別分別達到3級和4級,智慧服務力爭達到2級和3級,智慧管理爭達到1級和2級,能夠支撐線上線下一體化的醫療服務新模式。實現“以評帶建,以評促改”。

由於,“互聯互通+智慧醫院+精細化管理=醫院各類系統的融合度、複雜度將持續加大”,評審的趨嚴直接給信息中心的IT運維帶來巨大壓力及困難。

安全要求

2019年12月1日起,網絡安全等級保護2.0相關標準正式實施,實現對新技術、新應用安全保護對象和安全保護領域的全覆蓋,因為目前醫院紛紛上雲,虛擬化的安全防護尤為重要,因此等保2.0尤其強調網絡安全防護,強化“一箇中心,三重防護”的安全保護體系。

等保要求的提升,給醫院信息系統的安全工作迎來新挑戰。因為隨着信息技術的不斷髮展,特別是雲計算、物聯網等新技術的不斷湧現和應用,在帶給醫療行業快速、便捷的同時,也讓邊界防護變得模糊,黑客攻擊、勒索軟件、蠕蟲病毒以及系統漏洞導致的數據丟失與業務停頓已成為各級醫院亟待解決的難題。如何實現全方位主動防禦、動態防禦、整體防控和精準防護是醫院的挑戰,“十四五”期間,5G 等新型網絡基礎設施也面臨着更高安全要求。

因此,醫院信息中心,不但要承接越來越多的系統運維壓力,還要按照等保要求,提升安全防護能力,已然分身乏術。

運維現狀

目前,為響應國家政策,簡化看病就醫流程,打通醫療大數據,加強業務應用與醫院管理,醫院一整套業務流程囊括了預約掛號系統、電子病歷系統、檢驗化驗系統、影像平台系統、財務信息系統等一系列相關係統,實現醫院主要患診數據的互聯互通。但由於各類系統需要同時對接患者、醫生、醫院各科室等多個端口,作為醫院運行的神經中樞。對各系統的穩定性要求極高,一旦某套系統出現故障,會整體業務流程造成影響。

因此,就目前醫院系統覆蓋的業務量,互通緊密度,都導致信息中心有大量且瑣碎的運維工作,而信息化最好的三甲醫院最多也就10人左右的運維團隊,80%的三甲醫院只有3-5人的運維人員,二級醫院只有2-3人,剩下的就更少。面對如此龐雜的系統運維工作,疲於奔命,效果還不好。

需求描述

三級醫院

  • 集中管理需求:智慧醫院建設推進,大部分三甲醫院已經完成HIS、LIS、PACS、EMR、體檢系統、統一支付等核心業務系統的建設,且已配套一定規模的網絡、服務器、動環等系統。各廠商獨立監控、數據割裂,缺乏統一監管工具。

  • 問題發現需求:新業務系統上線檢測、現有系統問題排查都是信息中心事後發現問題,且仰賴人工摸排、摸排時間長、問題處理效率低下,運維管理工作成效不顯著。

  • 根因定位需求:少部分三甲醫院已經不滿足於只是發現問題,他們需要排查到問題的根源,提高問題處置的精準度,因此對異常檢測、日誌審計能力要求較高。

二級醫院

  • 集中管理需求:隨着二級醫院業務擴展和信息化建設的持續深入,尤其疫情促使二級醫院提速業務線上化進程,上新應用和現有系統優化需求較多,IT系統運行的穩定性、可靠性問題較多。加之只有2-3人的運維人員,無論技術能力+數量都無法滿足當下運維工作需要。

  • 評審達標需求:為能升三級醫院,需要達到相關安全評審標準,運維監控是達標要求的一部分。

醫院運維安全

目前,由於等保2.0的要求提升,依據《全國醫院信息化建設標準與規範(試行)》、《衞生行業信息安全等級保護工作的指導意見》等規定,需要醫院完成網絡安全體系中堡壘機和日誌審計、網絡管理控制系統的建設,大多數醫院醫療網絡目前無網絡安全體系中堡壘機和日誌審計、網絡管理控制系統安全設備。

關鍵目標

  • 運維安全管理

    • 能夠提供集賬號管理、身份認證、單點登錄、資源授權、訪問控制和操作審計為一體的運維安全審計服務;
    • 能夠對服務器、網絡設備、安全設備、數據庫等資產的運維操作過程進行有效的運維操作審計,使運維審計由事件審計提升為操作內容審;
    • 通過內控管理平台的事前預防、事中控制和事後審計來全面解決運維安全問題。
  • 日誌審計

    • 能夠實時不間斷地採集匯聚醫院網絡中不同廠商不同種類的安全設備、網絡設備、主機、操作系統、生產業務系統的日誌信息,協助技術人員進行安全分析及合規審計,及時、有效地發現異常安全事件及審計違規;
    • 能夠提供眾多基於日誌分析的強大功能,如安全日誌的集中採集、分析挖掘、合規審計、實時監控及安全告警等,為安全事件的分析、溯源提供有力支撐;
    • 能夠同時滿足醫院實際運維分析需求及審計合規需求,是醫院日常信息安全工作的重要支撐平台。
  • 網絡管理控制

    • 能夠面向醫院園區網絡的新一代網絡管理控制系統,是集管理、控制和分析功能於一體的網絡自動化與智能化平台;
    • 能夠提供園區網絡的全生命週期自動化、基於大數據和 AI 的故障智能閉環能力,幫助醫院降低運維成本,加速醫院數字化轉型,讓醫院網絡管理更自動、網絡運維更智能。

痛點分析

  • 定位問題難: 部分醫院帶有華為網絡監控系統(監控醫院網絡、交換機情況),但對物理服務器的硬件信息、操作系統、服務中間件、移動端應用和數據庫等缺乏有效統一管理手段,難以主動發現問題與故障。無法滿足現有IT設備的運維監控要求。

  • 問題發現滯後: 門診樓、住院樓等用户通過專網訪問各類業務系統,之間的網絡鏈路情況、系統訪問可用性、響應時間等缺乏有效手段進行實時感知,往往接收到投訴後才進行排查,耗時耗力,還效果不被認可。需要藉助工具提升異常檢測的準確率。

  • 運維負荷高: 只有3-5人配置,日常運維通過人工方式進行機房巡檢,通過觀察設備指示燈判斷故障,對服務器、網絡等基礎設施層以及應用業務層無巡檢。疲於奔命,無法滿足現有IT設備的運維監控要求

  • 新系統上線: 醫院處於上新系統時期,可能出現比較多不確定因素。需要利用apm通過抓取服務端的數據,將異常數據作為醫院驗證新系統性能的指標評判,希望業務問題能夠直接定位,輔助新系統調優,需要直接部署在生產環境中。

  • 資源管理難: 醫院數據中心對服務器CPU、內存等計算資源,磁盤空間、磁盤I/O等存儲資源大多沒有有效方法實現科學管理及規劃,對系統應用節點和數據的各項性能參數配置等數據把控不足。

  • 告警風暴: 部分醫院帶有動環、基礎設施監控,但由於醫院業務系統複雜,會產生過多告警信息,使運維人員淹沒在告警風暴中無從判斷原因。

  • 廠商監控獨立: 雖然有部分廠商可以提供監控工具,但各工具之間相對獨立,僅能提供自有產品的狀態監測。缺少對核心業務系統(如:HIS、PACS等)全鏈路進行監控,當業務系統發生異常時僅能從設備層和系統層分析問題,很難定位到業務或應用的問題根因。

  • 安全評審要求不達標: 由於等保2.0提高了醫院的信息化安全要求標準,部分醫院需要根據相應安全評審要求,利用運維監控平台進行支撐。

  • 網絡性能不穩定: 由於目前各大醫院都仰賴網絡,尤其上雲的醫院,一旦出現網絡性能問題,就必然導致大面積的業務癱瘓,所以網絡性能的監控及安全風險評估,都是重中之重。但由於醫院運維項目普遍預算有限,NPM價格相對較高,比較難cover住成本,所以賣的不多。

產品列表

  • DOIM 私有化部署,主要圍繞客户HIS、LIS、PACS系統涉及到的設備層,包括數據庫、操作系統、服務器硬件、存儲磁盤陣列、數據庫和虛擬化平台等進行統一監控。

  • APM 私有化部署,主要圍繞HIS\EMR\LIS\PACS\體檢系統\統一支付系統等核心後端應用進行監控檢測。在測試場景中、生產環境中均有部署。

  • DOLA 主要依託雲智慧在智能算法、日誌分析方面的能力,幫助醫院在業務系統運維監控方面做好事前預防工作,減少問題發現和故障排除的時長,提升異常檢測的準確率。 日誌分散在各類服務器主機、容器、網絡設備中,需通過CDC進行日誌的採集,採集對象是IAAS層所有設備。

  • DOEM 通過郵件、第三方Push等方式進行告警通知。

整體方案

雲智慧提供面向“智慧醫療”領域的一體化智慧運維實踐。應用場景包含主動監控、快速排障、集中告警、價值呈現、集中管理、日誌分析、主動巡檢、服務管理。此外,雲智慧一體化智能運維監控方案擁有全棧監控、自主可控、成熟方案、大量實踐、以客户為中心、全國服務網絡、算法能力領先、ITIL v4官方認證等核心優勢。

整體架構設計

下圖為雲智慧一體化智能運維解決方案整體架構設計。

主要應用場景

全棧監控

通過 Agent、SNMP(V1、V2、V3)、WMI、SSH、Telnet、IPMI、ILO、北向接口、 串口、ODBC/JDBC、自定義 SQL、URL、WMI、Java 連接等方式對上百家廠商的服務器、 網絡設備、操作系統、存儲、虛擬化、中間件、數據庫、Web 服務等資源的配置數據和指標數據進行統一採集。最終實現資源管理與拓撲管理。

  • 資源管理:包括網絡設備管理、主機管理、數據庫管理、中間件管理、存儲管理、硬件管理、標準服務管理、日誌管理(syslog、snmp trap)。

  • 拓撲管理:具有自動網絡拓撲的功能,採用先進的網絡拓撲發現算法和數據採集協議實現網絡拓撲發現,包括基於路由層鏈接生成網絡拓撲圖;基於網段的連接生成物理網絡拓撲圖;基於VLAN和子網生成各子網邏輯拓撲圖。

此外,全棧監控還包含實現以下監控目標:

  • 一體化監控:內置120+種開箱即用資源模型、10000+監控指標,能全面快速地對接上百家廠商的老舊設備、IT資源、動環設施、IOT設備,以此進行集中式採集監控和告警管理,同時支持對接其他系統數據。

  • 異構雲環境管理:採用雲模式架構設計,利用雲節點的採集處理器和代理方式,實現在多種雲異構模式下,跨平台/網絡/安全策略/域對主流雲廠商的 IT 資源進行統一監控和集中管理,監控範圍可擴展。

  • 國產化適配:支持主流國產化設備、操作系統、數據庫、中間件的建模和指標採集監控,不限於達夢、金碟、保蘭德、人大金倉、達夢、東方通、神通、麒麟、飛騰等,自研數據庫不受國際環境影響。

  • 開箱即用:擁有數百種開箱即用指標採集和CI數據採集模型,採集Sever端的搭建最快可在幾分鐘內完成,使用簡單方便。

全年365天7*24小時實時展示各項資源和應用系統的整體運行情況,通過智能化運維使原來錯綜複雜的運維管理工作變的簡單和輕鬆,真正實現職責分明、安全高效、穩定可靠、智能管控的目標。

集中管理

  • IP地址管理。通過IP地址管理功能可以幫助數據中心合理的對網絡地址的日常及長期使用做出規劃,提高網絡安全性。

  • 通過工具定時掃表,發現網段中的IP地址的狀態。包括:使用中、未使用、管理IP、保留IP等。根據IP地址狀態進行實時歸類,以視圖的方式呈現,根據不同的顏色區分不同狀態,實時統計,保障網絡地址的合理使用。

快速排障

應用拓撲自動發現:全自動發現應用所有技術棧及其關聯關係,幫助用户從宏觀把握一個應用及其關聯應用的整體狀態以及請求數、響應時間、錯誤等的變化趨勢,快速定位各層級問題。

針對單次請求,通過基本信息和業務拓撲發現潛在問題,追蹤慢元素和堆棧詳情,分析錯誤和異常信息及堆棧,分析SQL語句、API調用與請求參數等的執行情況。

日誌分析

日誌審計主要依託雲智慧在智能算法、日誌分析方面的能力,幫助醫院採集、整合、分析分散在各類服務器主機、容器、網絡設備中的日誌,在業務系統運維監控方面做好事前預防工作,減少問題發現和故障排除的時長,提升異常檢測的準確率。

集中告警

告警管理能根據告警相關的基本規則,通告自動學習的算法能力,如:集羣合併、IP合併等把同一時間與該告警相關的告警進行了聚合。此外,通過對告警的智能分析,用户可以避免無效告警、告警風暴的發生,快速對故障的排查和定位,全面提升告警管理能力。

  • 告警收斂,識別有效告警:對短時間內大量發生的重複告警和無效告警進行壓縮、去重,識別有效告警。

  • 告警聚合,協助幫助定位問題:包含根據集羣合併、根據IP合併、根據網段合併、根據異常種類合併、根據宿主機與虛擬機的關係合併。

下圖為一站式智能告警故障排查和定位的場景,通告示例圖可看到是Oracle數據發生了故。雲智慧根據海量的告警進行收斂識別,發現了關於Oracle表空間、進程、實例、死鎖的5條告警。與此同時,根據告警相關的基本規則,通告自動學習的算法能力,如:集羣合併、IP合併等把同一時間與該告警相關的告警進行了聚合。最後通過告警與指標關聯,查看當前該告警的指標趨勢發現可能是死鎖引起的問題。

通過對告警的智能分析,用户可以避免無效告警、告警風暴的發生,快速對故障的排查和定位,全面提升告警管理能力。

主動巡檢

為預防事故的發生,運維人員需要每天對大量設備逐一巡檢。在傳統運維模式下,運維人員必須依次登錄設備完成巡檢,不僅耗費大量的時間,而且手工操作的方式容易出錯。自動巡檢可以通過快速聚焦問題以此提升效率。

  • 醫院可根據實際需要在自動化作業場景中添加相應的場景,並將操作和編排任務與運維場景關聯。

  • 內置多種常見的操作系統、數據庫、中間件等巡檢模版,能夠滿足日常巡檢需求。

  • 支持靈活配置巡檢指標以及閾值,高亮展示異常指標,異常情況一目瞭然。

  • 支持定時執行策略、巡檢通知、自定義郵件模版以及郵件附件類型,保證巡檢任務有計劃地執行。

價值呈現

  • 基礎資源監控:通過大屏展示各監測點訪問醫院各應用時應用端口的可用情況及端口健康情況。

  • 網絡質量監控:對網絡時延、丟包率等關鍵性能指標進行監控及大屏展示。

  • 應用性能監控:通過大屏展示各監測點訪問醫院各應用時應用端口的可用情況及端口健康情況。

  • 數據庫健康度監控:對數據庫可用情況、數據容量、數據庫關鍵性能指標進行監控及大屏展示。

服務管理

雲智慧是通過AXELOS(ITIL版權所有方)認證的中國首家官方授權的IT服務管理諮詢合作伙伴 (ACP)。這意味着在行業內,雲智慧將能為有意願引入ITIL的企業提供更加權威的IT服務管理諮詢與服務,並進一步加強該理論的本地化實踐。因此,雲智慧的現有產品框架也是遵循新一代ITIL理念打造的。

  • 智能客服:利用自然語言識別技術,幫助用户解決常見問題,快速響應用户的同時極大減少運維工程師工作量;

  • 坐席監控:可實時查看坐席的接待數、對話數、平均響應時間、平均對話時長、消息總數等信息和某個坐席的詳情數據;

  • 移動提單:靈活地對接企業微信、釘釘等企業 IM 以及客户自有 APP,支持用户通過移動端訪問智能客服和在線服務枱,支持用户自助提交工單、查詢工單處理進度;

  • 服務目錄:提供服務目錄的統一定義和管理功能,為企業的服務提供統一的、一致準確的信息源,為其他服務管理活動提供支撐;

  • 流程表單:提供可視化工單流程定義面板、豐富的可視化控件和功能強大的表單設計器,能夠滿足各種場景下的工單定製要求;

  • 知識庫鏈接:平台內置大量知識條目,集中管理歷史沉澱經驗及常用場景知識,便於知識應用即查即用,提升問題解決效率,減少對專業人才的依賴;

  • 工單看板:對IT服務管理中涉及到的各類工單數據進行直觀監測,實時展示服務風險點、服務質量、服務效率以及服務水平,幫助管理層從全局視角對IT服務的質量進行感知與管控。

案例分享

某醫院一體化監控項目

項目背景

某醫院在使用自動化監控系統之前,主要靠人工巡檢,通常是在業務發生問題影響使用時,IT 部門才能得到通知,派相關人員解決問題。由於業務不能中斷,運維人員經常夜間需要去機房解決設備問題,而其中很多問題都是重複性出現。

服務內容

  • 動環監控:機房煙感、温感、漏水、UPS、空調等狀況;

  • 基礎監控:各系統的服務器、操作系統、網絡設備、數據庫、中間件等IT軟硬件設備;

  • 自動處置:自動化巡檢代替人工巡檢,監管控一體化使運維更輕鬆,緊急告警自動觸發預設置的程序和腳本,實現自動處理;

  • 實時查看:APP端支持安卓和IOS系統,在手機端查看管理的業務和設備狀況。

某醫院智慧運維項目

項目背景

某醫院信息中心機房是SAN網絡架構,以此確保醫院各項業務不間斷提供。但為滿足海量影像數據的持續增長,保證各系統穩定有序的運行,院領導決定建立一套智慧運維體系,實現對所有院區的IT設施進行實時監控、集中管理。以此提升故障處置效率,減少宕機、系統中斷髮生。

服務內容

  • 一體化監控:對該醫院現有PC服務器、UNIX服務器、交換機、路由器、存儲、oracle數據庫、SQL SERVER數據庫、中間件等所有設備和應用進行實時監控。獨特的MegaSpeed海量秒級監測,將故障響應級別提升到秒級。

  • 實時告警:對IT設備和應用進行24*7的實時監控,一旦出現運行故障或性能指標達到告警閥值,告警信息便會通過短信、郵件、聲音和顏色等方式自動推送。

  • 全景大屏:滿足醫院數據中心各種業務系統、網絡設備等豐富監控狀態可視化需求,實現全息全維態勢動態呈現。

FlyFish開源福利

雲智慧已開源數據可視化編排平台 FlyFish 。通過配置數據模型為用户提供上百種可視化圖形組件,零編碼即可實現符合自己業務需求的炫酷可視化大屏。 同時,飛魚也提供了靈活的拓展能力,支持組件開發、自定義函數與全局事件等配置, 面向複雜需求場景能夠保證高效開發與交付。

如果喜歡我們的項目,請不要忘記點擊下方代碼倉庫地址,在 GitHub / Gitee 倉庫上點個 Star,我們需要您的鼓勵與支持。此外,即刻參與 FlyFish 項目貢獻成為 FlyFish Contributor 的同時更有萬元現金等你來拿。

GitHub 地址: https://github.com/CloudWise-OpenSource/FlyFish

Gitee 地址: https://gitee.com/CloudWise/fly-fish

微信掃描識別下方二維碼,備註【飛魚】加入AIOps社區飛魚開發者交流羣,與 FlyFish 項目 PMC 面對面交流~