行業方案|“醫療”行業智慧運維解決方案介紹

語言: CN / TW / HK

行業背景

發展要求

近年來,在若干政策指引下,醫院資訊化管理系統、電子病歷系統、區域醫療資訊互聯互通等重點工作逐步得到完善。國家衛健委開始著手細化醫院的評審和評級種類,明確了驗收細則和時間點,考核日趨嚴格。例如,衛健委要求到2022年,全國二級和三級公立醫院電子病歷應用水平平均級別分別達到3級和4級,智慧服務力爭達到2級和3級,智慧管理爭達到1級和2級,能夠支撐線上線下一體化的醫療服務新模式。實現“以評帶建,以評促改”。

由於,“互聯互通+智慧醫院+精細化管理=醫院各類系統的融合度、複雜度將持續加大”,評審的趨嚴直接給資訊中心的IT運維帶來巨大壓力及困難。

安全要求

2019年12月1日起,網路安全等級保護2.0相關標準正式實施,實現對新技術、新應用安全保護物件和安全保護領域的全覆蓋,因為目前醫院紛紛上雲,虛擬化的安全防護尤為重要,因此等保2.0尤其強調網路安全防護,強化“一箇中心,三重防護”的安全保護體系。

等保要求的提升,給醫院資訊系統的安全工作迎來新挑戰。因為隨著資訊科技的不斷髮展,特別是雲端計算、物聯網等新技術的不斷湧現和應用,在帶給醫療行業快速、便捷的同時,也讓邊界防護變得模糊,黑客攻擊、勒索軟體、蠕蟲病毒以及系統漏洞導致的資料丟失與業務停頓已成為各級醫院亟待解決的難題。如何實現全方位主動防禦、動態防禦、整體防控和精準防護是醫院的挑戰,“十四五”期間,5G 等新型網路基礎設施也面臨著更高安全要求。

因此,醫院資訊中心,不但要承接越來越多的系統運維壓力,還要按照等保要求,提升安全防護能力,已然分身乏術。

運維現狀

目前,為響應國家政策,簡化看病就醫流程,打通醫療大資料,加強業務應用與醫院管理,醫院一整套業務流程囊括了預約掛號系統、電子病歷系統、檢驗化驗系統、影像平臺系統、財務資訊系統等一系列相關係統,實現醫院主要患診資料的互聯互通。但由於各類系統需要同時對接患者、醫生、醫院各科室等多個埠,作為醫院執行的神經中樞。對各系統的穩定性要求極高,一旦某套系統出現故障,會整體業務流程造成影響。

因此,就目前醫院系統覆蓋的業務量,互通緊密度,都導致資訊中心有大量且瑣碎的運維工作,而資訊化最好的三甲醫院最多也就10人左右的運維團隊,80%的三甲醫院只有3-5人的運維人員,二級醫院只有2-3人,剩下的就更少。面對如此龐雜的系統運維工作,疲於奔命,效果還不好。

需求描述

三級醫院

  • 集中管理需求:智慧醫院建設推進,大部分三甲醫院已經完成HIS、LIS、PACS、EMR、體檢系統、統一支付等核心業務系統的建設,且已配套一定規模的網路、伺服器、動環等系統。各廠商獨立監控、資料割裂,缺乏統一監管工具。

  • 問題發現需求:新業務系統上線檢測、現有系統問題排查都是資訊中心事後發現問題,且仰賴人工摸排、摸排時間長、問題處理效率低下,運維管理工作成效不顯著。

  • 根因定位需求:少部分三甲醫院已經不滿足於只是發現問題,他們需要排查到問題的根源,提高問題處置的精準度,因此對異常檢測、日誌審計能力要求較高。

二級醫院

  • 集中管理需求:隨著二級醫院業務擴充套件和資訊化建設的持續深入,尤其疫情促使二級醫院提速業務線上化程序,上新應用和現有系統優化需求較多,IT系統執行的穩定性、可靠性問題較多。加之只有2-3人的運維人員,無論技術能力+數量都無法滿足當下運維工作需要。

  • 評審達標需求:為能升三級醫院,需要達到相關安全評審標準,運維監控是達標要求的一部分。

醫院運維安全

目前,由於等保2.0的要求提升,依據《全國醫院資訊化建設標準與規範(試行)》、《衛生行業資訊保安等級保護工作的指導意見》等規定,需要醫院完成網路安全體系中堡壘機和日誌審計、網路管理控制系統的建設,大多數醫院醫療網路目前無網路安全體系中堡壘機和日誌審計、網路管理控制系統安全裝置。

關鍵目標

  • 運維安全管理

    • 能夠提供集賬號管理、身份認證、單點登入、資源授權、訪問控制和操作審計為一體的運維安全審計服務;
    • 能夠對伺服器、網路裝置、安全裝置、資料庫等資產的運維操作過程進行有效的運維操作審計,使運維審計由事件審計提升為操作內容審;
    • 通過內控管理平臺的事前預防、事中控制和事後審計來全面解決運維安全問題。
  • 日誌審計

    • 能夠實時不間斷地採集匯聚醫院網路中不同廠商不同種類的安全裝置、網路裝置、主機、作業系統、生產業務系統的日誌資訊,協助技術人員進行安全分析及合規審計,及時、有效地發現異常安全事件及審計違規;
    • 能夠提供眾多基於日誌分析的強大功能,如安全日誌的集中採集、分析挖掘、合規審計、實時監控及安全告警等,為安全事件的分析、溯源提供有力支撐;
    • 能夠同時滿足醫院實際運維分析需求及審計合規需求,是醫院日常資訊保安工作的重要支撐平臺。
  • 網路管理控制

    • 能夠面向醫院園區網路的新一代網路管理控制系統,是集管理、控制和分析功能於一體的網路自動化與智慧化平臺;
    • 能夠提供園區網路的全生命週期自動化、基於大資料和 AI 的故障智慧閉環能力,幫助醫院降低運維成本,加速醫院數字化轉型,讓醫院網路管理更自動、網路運維更智慧。

痛點分析

  • 定位問題難: 部分醫院帶有華為網路監控系統(監控醫院網路、交換機情況),但對物理伺服器的硬體資訊、作業系統、服務中介軟體、移動端應用和資料庫等缺乏有效統一管理手段,難以主動發現問題與故障。無法滿足現有IT裝置的運維監控要求。

  • 問題發現滯後: 門診樓、住院樓等使用者通過專網訪問各類業務系統,之間的網路鏈路情況、系統訪問可用性、響應時間等缺乏有效手段進行實時感知,往往接收到投訴後才進行排查,耗時耗力,還效果不被認可。需要藉助工具提升異常檢測的準確率。

  • 運維負荷高: 只有3-5人配置,日常運維通過人工方式進行機房巡檢,通過觀察裝置指示燈判斷故障,對伺服器、網路等基礎設施層以及應用業務層無巡檢。疲於奔命,無法滿足現有IT裝置的運維監控要求

  • 新系統上線: 醫院處於上新系統時期,可能出現比較多不確定因素。需要利用apm通過抓取服務端的資料,將異常資料作為醫院驗證新系統效能的指標評判,希望業務問題能夠直接定位,輔助新系統調優,需要直接部署在生產環境中。

  • 資源管理難: 醫院資料中心對伺服器CPU、記憶體等計算資源,磁碟空間、磁碟I/O等儲存資源大多沒有有效方法實現科學管理及規劃,對系統應用節點和資料的各項效能引數配置等資料把控不足。

  • 告警風暴: 部分醫院帶有動環、基礎設施監控,但由於醫院業務系統複雜,會產生過多告警資訊,使運維人員淹沒在告警風暴中無從判斷原因。

  • 廠商監控獨立: 雖然有部分廠商可以提供監控工具,但各工具之間相對獨立,僅能提供自有產品的狀態監測。缺少對核心業務系統(如:HIS、PACS等)全鏈路進行監控,當業務系統發生異常時僅能從裝置層和系統層分析問題,很難定位到業務或應用的問題根因。

  • 安全評審要求不達標: 由於等保2.0提高了醫院的資訊化安全要求標準,部分醫院需要根據相應安全評審要求,利用運維監控平臺進行支撐。

  • 網路效能不穩定: 由於目前各大醫院都仰賴網路,尤其上雲的醫院,一旦出現網路效能問題,就必然導致大面積的業務癱瘓,所以網路效能的監控及安全風險評估,都是重中之重。但由於醫院運維專案普遍預算有限,NPM價格相對較高,比較難cover住成本,所以賣的不多。

產品列表

  • DOIM 私有化部署,主要圍繞客戶HIS、LIS、PACS系統涉及到的裝置層,包括資料庫、作業系統、伺服器硬體、儲存磁碟陣列、資料庫和虛擬化平臺等進行統一監控。

  • APM 私有化部署,主要圍繞HIS\EMR\LIS\PACS\體檢系統\統一支付系統等核心後端應用進行監控檢測。在測試場景中、生產環境中均有部署。

  • DOLA 主要依託雲智慧在智慧演算法、日誌分析方面的能力,幫助醫院在業務系統運維監控方面做好事前預防工作,減少問題發現和故障排除的時長,提升異常檢測的準確率。 日誌分散在各類伺服器主機、容器、網路裝置中,需通過CDC進行日誌的採集,採集物件是IAAS層所有裝置。

  • DOEM 通過郵件、第三方Push等方式進行告警通知。

整體方案

雲智慧提供面向“智慧醫療”領域的一體化智慧運維實踐。應用場景包含主動監控、快速排障、集中告警、價值呈現、集中管理、日誌分析、主動巡檢、服務管理。此外,雲智慧一體化智慧運維監控方案擁有全棧監控、自主可控、成熟方案、大量實踐、以客戶為中心、全國服務網路、演算法能力領先、ITIL v4官方認證等核心優勢。

整體架構設計

下圖為雲智慧一體化智慧運維解決方案整體架構設計。

主要應用場景

全棧監控

通過 Agent、SNMP(V1、V2、V3)、WMI、SSH、Telnet、IPMI、ILO、北向介面、 串列埠、ODBC/JDBC、自定義 SQL、URL、WMI、Java 連線等方式對上百家廠商的伺服器、 網路裝置、作業系統、儲存、虛擬化、中介軟體、資料庫、Web 服務等資源的配置資料和指標資料進行統一採集。最終實現資源管理與拓撲管理。

  • 資源管理:包括網路裝置管理、主機管理、資料庫管理、中介軟體管理、儲存管理、硬體管理、標準服務管理、日誌管理(syslog、snmp trap)。

  • 拓撲管理:具有自動網路拓撲的功能,採用先進的網路拓撲發現演算法和資料採集協議實現網路拓撲發現,包括基於路由層連結生成網路拓撲圖;基於網段的連線生成物理網路拓撲圖;基於VLAN和子網生成各子網邏輯拓撲圖。

此外,全棧監控還包含實現以下監控目標:

  • 一體化監控:內建120+種開箱即用資源模型、10000+監控指標,能全面快速地對接上百家廠商的老舊裝置、IT資源、動環設施、IOT裝置,以此進行集中式採集監控和告警管理,同時支援對接其他系統資料。

  • 異構雲環境管理:採用雲模式架構設計,利用雲節點的採集處理器和代理方式,實現在多種雲異構模式下,跨平臺/網路/安全策略/域對主流雲廠商的 IT 資源進行統一監控和集中管理,監控範圍可擴充套件。

  • 國產化適配:支援主流國產化裝置、作業系統、資料庫、中介軟體的建模和指標採集監控,不限於達夢、金碟、保蘭德、人大金倉、達夢、東方通、神通、麒麟、飛騰等,自研資料庫不受國際環境影響。

  • 開箱即用:擁有數百種開箱即用指標採集和CI資料採集模型,採集Sever端的搭建最快可在幾分鐘內完成,使用簡單方便。

全年365天7*24小時實時展示各項資源和應用系統的整體執行情況,通過智慧化運維使原來錯綜複雜的運維管理工作變的簡單和輕鬆,真正實現職責分明、安全高效、穩定可靠、智慧管控的目標。

集中管理

  • IP地址管理。通過IP地址管理功能可以幫助資料中心合理的對網路地址的日常及長期使用做出規劃,提高網路安全性。

  • 通過工具定時掃表,發現網段中的IP地址的狀態。包括:使用中、未使用、管理IP、保留IP等。根據IP地址狀態進行實時歸類,以檢視的方式呈現,根據不同的顏色區分不同狀態,實時統計,保障網路地址的合理使用。

快速排障

應用拓撲自動發現:全自動發現應用所有技術棧及其關聯關係,幫助使用者從巨集觀把握一個應用及其關聯應用的整體狀態以及請求數、響應時間、錯誤等的變化趨勢,快速定位各層級問題。

針對單次請求,通過基本資訊和業務拓撲發現潛在問題,追蹤慢元素和堆疊詳情,分析錯誤和異常資訊及堆疊,分析SQL語句、API呼叫與請求引數等的執行情況。

日誌分析

日誌審計主要依託雲智慧在智慧演算法、日誌分析方面的能力,幫助醫院採集、整合、分析分散在各類伺服器主機、容器、網路裝置中的日誌,在業務系統運維監控方面做好事前預防工作,減少問題發現和故障排除的時長,提升異常檢測的準確率。

集中告警

告警管理能根據告警相關的基本規則,通告自動學習的演算法能力,如:叢集合併、IP合併等把同一時間與該告警相關的告警進行了聚合。此外,通過對告警的智慧分析,使用者可以避免無效告警、告警風暴的發生,快速對故障的排查和定位,全面提升告警管理能力。

  • 告警收斂,識別有效告警:對短時間內大量發生的重複告警和無效告警進行壓縮、去重,識別有效告警。

  • 告警聚合,協助幫助定位問題:包含根據叢集合併、根據IP合併、根據網段合併、根據異常種類合併、根據宿主機與虛擬機器的關係合併。

下圖為一站式智慧告警故障排查和定位的場景,通告示例圖可看到是Oracle資料發生了故。雲智慧根據海量的告警進行收斂識別,發現了關於Oracle表空間、程序、例項、死鎖的5條告警。與此同時,根據告警相關的基本規則,通告自動學習的演算法能力,如:叢集合併、IP合併等把同一時間與該告警相關的告警進行了聚合。最後通過告警與指標關聯,檢視當前該告警的指標趨勢發現可能是死鎖引起的問題。

通過對告警的智慧分析,使用者可以避免無效告警、告警風暴的發生,快速對故障的排查和定位,全面提升告警管理能力。

主動巡檢

為預防事故的發生,運維人員需要每天對大量裝置逐一巡檢。在傳統運維模式下,運維人員必須依次登入裝置完成巡檢,不僅耗費大量的時間,而且手工操作的方式容易出錯。自動巡檢可以通過快速聚焦問題以此提升效率。

  • 醫院可根據實際需要在自動化作業場景中新增相應的場景,並將操作和編排任務與運維場景關聯。

  • 內建多種常見的作業系統、資料庫、中介軟體等巡檢模版,能夠滿足日常巡檢需求。

  • 支援靈活配置巡檢指標以及閾值,高亮展示異常指標,異常情況一目瞭然。

  • 支援定時執行策略、巡檢通知、自定義郵件模版以及郵件附件型別,保證巡檢任務有計劃地執行。

價值呈現

  • 基礎資源監控:通過大屏展示各監測點訪問醫院各應用時應用埠的可用情況及埠健康情況。

  • 網路質量監控:對網路時延、丟包率等關鍵效能指標進行監控及大屏展示。

  • 應用效能監控:通過大屏展示各監測點訪問醫院各應用時應用埠的可用情況及埠健康情況。

  • 資料庫健康度監控:對資料庫可用情況、資料容量、資料庫關鍵效能指標進行監控及大屏展示。

服務管理

雲智慧是通過AXELOS(ITIL版權所有方)認證的中國首家官方授權的IT服務管理諮詢合作伙伴 (ACP)。這意味著在行業內,雲智慧將能為有意願引入ITIL的企業提供更加權威的IT服務管理諮詢與服務,並進一步加強該理論的本地化實踐。因此,雲智慧的現有產品框架也是遵循新一代ITIL理念打造的。

  • 智慧客服:利用自然語言識別技術,幫助使用者解決常見問題,快速響應使用者的同時極大減少運維工程師工作量;

  • 坐席監控:可實時檢視坐席的接待數、對話數、平均響應時間、平均對話時長、訊息總數等資訊和某個坐席的詳情資料;

  • 移動提單:靈活地對接企業微信、釘釘等企業 IM 以及客戶自有 APP,支援使用者通過移動端訪問智慧客服和線上服務檯,支援使用者自助提交工單、查詢工單處理進度;

  • 服務目錄:提供服務目錄的統一定義和管理功能,為企業的服務提供統一的、一致準確的資訊源,為其他服務管理活動提供支撐;

  • 流程表單:提供視覺化工單流程定義面板、豐富的視覺化控制元件和功能強大的表單設計器,能夠滿足各種場景下的工單定製要求;

  • 知識庫連結:平臺內建大量知識條目,集中管理歷史沉澱經驗及常用場景知識,便於知識應用即查即用,提升問題解決效率,減少對專業人才的依賴;

  • 工單看板:對IT服務管理中涉及到的各類工單資料進行直觀監測,實時展示服務風險點、服務質量、服務效率以及服務水平,幫助管理層從全域性視角對IT服務的質量進行感知與管控。

案例分享

某醫院一體化監控專案

專案背景

某醫院在使用自動化監控系統之前,主要靠人工巡檢,通常是在業務發生問題影響使用時,IT 部門才能得到通知,派相關人員解決問題。由於業務不能中斷,運維人員經常夜間需要去機房解決裝置問題,而其中很多問題都是重複性出現。

服務內容

  • 動環監控:機房煙感、溫感、漏水、UPS、空調等狀況;

  • 基礎監控:各系統的伺服器、作業系統、網路裝置、資料庫、中介軟體等IT軟硬體裝置;

  • 自動處置:自動化巡檢代替人工巡檢,監管控一體化使運維更輕鬆,緊急告警自動觸發預設定的程式和指令碼,實現自動處理;

  • 實時檢視:APP端支援安卓和IOS系統,在手機端檢視管理的業務和裝置狀況。

某醫院智慧運維專案

專案背景

某醫院資訊中心機房是SAN網路架構,以此確保醫院各項業務不間斷提供。但為滿足海量影像資料的持續增長,保證各系統穩定有序的執行,院領導決定建立一套智慧運維體系,實現對所有院區的IT設施進行實時監控、集中管理。以此提升故障處置效率,減少宕機、系統中斷髮生。

服務內容

  • 一體化監控:對該醫院現有PC伺服器、UNIX伺服器、交換機、路由器、儲存、oracle資料庫、SQL SERVER資料庫、中介軟體等所有裝置和應用進行實時監控。獨特的MegaSpeed海量秒級監測,將故障響應級別提升到秒級。

  • 實時告警:對IT裝置和應用進行24*7的實時監控,一旦出現執行故障或效能指標達到告警閥值,告警資訊便會通過簡訊、郵件、聲音和顏色等方式自動推送。

  • 全景大屏:滿足醫院資料中心各種業務系統、網路裝置等豐富監控狀態視覺化需求,實現全息全維態勢動態呈現。

FlyFish開源福利

雲智慧已開源資料視覺化編排平臺 FlyFish 。通過配置資料模型為使用者提供上百種視覺化圖形元件,零編碼即可實現符合自己業務需求的炫酷視覺化大屏。 同時,飛魚也提供了靈活的拓展能力,支援元件開發、自定義函式與全域性事件等配置, 面向複雜需求場景能夠保證高效開發與交付。

如果喜歡我們的專案,請不要忘記點選下方程式碼倉庫地址,在 GitHub / Gitee 倉庫上點個 Star,我們需要您的鼓勵與支援。此外,即刻參與 FlyFish 專案貢獻成為 FlyFish Contributor 的同時更有萬元現金等你來拿。

GitHub 地址: http://github.com/CloudWise-OpenSource/FlyFish

Gitee 地址: http://gitee.com/CloudWise/fly-fish

微信掃描識別下方二維碼,備註【飛魚】加入AIOps社群飛魚開發者交流群,與 FlyFish 專案 PMC 面對面交流~