GraphInsight 網絡安全分析實踐

語言: CN / TW / HK

:raising_hand|type_1_2:‍♀️ 編者按:本文作者是螞蟻集團前端工程師十吾、阿里巴巴達摩院圖計算工程師澤東,介紹了 GraphInsight 在網絡安全分析場景下的應用與實踐,歡迎查閲~

引言

GraphInsight 是螞蟻集團 AntV 團隊免費開放的圖可視化分析應用搭建平台,底層是開源的圖可視分析引擎  AntV G6,本文介紹 GraphInsight 在 ChinaVis 2022 可視化挑戰賽中,用圖計算技術在網絡安全分析場景下的應用與實踐。

背景

ChinaVis 作為中國的可視化盛會,在 2022 年的挑戰賽中公佈了一道圖計算相關分析網絡黑灰資產的賽題 ,其中網絡黑灰產是指利用信息技術和網絡技術,實施各類違法犯罪活動來謀取不正當利益的產業形態,例如網絡詐騙、網絡賭博、網絡色情、違禁品交易等。在該場景下,GraphInsight 團隊使用圖計算技術,為其設計並實現了一套圖可視化分析方案,挖掘潛在的黑灰資產,取得了不錯的效果。接下來,我們將詳細介紹其中的技術與分析思路。

  • GraphInsight 官網:https://graphinsight.antgroup.com/

  • AntV G6 官網:https://g6.antv.vision/zh

  • AntV G6 GitHub 地址:https://github.com/antvis/G6

技術架構

  • GraphInsight: 負責提供圖應用快速搭建的能力,搭建基礎的黑灰產分析應用。例如,GraphInsight  允許我們針對該場景自定義設計開發分析任務,如數據總覽、節點重要性、社區發現、路徑分析、模式匹配等。

  • GraphScope: 負責解決該場景下,大規模圖數據的存儲、查詢、計算問題。在探索過程中,GraphInsight 隨時可以通過調用 GraphScope 的服務,進行大規模圖數據的計算。

分析思路和分析工具

整體分析思路為:

  • 前置處理:圖建模、統計與特徵分析;

  • GraphInsight:從點到線到面的交互式圖可視分析,包括: 關係擴散 - 種子節點啟發節點社區分析路徑分析 (鏈路識別) – 模式匹配 (子圖挖掘) – 圖推理演化(自然人網絡);

  • GraphScope:上述所有分析算法均可在前端畫布數據上探索實踐,確認有用後,發起 GraphScope 大規模計算 ,在返回結果數據上繼續分析。

事實上,該圖分析思路在各個領域均可通用。針對黑灰產分析場景,各環節有特殊業務語義與業務規則作為分析條件。各環節拆解如下:

圖建模

圖模型 (Schema) 是對數據的抽象定義,幫助我們理解、管理、查詢數據。該場景下的實體類型有域名 Domain、IP 地址、證書 Cert 等,關係類型有跳轉、子域名、關聯證書等。針對不同的實體/關係類型,可在圖模型上進行視覺通道與數據類型的映射配置。在分析階段展示的數據將依據模型樣式配置進行展示。

數據處理與存儲

開源圖計算引擎 GraphScope 提供了大規模圖計算能力、gremlin 圖查詢能力。我們將比賽數據按圖模型存儲。圖分析過程中,將使用 GraphScope 開源的 gremlin 客户端查詢數據到前端進行圖可視分析,並在必要時使用 GraphScope 圖計算能力進行大規模計算。

統計與特徵分析

在進入圖分析之前,我們對整體數據情況較陌生。通過全量數據的統計與特徵分析,將結果通過統計圖表的方式呈現,可輔助得到數據整體概覽,並從中找到切入點。

通過上面的統計圖表,我們可輕易地發現度數大的、關聯域名多的、涉賭多的、非法交易平台數量多的、重要性指標高的等統計信息突出的節點。統計圖表中的柱子、散點等元素,可以統計圖中異常突出的數據為起點,進行後續的數據分析。

圖可視分析

  • 關係擴散

根據題幹線索節點,以及上述數據總覽面板中發現的異常節點作為起點,進行一跳/多跳的關係擴散,從而逐步得到一份與線索種子節點相關的子圖。針對該場景,擴散具有一定業務規則,例如根據邊的強弱,決定是否繼續展開。

  • 種子節點啟發

使用 PageRank、度中心性、邊關聯性等算法計算節點重要性,輔助分析師發現風險種子節點。

  • 社區分析

節點聚類往往説明了風險域名、註冊人等形成子網絡的社羣信息,可用於團伙、核心網絡資產及其輻射資產的識別。如使用 k-core  算法計發現k 核心的子圖,或使用 Louvain 等發現緊密聚類,如下圖聚類間存在個別橋接節點,值得關注。

  • 路徑分析

上文方法找到了核心資產節點、資產節點聚類間關係後,使用路徑分析可以快速啟發核心資產間的鏈路。下圖中,我們找到了兩個核心資產之間的鏈路,從路徑上繼續擴散挖掘更多信息。

  • 模式匹配

模式匹配可用於識別黑灰產的運作模式、團伙結構等。模式匹配的關鍵在於,風險圖模式強依賴專家經驗。面對新場景、新數據,專家也需要升級經驗。在圖可視分析中設計交互式的模式定義、探索、驗證,可高效輔助用户總結經驗模式。如下圖所示,為根據左側面板中自定義的模式,最終的匹配效果。

分析案例

下面我們來看,如何利用上述思路與工具,來解決網絡黑灰資產的挖掘問題,在該問題中,我們的目標是分析出網絡黑灰資產間的鏈路。

首先, 通過數據總覽,發現下圖(A)中,大多數註冊人相關域名以涉賭、涉黃為主,其中代表名為“李xxxxx友”的註冊人的紫色柱子相對突出,表明他註冊了大量非法交易平台域名,隨後通過 gremlin 對“李xxxxx友”節點進行一跳擴散查詢,發現其註冊的域名中僅少量域名無風險標記(C圖淺橙色)。

其次,在上圖(C)基礎上繼續擴散,得到下圖,其中“李xxxxx友”暫記 a。此例中,我們使用節點重要性分析來發現更多種子節點。最終發現多個關聯大量風險域名的 IP、證書,如紅框圈出的 b、c、d 點。

為了進一步發現種子節點的社區結構信息,我們使用 k-core 社區發現等算法,最終發現了 2 個緊密核心結構,如下圖。觀察圖發現這些核心 IP 基本屬於一個 ASN。

與此同時,藉助 GraphScope 引擎的能力,我們將 k-core 的計算結果作為一列新的屬性加回原圖中,後續該字段將作為 gremlin 的查詢過濾條件,篩選出如下圖(B)。

最後,使用路徑分析工具,查詢多個核心節點之間的鏈路,找出節點間的關聯性,最終高亮黑灰資產間的鏈路如下。

結語

針對 ChinaVis 2022 可視化挑戰賽中的問題,本文首先介紹了 GraphInsight 背後實踐的解體思路與使用到的分析工具,其次給出了該案例場景下的分析過程。可以看到,融合了 GraphInsight 與 GraphScope 的圖計算能力,用户可以在海量圖數據中輕鬆挖掘潛在的重要信息,為進一步的決策提供了更多的可能。真誠的歡迎大家試用,並反饋任何問題。

有點意思,那就點個關注唄 :information_desk_person|type_3:‍♀️

:point_down|type_5: 點擊「閲讀原文」,在評論區與我們互動噢