網絡安全事件分析,你學會了嗎?

語言: CN / TW / HK

​引  言

網絡安全事件被收集為一種網絡威脅情報(CTI)可以用來對抗網絡攻擊。開發一個網絡事件分析模型來預測可能的威脅,可以幫助組織提供決策指導。網絡安全事件是一個完整的語義單元,包含所有參與的對象,這些對象具有豐富的屬性(如攻擊的結果和種類)。通過分析網絡安全事件,可以幫助預測組織可能面臨的威脅。

1.介紹

由於複雜的零日攻擊一直在增加,確保組織的系統安全非常困難[1]。為了對抗這些攻擊,組織依靠外部公開報告來收集和共享安全信息[2]。作為網絡威脅情報(CTI)的一種,來自外部報告的網絡安全事件是關於資產存在或正在出現的威脅的基於證據的知識。目前許多項目,如VCDB[3]、Hackmageddon[4]和Web Hacking Incident Database[5],被用來共享安全事件信息。圖1給出了網絡安全事件的一個樣例。

開發一個網絡安全事件分析模型來預測組織可能面臨的威脅,對於獲取攻擊趨勢併為決策提供指導[6]具有巨大的價值。組織必須全面利用網絡事件分析模型,以更好地掌握當前的威脅情況,例如“組織中哪些資產更多可能受到危害”、“誰是組織的潛在攻擊者”、“他們可能對組織實施什麼類型的攻擊”以及“發現威脅的可能方法”等。

圖1 網絡攻擊事件的一個例子:一個受害組織遭受了來自攻擊者a1的惡意軟件後門攻擊,攻擊者a1竊取了受害組織的敏感文件。

2.網絡安全事件建模及應用

安全信息共享已經成為緩解網絡攻擊的新武器。VCDB[3],Hackmageddon[4]和Web Hacking Incident Database[5]等安全事件信息共享項目被用於收集網絡安全事故報告。但是,這些基於組織報告的項目旨在收集事件信息,無法分析威脅信息。

機器學習方法在分析網絡安全事件的組織報告中發揮着重要作用[10]。劉洋等人[11]從收集組織的外部網絡特徵,並使用隨機森林分類器來預測組織的違規事件。Sarabi等人[12]基於隨機森林方法,利用公開的業務細節來預測數據泄露風險。Portalatinet等人[13] 提出一個統計框架對多元時間序列進行建模和預測。這些方法通過統計分析可測量的特徵來預測安全事件的風險。

許多基於圖的方法被提出來分析網絡安全事件中的異構對象及其關係。趙軍和劉旭東等人[7] 基於攻擊事件構建屬性異構信息網,對攻擊者、漏洞、被利用的腳本、被入侵的設備和被入侵的平台的異構對象進行建模。他們使用屬性異構信息網絡來預測網絡攻擊偏好。HinCTI[8] 旨在對網絡威脅情報進行建模並識別威脅類型,以減輕安全分析師繁重的分析工作。趙軍和嚴其本等人[9]提出一個框架來模擬異構IOC之間的相互依賴關係,以量化它們的相關性。

3.網絡表徵學習

網絡安全事件包含大量的多類型對象從而形成異構信息網絡。網絡表示學習將網絡中的節點嵌入到低維空間,以採用機器學習方法進行分析。

節點結構嵌入方法的一個分支受到 Skip-gram(最初用於詞嵌入)模型的啟發[14]。DeepWalk [15] 首先使用random walks[16] 從網絡中採樣路徑並學習對象嵌入。LINE[17] 通過優化獨立於鄰居的可能性,保留網絡的一階和二階鄰近性。Node2vec[18] 擴展了有權重的DeepWalk用於探索不同的鄰居。Struc2vec[19] 構建一個多層圖來編碼具有相同結構但結構不相鄰的節點。這些工作考慮和建模了成對對象之間的關係。

為了將多個交互作為一個整體來捕獲,事件[20]被定義為表示完整的語義單元。HEBE[20]通過學習異構信息網絡中對象與事件的關係來保持對象的鄰近性。Event2vec[21]考慮事件中關係的數量和性質,並在嵌入空間中保持事件驅動的一階和二階鄰近。基於事件的建模封裝了更多信息,這對於安全事件分析尤為重要。

屬性網絡嵌入可以有效地處理節點屬性以學習更好的表示。典型的例子是SNE[22],這為具有豐富屬性的社會行動者保留了結構和屬性接近性。BANE模型[23]聚集來自相鄰節點的節點屬性和鏈接的信息,以學習二進制節點表示。

4.網絡安全事件分析框架CyEvent2vec

網絡安全事件建模框架CyEvent2vec[24]的體系結構如圖2所示。框架的過程由四個主要組成部分組成:

數據處理與特徵提取:從網絡安全事件中提取屬性對象及其關係和標籤,包括受害者組織、資產、攻擊類型和攻擊者節點。

組織事件和矩陣生成:組織事件生成算法可以根據遭受網絡事件的企業作為目標,將相關的安全對象集合在一起。可以基於生成的組織事件構造屬性異構信息網絡。組織事件被處理成事件矩陣,以表示攻擊事件和具有屬性的對象之間的關係。

網絡安全事件建模:為了探究對象之間複雜的關係,將事件矩陣輸入到自編碼器模型中,以獲得事件嵌入,使事件在低維空間中保持接近性。基於事件嵌入,可以計算得到對象嵌入。

安全事件分析的應用:將對象嵌入方法應用於組織威脅預測和威脅對象分類。組織威脅預測可以幫助分析人員預測受害組織可能面臨的威脅,可以被看做為鏈接預測任務。威脅對象分類預測了可能發現威脅的方法,可以看作是一個多標籤分類任務。

圖2 網絡安全事件分析框架

5.總結

在本文中,我們專注於網絡安全事件分析,旨在預測組織可能面臨的威脅。網絡安全事件包含大量相互作用的多類型對象從而形成異構信息網絡。網絡表示學習將網絡中的節點嵌入到低維空間,從而可以採用機器學習技術對網絡安全事件進行分析。

參考文獻

[1] N. Sun, J. Zhang, P. Rimba, S. Gao, L. Y. Zhang, and Y. Xiang, “Data-driven cybersecurity incident prediction: A survey,” IEEE communications surveys & tutorials, vol. 21, no. 2, pp. 1744–1772, 2018.

[2] I. Sarhan and M. Spruit, “Open-cykg: An open cyber threat intelligence knowledge graph,” Knowledge-Based Systems, vol. 233, p. 107524,2021.

[3] VERIS, “Veris community database (vcdb),” http://veriscommunity.net/index.html.

[4] Hackmageddon, “Veris community database (vcdb),” http://www.hackmageddon.com.

[5]  VERIS, “Web-hacking-incident-database,” http://projects.webappsec.org/w/page/13246995/Web-Hacking-Incident-Database.

[6] K. Shu, A. Sliva, J. Sampson, and H. Liu, “Understanding cyber attack behaviors with sentiment information on social media,” in International Conference on Social Computing,  ehavioral-Cultural Modeling and Prediction and Behavior Representation in Modeling and Simulation. Springer, 2018, pp. 377–388.

[7]  J. Zhao, X. Liu, Q. Yan, B. Li, M. Shao, H. Peng, and L. Sun, “Automatically predicting cyber attack preference with attributed heterogeneous attention networks and transductive learning,” computers & security, vol. 102, p. 102152, 2021.

[8] Y. Gao, L. Xiaoyong, P. Hao, B. Fang, and P. Yu, “Hincti: A cyber threat intelligence modeling and identification system based on heterogeneous information network,” IEEE Transactions on Knowledge and Data Engineering, 2020.

[9] J. Zhao, Q. Yan, X. Liu, B. Li, and G. Zuo, “Cyber threat intelligence modeling based on heterogeneous graph convolutional network,” in 23rd International Symposium on Research in Attacks, Intrusions and Defenses ({RAID} 2020), 2020, pp. 241–256.

[10]  D. Sun, Z. Wu, Y. Wang, Q. Lv, and B. Hu, “Cyber profiles based risk prediction of application systems for effective access control,” in 2019 IEEE Symposium on Computers and Communications (ISCC). IEEE, 2019, pp. 1–7.

[11]  Y. Liu, A. Sarabi, J. Zhang, P. Naghizadeh, M. Karir, M. Bailey, and M. Liu, “Cloudy with a chance of breach: Forecasting cyber security incidents,” in 24th {USENIX} Security Symposium ({USENIX} Security 15), 2015, pp. 1009–1024.

[12] A. Sarabi, P. Naghizadeh, Y. Liu, and M. Liu, “Risky business: Fine-grained data breach prediction using business profiles,” Journal of Cybersecurity, vol. 2, no. 1, pp. 15–28, 2016.

[13] Z. Fang, M. Xu, S. Xu, and T. Hu, “A framework for predicting data breach risk: Leveraging dependence to cope with sparsity,” IEEE Transactions on Information Forensics and Security, vol. 16, pp. 2186–2201, 2021.

[14]  W. Cheng, C. Greaves, and M. Warren, “From n-gram to skipgram to concgram,” International journal of corpus linguistics, vol. 11, no. 4, pp. 411–433, 2006.

[15] B. Perozzi, R. Al-Rfou, and S. Skiena, “Deepwalk: Online learning of social representations,” in Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining, 2014, pp. 701–710.

[16] F. G ̈obel and A. Jagers, “Random walks on graphs,” Stochastic processes and their applications, vol. 2, no. 4, pp. 311–336, 1974.

[17] J. Tang, M. Qu, M. Wang, M. Zhang, J. Yan, and Q. Mei, “Line: Large-scale information network embedding,” in Proceedings of the 24th international conference on world wide web, 2015, pp. 1067–1

[18] A. Grover and J. Leskovec, “node2vec: Scalable feature learning for networks,” in Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining, 2016, pp. 855–864.

[19] L. F. Ribeiro, P. H. Saverese, and D. R. Figueiredo, “struc2vec: Learning node representations from structural identity,” in Proceedings of the 23rd ACM SIGKDD international conference on knowledge discovery and data mining, 2017, pp. 385–394.

[20] H. Gui, J. Liu, F. Tao, M. Jiang, B. Norick, L. Kaplan, and J. Han, “Embedding learning with events in heterogeneous information networks,” IEEE transactions on knowledge and data engineering, vol. 29, no. 11, pp. 2428–2441, 2017.

[21] G. Fu, B. Yuan, Q. Duan, and X. Yao, “Representation learning for heterogeneous information networks via embedding events,” in International Conference on Neural Information Processing. Springer, 2019, pp. 327–339.

[22] L. Liao, X. He, H. Zhang, and T.-S. Chua, “Attributed social network embedding,” IEEE Transactions on Knowledge and Data Engineering, vol. 30, no. 12, pp. 2257–2270, 2018.

[23] H. Yang, S. Pan, P. Zhang, L. Chen, D. Lian, and C. Zhang, “Binarized attributed network embedding,” in 2018 IEEE International Conference on Data Mining (ICDM). IEEE, 2018, pp. 1476–1481.

[24] X. Ma, L.Q.Wang, et al, “CyEvent2vec: Attributed Heterogeneous Information Network based Event Embedding Framework for Cyber Security Events Analysis,” IJCNN,2022.