網路安全事件分析,你學會了嗎?

語言: CN / TW / HK

​引  言

網路安全事件被收集為一種網路威脅情報(CTI)可以用來對抗網路攻擊。開發一個網路事件分析模型來預測可能的威脅,可以幫助組織提供決策指導。網路安全事件是一個完整的語義單元,包含所有參與的物件,這些物件具有豐富的屬性(如攻擊的結果和種類)。通過分析網路安全事件,可以幫助預測組織可能面臨的威脅。

1.介紹

由於複雜的零日攻擊一直在增加,確保組織的系統安全非常困難[1]。為了對抗這些攻擊,組織依靠外部公開報告來收集和共享安全資訊[2]。作為網路威脅情報(CTI)的一種,來自外部報告的網路安全事件是關於資產存在或正在出現的威脅的基於證據的知識。目前許多專案,如VCDB[3]、Hackmageddon[4]和Web Hacking Incident Database[5],被用來共享安全事件資訊。圖1給出了網路安全事件的一個樣例。

開發一個網路安全事件分析模型來預測組織可能面臨的威脅,對於獲取攻擊趨勢併為決策提供指導[6]具有巨大的價值。組織必須全面利用網路事件分析模型,以更好地掌握當前的威脅情況,例如“組織中哪些資產更多可能受到危害”、“誰是組織的潛在攻擊者”、“他們可能對組織實施什麼型別的攻擊”以及“發現威脅的可能方法”等。

圖1 網路攻擊事件的一個例子:一個受害組織遭受了來自攻擊者a1的惡意軟體後門攻擊,攻擊者a1竊取了受害組織的敏感檔案。

2.網路安全事件建模及應用

安全資訊共享已經成為緩解網路攻擊的新武器。VCDB[3],Hackmageddon[4]和Web Hacking Incident Database[5]等安全事件資訊共享專案被用於收集網路安全事故報告。但是,這些基於組織報告的專案旨在收集事件資訊,無法分析威脅資訊。

機器學習方法在分析網路安全事件的組織報告中發揮著重要作用[10]。劉洋等人[11]從收集組織的外部網路特徵,並使用隨機森林分類器來預測組織的違規事件。Sarabi等人[12]基於隨機森林方法,利用公開的業務細節來預測資料洩露風險。Portalatinet等人[13] 提出一個統計框架對多元時間序列進行建模和預測。這些方法通過統計分析可測量的特徵來預測安全事件的風險。

許多基於圖的方法被提出來分析網路安全事件中的異構物件及其關係。趙軍和劉旭東等人[7] 基於攻擊事件構建屬性異構資訊網,對攻擊者、漏洞、被利用的指令碼、被入侵的裝置和被入侵的平臺的異構物件進行建模。他們使用屬性異構資訊網路來預測網路攻擊偏好。HinCTI[8] 旨在對網路威脅情報進行建模並識別威脅型別,以減輕安全分析師繁重的分析工作。趙軍和嚴其本等人[9]提出一個框架來模擬異構IOC之間的相互依賴關係,以量化它們的相關性。

3.網路表徵學習

網路安全事件包含大量的多型別物件從而形成異構資訊網路。網路表示學習將網路中的節點嵌入到低維空間,以採用機器學習方法進行分析。

節點結構嵌入方法的一個分支受到 Skip-gram(最初用於詞嵌入)模型的啟發[14]。DeepWalk [15] 首先使用random walks[16] 從網路中取樣路徑並學習物件嵌入。LINE[17] 通過優化獨立於鄰居的可能性,保留網路的一階和二階鄰近性。Node2vec[18] 擴充套件了有權重的DeepWalk用於探索不同的鄰居。Struc2vec[19] 構建一個多層圖來編碼具有相同結構但結構不相鄰的節點。這些工作考慮和建模了成對物件之間的關係。

為了將多個互動作為一個整體來捕獲,事件[20]被定義為表示完整的語義單元。HEBE[20]通過學習異構資訊網路中物件與事件的關係來保持物件的鄰近性。Event2vec[21]考慮事件中關係的數量和性質,並在嵌入空間中保持事件驅動的一階和二階鄰近。基於事件的建模封裝了更多資訊,這對於安全事件分析尤為重要。

屬性網路嵌入可以有效地處理節點屬性以學習更好的表示。典型的例子是SNE[22],這為具有豐富屬性的社會行動者保留了結構和屬性接近性。BANE模型[23]聚集來自相鄰節點的節點屬性和連結的資訊,以學習二進位制節點表示。

4.網路安全事件分析框架CyEvent2vec

網路安全事件建模框架CyEvent2vec[24]的體系結構如圖2所示。框架的過程由四個主要組成部分組成:

資料處理與特徵提取:從網路安全事件中提取屬性物件及其關係和標籤,包括受害者組織、資產、攻擊型別和攻擊者節點。

組織事件和矩陣生成:組織事件生成演算法可以根據遭受網路事件的企業作為目標,將相關的安全物件集合在一起。可以基於生成的組織事件構造屬性異構資訊網路。組織事件被處理成事件矩陣,以表示攻擊事件和具有屬性的物件之間的關係。

網路安全事件建模:為了探究物件之間複雜的關係,將事件矩陣輸入到自編碼器模型中,以獲得事件嵌入,使事件在低維空間中保持接近性。基於事件嵌入,可以計算得到物件嵌入。

安全事件分析的應用:將物件嵌入方法應用於組織威脅預測和威脅物件分類。組織威脅預測可以幫助分析人員預測受害組織可能面臨的威脅,可以被看做為連結預測任務。威脅物件分類預測了可能發現威脅的方法,可以看作是一個多標籤分類任務。

圖2 網路安全事件分析框架

5.總結

在本文中,我們專注於網路安全事件分析,旨在預測組織可能面臨的威脅。網路安全事件包含大量相互作用的多型別物件從而形成異構資訊網路。網路表示學習將網路中的節點嵌入到低維空間,從而可以採用機器學習技術對網路安全事件進行分析。

參考文獻

[1] N. Sun, J. Zhang, P. Rimba, S. Gao, L. Y. Zhang, and Y. Xiang, “Data-driven cybersecurity incident prediction: A survey,” IEEE communications surveys & tutorials, vol. 21, no. 2, pp. 1744–1772, 2018.

[2] I. Sarhan and M. Spruit, “Open-cykg: An open cyber threat intelligence knowledge graph,” Knowledge-Based Systems, vol. 233, p. 107524,2021.

[3] VERIS, “Veris community database (vcdb),” http://veriscommunity.net/index.html.

[4] Hackmageddon, “Veris community database (vcdb),” http://www.hackmageddon.com.

[5]  VERIS, “Web-hacking-incident-database,” http://projects.webappsec.org/w/page/13246995/Web-Hacking-Incident-Database.

[6] K. Shu, A. Sliva, J. Sampson, and H. Liu, “Understanding cyber attack behaviors with sentiment information on social media,” in International Conference on Social Computing,  ehavioral-Cultural Modeling and Prediction and Behavior Representation in Modeling and Simulation. Springer, 2018, pp. 377–388.

[7]  J. Zhao, X. Liu, Q. Yan, B. Li, M. Shao, H. Peng, and L. Sun, “Automatically predicting cyber attack preference with attributed heterogeneous attention networks and transductive learning,” computers & security, vol. 102, p. 102152, 2021.

[8] Y. Gao, L. Xiaoyong, P. Hao, B. Fang, and P. Yu, “Hincti: A cyber threat intelligence modeling and identification system based on heterogeneous information network,” IEEE Transactions on Knowledge and Data Engineering, 2020.

[9] J. Zhao, Q. Yan, X. Liu, B. Li, and G. Zuo, “Cyber threat intelligence modeling based on heterogeneous graph convolutional network,” in 23rd International Symposium on Research in Attacks, Intrusions and Defenses ({RAID} 2020), 2020, pp. 241–256.

[10]  D. Sun, Z. Wu, Y. Wang, Q. Lv, and B. Hu, “Cyber profiles based risk prediction of application systems for effective access control,” in 2019 IEEE Symposium on Computers and Communications (ISCC). IEEE, 2019, pp. 1–7.

[11]  Y. Liu, A. Sarabi, J. Zhang, P. Naghizadeh, M. Karir, M. Bailey, and M. Liu, “Cloudy with a chance of breach: Forecasting cyber security incidents,” in 24th {USENIX} Security Symposium ({USENIX} Security 15), 2015, pp. 1009–1024.

[12] A. Sarabi, P. Naghizadeh, Y. Liu, and M. Liu, “Risky business: Fine-grained data breach prediction using business profiles,” Journal of Cybersecurity, vol. 2, no. 1, pp. 15–28, 2016.

[13] Z. Fang, M. Xu, S. Xu, and T. Hu, “A framework for predicting data breach risk: Leveraging dependence to cope with sparsity,” IEEE Transactions on Information Forensics and Security, vol. 16, pp. 2186–2201, 2021.

[14]  W. Cheng, C. Greaves, and M. Warren, “From n-gram to skipgram to concgram,” International journal of corpus linguistics, vol. 11, no. 4, pp. 411–433, 2006.

[15] B. Perozzi, R. Al-Rfou, and S. Skiena, “Deepwalk: Online learning of social representations,” in Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining, 2014, pp. 701–710.

[16] F. G ̈obel and A. Jagers, “Random walks on graphs,” Stochastic processes and their applications, vol. 2, no. 4, pp. 311–336, 1974.

[17] J. Tang, M. Qu, M. Wang, M. Zhang, J. Yan, and Q. Mei, “Line: Large-scale information network embedding,” in Proceedings of the 24th international conference on world wide web, 2015, pp. 1067–1

[18] A. Grover and J. Leskovec, “node2vec: Scalable feature learning for networks,” in Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining, 2016, pp. 855–864.

[19] L. F. Ribeiro, P. H. Saverese, and D. R. Figueiredo, “struc2vec: Learning node representations from structural identity,” in Proceedings of the 23rd ACM SIGKDD international conference on knowledge discovery and data mining, 2017, pp. 385–394.

[20] H. Gui, J. Liu, F. Tao, M. Jiang, B. Norick, L. Kaplan, and J. Han, “Embedding learning with events in heterogeneous information networks,” IEEE transactions on knowledge and data engineering, vol. 29, no. 11, pp. 2428–2441, 2017.

[21] G. Fu, B. Yuan, Q. Duan, and X. Yao, “Representation learning for heterogeneous information networks via embedding events,” in International Conference on Neural Information Processing. Springer, 2019, pp. 327–339.

[22] L. Liao, X. He, H. Zhang, and T.-S. Chua, “Attributed social network embedding,” IEEE Transactions on Knowledge and Data Engineering, vol. 30, no. 12, pp. 2257–2270, 2018.

[23] H. Yang, S. Pan, P. Zhang, L. Chen, D. Lian, and C. Zhang, “Binarized attributed network embedding,” in 2018 IEEE International Conference on Data Mining (ICDM). IEEE, 2018, pp. 1476–1481.

[24] X. Ma, L.Q.Wang, et al, “CyEvent2vec: Attributed Heterogeneous Information Network based Event Embedding Framework for Cyber Security Events Analysis,” IJCNN,2022.