引 言
網(wǎng)絡(luò)安全事件被收集為一種網(wǎng)絡(luò)威脅情報(bào)(CTI)可以用來(lái)對(duì)抗網(wǎng)絡(luò)攻擊。開發(fā)一個(gè)網(wǎng)絡(luò)事件分析模型來(lái)預(yù)測(cè)可能的威脅,可以幫助組織提供決策指導(dǎo)。網(wǎng)絡(luò)安全事件是一個(gè)完整的語(yǔ)義單元,包含所有參與的對(duì)象,這些對(duì)象具有豐富的屬性(如攻擊的結(jié)果和種類)。通過(guò)分析網(wǎng)絡(luò)安全事件,可以幫助預(yù)測(cè)組織可能面臨的威脅。
1.介紹
由于復(fù)雜的零日攻擊一直在增加,確保組織的系統(tǒng)安全非常困難[1]。為了對(duì)抗這些攻擊,組織依靠外部公開報(bào)告來(lái)收集和共享安全信息[2]。作為網(wǎng)絡(luò)威脅情報(bào)(CTI)的一種,來(lái)自外部報(bào)告的網(wǎng)絡(luò)安全事件是關(guān)于資產(chǎn)存在或正在出現(xiàn)的威脅的基于證據(jù)的知識(shí)。目前許多項(xiàng)目,如VCDB[3]、Hackmageddon[4]和Web Hacking Incident Database[5],被用來(lái)共享安全事件信息。圖1給出了網(wǎng)絡(luò)安全事件的一個(gè)樣例。
開發(fā)一個(gè)網(wǎng)絡(luò)安全事件分析模型來(lái)預(yù)測(cè)組織可能面臨的威脅,對(duì)于獲取攻擊趨勢(shì)并為決策提供指導(dǎo)[6]具有巨大的價(jià)值。組織必須全面利用網(wǎng)絡(luò)事件分析模型,以更好地掌握當(dāng)前的威脅情況,例如“組織中哪些資產(chǎn)更多可能受到危害”、“誰(shuí)是組織的潛在攻擊者”、“他們可能對(duì)組織實(shí)施什么類型的攻擊”以及“發(fā)現(xiàn)威脅的可能方法”等。
圖1 網(wǎng)絡(luò)攻擊事件的一個(gè)例子:一個(gè)受害組織遭受了來(lái)自攻擊者a1的惡意軟件后門攻擊,攻擊者a1竊取了受害組織的敏感文件。
2.網(wǎng)絡(luò)安全事件建模及應(yīng)用
安全信息共享已經(jīng)成為緩解網(wǎng)絡(luò)攻擊的新武器。VCDB[3],Hackmageddon[4]和Web Hacking Incident Database[5]等安全事件信息共享項(xiàng)目被用于收集網(wǎng)絡(luò)安全事故報(bào)告。但是,這些基于組織報(bào)告的項(xiàng)目旨在收集事件信息,無(wú)法分析威脅信息。
機(jī)器學(xué)習(xí)方法在分析網(wǎng)絡(luò)安全事件的組織報(bào)告中發(fā)揮著重要作用[10]。劉洋等人[11]從收集組織的外部網(wǎng)絡(luò)特征,并使用隨機(jī)森林分類器來(lái)預(yù)測(cè)組織的違規(guī)事件。Sarabi等人[12]基于隨機(jī)森林方法,利用公開的業(yè)務(wù)細(xì)節(jié)來(lái)預(yù)測(cè)數(shù)據(jù)泄露風(fēng)險(xiǎn)。Portalatinet等人[13] 提出一個(gè)統(tǒng)計(jì)框架對(duì)多元時(shí)間序列進(jìn)行建模和預(yù)測(cè)。這些方法通過(guò)統(tǒng)計(jì)分析可測(cè)量的特征來(lái)預(yù)測(cè)安全事件的風(fēng)險(xiǎn)。
許多基于圖的方法被提出來(lái)分析網(wǎng)絡(luò)安全事件中的異構(gòu)對(duì)象及其關(guān)系。趙軍和劉旭東等人[7] 基于攻擊事件構(gòu)建屬性異構(gòu)信息網(wǎng),對(duì)攻擊者、漏洞、被利用的腳本、被入侵的設(shè)備和被入侵的平臺(tái)的異構(gòu)對(duì)象進(jìn)行建模。他們使用屬性異構(gòu)信息網(wǎng)絡(luò)來(lái)預(yù)測(cè)網(wǎng)絡(luò)攻擊偏好。HinCTI[8] 旨在對(duì)網(wǎng)絡(luò)威脅情報(bào)進(jìn)行建模并識(shí)別威脅類型,以減輕安全分析師繁重的分析工作。趙軍和嚴(yán)其本等人[9]提出一個(gè)框架來(lái)模擬異構(gòu)IOC之間的相互依賴關(guān)系,以量化它們的相關(guān)性。
3.網(wǎng)絡(luò)表征學(xué)習(xí)
網(wǎng)絡(luò)安全事件包含大量的多類型對(duì)象從而形成異構(gòu)信息網(wǎng)絡(luò)。網(wǎng)絡(luò)表示學(xué)習(xí)將網(wǎng)絡(luò)中的節(jié)點(diǎn)嵌入到低維空間,以采用機(jī)器學(xué)習(xí)方法進(jìn)行分析。
節(jié)點(diǎn)結(jié)構(gòu)嵌入方法的一個(gè)分支受到 Skip-gram(最初用于詞嵌入)模型的啟發(fā)[14]。DeepWalk [15] 首先使用random walks[16] 從網(wǎng)絡(luò)中采樣路徑并學(xué)習(xí)對(duì)象嵌入。LINE[17] 通過(guò)優(yōu)化獨(dú)立于鄰居的可能性,保留網(wǎng)絡(luò)的一階和二階鄰近性。Node2vec[18] 擴(kuò)展了有權(quán)重的DeepWalk用于探索不同的鄰居。Struc2vec[19] 構(gòu)建一個(gè)多層圖來(lái)編碼具有相同結(jié)構(gòu)但結(jié)構(gòu)不相鄰的節(jié)點(diǎn)。這些工作考慮和建模了成對(duì)對(duì)象之間的關(guān)系。
為了將多個(gè)交互作為一個(gè)整體來(lái)捕獲,事件[20]被定義為表示完整的語(yǔ)義單元。HEBE[20]通過(guò)學(xué)習(xí)異構(gòu)信息網(wǎng)絡(luò)中對(duì)象與事件的關(guān)系來(lái)保持對(duì)象的鄰近性。Event2vec[21]考慮事件中關(guān)系的數(shù)量和性質(zhì),并在嵌入空間中保持事件驅(qū)動(dòng)的一階和二階鄰近。基于事件的建模封裝了更多信息,這對(duì)于安全事件分析尤為重要。
屬性網(wǎng)絡(luò)嵌入可以有效地處理節(jié)點(diǎn)屬性以學(xué)習(xí)更好的表示。典型的例子是SNE[22],這為具有豐富屬性的社會(huì)行動(dòng)者保留了結(jié)構(gòu)和屬性接近性。BANE模型[23]聚集來(lái)自相鄰節(jié)點(diǎn)的節(jié)點(diǎn)屬性和鏈接的信息,以學(xué)習(xí)二進(jìn)制節(jié)點(diǎn)表示。
4.網(wǎng)絡(luò)安全事件分析框架CyEvent2vec
網(wǎng)絡(luò)安全事件建模框架CyEvent2vec[24]的體系結(jié)構(gòu)如圖2所示。框架的過(guò)程由四個(gè)主要組成部分組成:
數(shù)據(jù)處理與特征提取:從網(wǎng)絡(luò)安全事件中提取屬性對(duì)象及其關(guān)系和標(biāo)簽,包括受害者組織、資產(chǎn)、攻擊類型和攻擊者節(jié)點(diǎn)。
組織事件和矩陣生成:組織事件生成算法可以根據(jù)遭受網(wǎng)絡(luò)事件的企業(yè)作為目標(biāo),將相關(guān)的安全對(duì)象集合在一起。可以基于生成的組織事件構(gòu)造屬性異構(gòu)信息網(wǎng)絡(luò)。組織事件被處理成事件矩陣,以表示攻擊事件和具有屬性的對(duì)象之間的關(guān)系。
網(wǎng)絡(luò)安全事件建模:為了探究對(duì)象之間復(fù)雜的關(guān)系,將事件矩陣輸入到自編碼器模型中,以獲得事件嵌入,使事件在低維空間中保持接近性。基于事件嵌入,可以計(jì)算得到對(duì)象嵌入。
安全事件分析的應(yīng)用:將對(duì)象嵌入方法應(yīng)用于組織威脅預(yù)測(cè)和威脅對(duì)象分類。組織威脅預(yù)測(cè)可以幫助分析人員預(yù)測(cè)受害組織可能面臨的威脅,可以被看做為鏈接預(yù)測(cè)任務(wù)。威脅對(duì)象分類預(yù)測(cè)了可能發(fā)現(xiàn)威脅的方法,可以看作是一個(gè)多標(biāo)簽分類任務(wù)。
圖2 網(wǎng)絡(luò)安全事件分析框架
5.總結(jié)
在本文中,我們專注于網(wǎng)絡(luò)安全事件分析,旨在預(yù)測(cè)組織可能面臨的威脅。網(wǎng)絡(luò)安全事件包含大量相互作用的多類型對(duì)象從而形成異構(gòu)信息網(wǎng)絡(luò)。網(wǎng)絡(luò)表示學(xué)習(xí)將網(wǎng)絡(luò)中的節(jié)點(diǎn)嵌入到低維空間,從而可以采用機(jī)器學(xué)習(xí)技術(shù)對(duì)網(wǎng)絡(luò)安全事件進(jìn)行分析。
參考文獻(xiàn)
[1] N. Sun, J. Zhang, P. Rimba, S. Gao, L. Y. Zhang, and Y. Xiang, “Data-driven cybersecurity incident prediction: A survey,” IEEE communications surveys & tutorials, vol. 21, no. 2, pp. 1744–1772, 2018.
[2] I. Sarhan and M. Spruit, “Open-cykg: An open cyber threat intelligence knowledge graph,” Knowledge-Based Systems, vol. 233, p. 107524,2021.
[3] VERIS, “Veris community database (vcdb),” http://veriscommunity.net/index.html.
[4] Hackmageddon, “Veris community database (vcdb),” https://www.hackmageddon.com.
[5] VERIS, “Web-hacking-incident-database,” http://projects.webappsec.org/w/page/13246995/Web-Hacking-Incident-Database.
[6] K. Shu, A. Sliva, J. Sampson, and H. Liu, “Understanding cyber attack behaviors with sentiment information on social media,” in International Conference on Social Computing, ehavioral-Cultural Modeling and Prediction and Behavior Representation in Modeling and Simulation. Springer, 2018, pp. 377–388.
[7] J. Zhao, X. Liu, Q. Yan, B. Li, M. Shao, H. Peng, and L. Sun, “Automatically predicting cyber attack preference with attributed heterogeneous attention networks and transductive learning,” computers & security, vol. 102, p. 102152, 2021.
[8] Y. Gao, L. Xiaoyong, P. Hao, B. Fang, and P. Yu, “Hincti: A cyber threat intelligence modeling and identification system based on heterogeneous information network,” IEEE Transactions on Knowledge and Data Engineering, 2020.
[9] J. Zhao, Q. Yan, X. Liu, B. Li, and G. Zuo, “Cyber threat intelligence modeling based on heterogeneous graph convolutional network,” in 23rd International Symposium on Research in Attacks, Intrusions and Defenses ({RAID} 2020), 2020, pp. 241–256.
[10] D. Sun, Z. Wu, Y. Wang, Q. Lv, and B. Hu, “Cyber profiles based risk prediction of application systems for effective access control,” in 2019 IEEE Symposium on Computers and Communications (ISCC). IEEE, 2019, pp. 1–7.
[11] Y. Liu, A. Sarabi, J. Zhang, P. Naghizadeh, M. Karir, M. Bailey, and M. Liu, “Cloudy with a chance of breach: Forecasting cyber security incidents,” in 24th {USENIX} Security Symposium ({USENIX} Security 15), 2015, pp. 1009–1024.
[12] A. Sarabi, P. Naghizadeh, Y. Liu, and M. Liu, “Risky business: Fine-grained data breach prediction using business profiles,” Journal of Cybersecurity, vol. 2, no. 1, pp. 15–28, 2016.
[13] Z. Fang, M. Xu, S. Xu, and T. Hu, “A framework for predicting data breach risk: Leveraging dependence to cope with sparsity,” IEEE Transactions on Information Forensics and Security, vol. 16, pp. 2186–2201, 2021.
[14] W. Cheng, C. Greaves, and M. Warren, “From n-gram to skipgram to concgram,” International journal of corpus linguistics, vol. 11, no. 4, pp. 411–433, 2006.
[15] B. Perozzi, R. Al-Rfou, and S. Skiena, “Deepwalk: Online learning of social representations,” in Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining, 2014, pp. 701–710.
[16] F. G ?obel and A. Jagers, “Random walks on graphs,” Stochastic processes and their applications, vol. 2, no. 4, pp. 311–336, 1974.
[17] J. Tang, M. Qu, M. Wang, M. Zhang, J. Yan, and Q. Mei, “Line: Large-scale information network embedding,” in Proceedings of the 24th international conference on world wide web, 2015, pp. 1067–1
[18] A. Grover and J. Leskovec, “node2vec: Scalable feature learning for networks,” in Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining, 2016, pp. 855–864.
[19] L. F. Ribeiro, P. H. Saverese, and D. R. Figueiredo, “struc2vec: Learning node representations from structural identity,” in Proceedings of the 23rd ACM SIGKDD international conference on knowledge discovery and data mining, 2017, pp. 385–394.
[20] H. Gui, J. Liu, F. Tao, M. Jiang, B. Norick, L. Kaplan, and J. Han, “Embedding learning with events in heterogeneous information networks,” IEEE transactions on knowledge and data engineering, vol. 29, no. 11, pp. 2428–2441, 2017.
[21] G. Fu, B. Yuan, Q. Duan, and X. Yao, “Representation learning for heterogeneous information networks via embedding events,” in International Conference on Neural Information Processing. Springer, 2019, pp. 327–339.
[22] L. Liao, X. He, H. Zhang, and T.-S. Chua, “Attributed social network embedding,” IEEE Transactions on Knowledge and Data Engineering, vol. 30, no. 12, pp. 2257–2270, 2018.
[23] H. Yang, S. Pan, P. Zhang, L. Chen, D. Lian, and C. Zhang, “Binarized attributed network embedding,” in 2018 IEEE International Conference on Data Mining (ICDM). IEEE, 2018, pp. 1476–1481.
[24] X. Ma, L.Q.Wang, et al, “CyEvent2vec: Attributed Heterogeneous Information Network based Event Embedding Framework for Cyber Security Events Analysis,” IJCNN,2022.