一、數據安全智能分類分級平臺建設背景
首先來介紹一下數據安全智能分類分級平臺建設背景。
我國在 2021 年發布了《中華人民共和國數據安全法》和《中華人民共和國個人信息保護法》兩大法律,將數據安全提升到了新的高度。隨著監管機構發布銀行保險機構的安全管理辦法,以及人民銀行發布《中國人民銀行業務領域數據安全管理辦法(征求意見稿)》,對銀行業數據安全提出了非常高的要求。
在此背景下,平安銀行注重數據分類分級,準確識別需要重點保護的高敏感數據,以滿足監管要求并確保數據安全。接下來就將介紹平安在數據安全分類分級方面的建設思路和實現方法。
二、數據安全分類分級建設思路和實踐
數據分類分級是平安銀行開展數據安全工作的基礎。要對數據進行安全保護,首先應該知道哪些數據是需要重點保護的,也就是哪些是重要數據、敏感數據。大眾認知中的重要數據與監管標準中要求的敏感數據可能并不一致,除了姓名、手機、身份證號等,還有其它一些敏感數據需要重點保護。
平安銀行在進行數據安全分類分級建設時,采取了三步走的策略:
第一步做標簽:確定數據安全分類標準,即需要一個標準來識別數據的級別。同時,參考法律法規和行業標準進行數據識別和定級,梳理標簽體系。此部分工作,先確定數據分類,即數據屬于哪個業務類別,確定目錄,然后再確定數據級別,根據泄露后造成的影響來確定級別,如密級、絕密級、國密級等不同的安全等級。
第二步打標簽:探索智能化手段替代人工識別以降低成本。因為,平安銀行的數據量是個天文數字,數據庫有幾百萬張表、幾千萬個字段之多,所以,我們在識別不同級別的數據時,需要運用智能化的手段,利用工具平臺代替人工來實現。
第三步用標簽:根據打標簽結果制定保護措施,例如對姓名進行脫敏掩碼、對身份證號和手機號進行數據脫敏、加密存儲等工作,并遵循相關標準進行數據保護。
下面詳細介紹每一步中的重點內容。
1. 做標簽– 數據安全標簽體系
參考國家法律法規、金融行業標準和平安自身數據資產現狀來建立數據安全標簽體系。
根據金標委標準要求,數據密級分為五級,由低到高分別為:非保密級(1 級)、秘密級(2 級)、機密級(3 級)、絕密級(4 級)和國密級(5 級)。個人金融信息分為三級,由低到高分別為 C1、C2 和 C3.其中 C3 為虹膜、指紋、密碼等用于個人身份鑒別的信息。C2 比如身份證號、銀行卡號等。
上圖中展示了部分案例。平安還開展了數據安全保護措施的標準化工作,公司系統眾多,需要統一標準,如姓名、手機號、身份證號等信息的掩碼的統一性要求。
2. 打標簽– 鷹眼智能打標平臺 3.0
第二步——打標簽。平安銀行自研了鷹眼數據安全智能標簽打標平臺,已從 1.0 版本發展到目前的 3.0 版本,覆蓋了越來越多的數據安全標簽,準確率從 83% 到 91%,再到 95%,逐步提高。人工達標準確率常在 80%~90%,因此該平臺可以完全代替人工工作。3.0 版本的智能打標平臺具有以下功能和特點:
數據完善性:剔除冷凍表、備份表和臨時表,對表進行區分和梳理,引入母子表概念來識別數據表之間的關系。
數據安全分類分級識別:對母表進行打標后,子表可以繼承其數據安全分類分級的打標結果,從而降低工作量。
技術手段:采用了內容正則、元數據正則以及深度學習技術,包括循環神經網絡進行訓練,以提高準確率。
血緣繼承:實現了上游表和下游表之間的血緣關系,使下游表可以直接繼承上游表的打標結果,進一步降低工作量。
提升準確率:通過多輪訓練優化調優,最終將準確率提升至 95%。
高效率:能夠取代人工打標,實現自動化的數據安全分類分級識別,提高工作效率。
鷹眼智能打標平臺的邏輯架構分為三個層次:
掃描層,主要包括三個引擎,分為正則引擎、AI 引擎和血緣引擎。其中,正則引擎主要是針對一些數據內容和元數據做了一些正則條件;不適合做正則掃描的情況,就根據 AI 模型進行智能打標;血緣引擎通過繼承的方式識別每一張表的上下游表,并保持標簽的一致性。
整合層是將三套的引擎的打標結果做統一,整合成全行統一的數據安全分類分級打標結果。
服務層提供多種形式的訪問方式,如通過 API、查詢/下載、離線等。利用打標結果,支撐數據生命周期的六大環節,即采集、傳輸、存儲、使用、刪除、銷毀,提供統一的服務。
在掃描層下面數據主要來源有業務系統數據庫、數據資產管理平臺和大數據平臺三部分。
打標流程包括人工打標、智能打標模型訓練和人工復核,形成最終打標結果。
首先,進行人工打標,向智能打標模型提供訓練集,進行訓練;然后,智能打標模型生成打標結果;最后,再進行人工復核,隨著準確率提升到 95%,人工復核不再進行大批量、全部的復核,而是僅做小部分抽樣的人工復核。最終,打標結果有兩個方向,一個是結果直接上架提供給各個數據平臺使用;另一方面,將人工復核發現的錯誤反饋給模型進行優化,實現循環優化。
智能打標結果放到數據安全管理平臺進行人工復核,初稿復核通過后流轉到業務人員進行復核。如果初稿未通過,結果直接結束,但錯誤結果會重新整理反饋給模型優化。復核確認后,結果可以上架使用。錯誤結果也會反饋給模型進行優化。
雙向打標方案包括控增量和盤存量兩個方面:
盤存量:對全量字段進行打標并上架到數據資產管理平臺。
控增量:將智能打標能力嵌入銀行內建模平臺,實現數據標準的落地和建模結合。
數據安全打標能力直接放到建模平臺,使得數據在設計階段就能智能推薦和打標,伴隨全生命周期流轉。這樣可以避免返工和保護措施不到位的問題,實現雙向打標方案。
3. 用標簽– 全行統一“數據安全打標簽結果”服務提供
使用標簽對銀行敏感信息進行屏蔽基線保護,比如根據保護措施要求,對客戶姓名只保留姓,其余掩蓋,性別全部掩蓋等等,并在智能打標平臺識別出全行的敏感字段數量和位置,一旦查詢或展示這些數據,保護措施就能直接落地。
當前數據資產管理平臺共計上架了 300 多萬個機密級以上的敏感字段,已對接的平臺包括數據安全保護傘平臺、數據模型設計平臺、大數據查詢平臺、數據權限審批平臺、行內測試-生產數據交換平臺及行內數據作業調度平臺等,這些平臺可以實時調用數據安全分類分級的打標結果。