如果能夠“看見”時間,那么人類都會變成以生命為長度、四維世界里的生物,詳細記錄每一刻發生的變化。在信息世界里,無形的時間維度被數據量化,記錄著我們在城市之間的起降,出行的始終……點連成線,四維空間正變成現實。
在航旅類App上,用戶的飛行記錄綻放出一張個人旅行地圖。國際航空運輸協會數據顯示,2017年全球總共有3680萬個航班起降,平均每天約有10萬個航班,千萬乘客與航空系統交互。在這張巨大的復雜地圖里,無數真實用戶行為里夾雜著巨量“虛假”訪問,甚至惡意訪問行為,其中最常見的就是網絡爬蟲。
按照授權情況,爬蟲可以分為合法爬蟲與惡意爬蟲。云鼎實驗室研究發現,惡意爬蟲流量最大的行業就是出行,包括航空、酒店、火車票預定等。據《科技日報》報道,某訂票網站的頁面每分鐘瀏覽量為1.2萬人次,真實用戶只有500人,爬蟲流量占比95.8%。即使在淡季,虛假流量也占到網站訪問總量的50%。由此帶來的成本消耗和安全威脅令航空業不堪其擾。
航司健康的寄生蟲
入侵航司網站的大量惡意爬蟲,絕大部分來自黑灰產的爬蟲團伙,在低頻爬取航司票務信息后,通過虛假身份信息搶占打折機票,待真實用戶通過灰色平臺購買機票,再將占有的座位退出,隨后使用真實用戶身份購入。航司對旅客的優惠轉化成第三方灰產的非法收入,使得航司蒙受損失,也增加了網站壓力和系統成本。
更令人不安的是,惡意爬蟲通過模擬真實用戶盜取后臺接口,獲取旅客姓名、身份證、手機號、積分卡等,造成個人信息泄露。而隨著新網絡安全法的實施,對于個人信息的保護顯得尤為重要。
無監督“免疫系統”實力反爬
白山云科技創新研發的新一代態勢感知平臺ATD,專門針對解決上述問題。
態勢感知實際效果圖
通過查訂比(查詢訂票比例,通常查訂比越高,爬蟲風險越大)確認反爬的效果。基于ATD無監督聚類算法,在繁雜的海量數據輸入中,確定事件邊界,根據場景作出相應處理。ATD深度引擎對訪問請求進行特征建模形成向量,對于特征向量執行聚類算法,最終將小眾群(離群點)進行行為特征引擎的監督,精準識別低頻攻擊,從而打擊灰色產業爬取航班、票務信息,杜絕惡意占座等行為。在多家航司服務實踐中,ATD算法模型不斷自我優化完善,其中幫助某航司客戶的查訂比下降90%,有效防御惡意爬蟲的圍攻。
某團伙爬蟲示意圖
在保護旅客信息方面,ATD學習引擎針對用戶登錄行為按照文本特征和行為特征進行學習。
文本特征學習針對業務接口的特征,包括輸入參數數量、輸入參數類型、輸出返回碼分布,輸入和輸出的對應關系等,建立業務在Request上的文本規律。當任何一個請求到來的時候,ATD就可以根據之前的文本特征學習結果作出異常概率評估。
行為特征學習針對每個用戶在一段時間內連續行為的規律,比如用戶起始是在哪個頁面,中間經過哪個接口,最終訪問到達哪個業務。通過學習上述行為,ATD就可以為業務建立一套訪問規律,從而當有異常行為發生時,可以迅速發現,準確識別。
基于文本特征和行為特征,ATD在異常賬號登錄時可以準確判斷,及時攔阻并對威脅事件全面回溯,保護用戶隱私數據,防止財產損失甚至人身傷害。
學習引擎未知問題發現
不同于行業內其他安全產品,ATD所采用的無監督學習算法,無需人工介入,在不依賴人為設定規則的情況下即可捕捉潛在威脅。而其特有的旁路部署方式,在完全不影響業務系統的情況下,有效識別并旁路阻斷風險。
深度態勢感知護航出行安全
爬蟲只是航司面對的威脅之一。此外,包括安檢、系統、AODB(機場營運數據系統)等在內的多個航司系統,每天產生巨量交互日志,面對數據安全性、系統運營穩定性、信息準確性等問題,整體安全態勢感知能力建設就顯得尤其重要。
白山ATD在旁路接入系統數據后,針對不同場景需求自動選用實時引擎、深度引擎和學習引擎,整個算法過程不依賴規則,即可在事件發生的同時立即作出分析,判斷攻擊狀態成功與否、還原攻擊場景、判斷原因和內在維度特征,解放安全工程師的人力并提高其效率,最終實現對于航司外網、業務、內網的三層智能防御。
與此同時,不同系統的接入不斷為ATD算法提供關聯分析的數據,自動為各個復雜事件建立內在關聯,提高識別準確率和召回率,不斷完善用戶行為肖像。在風險來臨之前,ATD通過極其微弱甚至不相關的異常行為即可預測潛在風險,站在系統整體高度實現深度態勢感知。“通過ATD系統,不僅將查訂比顯著降低,而且自動感知出一些未知異常,包括驗證碼繞過、越權操作、非法占座等威脅,最終提高了航司整體安全性。” 白山合伙人兼工程副總裁叢磊說,“期待可以幫助更多企業通過AI算法在信息世界的四維空間里更安全。”