核心網(wǎng)產(chǎn)品范圍包括從無線接入后的所有管道和話音交換等設(shè)備,網(wǎng)元種類多,相互之間的接口和信令交互復雜多樣。一個典型的VoLTE系統(tǒng),涉及40多個邏輯網(wǎng)元、60多個接口,KPI數(shù)量多達30000。云化后,系統(tǒng)分層解耦變得更加復雜,潛在的故障點更多,需要監(jiān)控的KPI數(shù)量更多,運維的難度指數(shù)級增加。從實際案例分析,一些棘手的故障問題難于用傳統(tǒng)手段檢測和發(fā)現(xiàn),比如靜默故障,其特點是系統(tǒng)關(guān)鍵KPI指標無異常,事故爆發(fā)突然,不能快速定界定位,造成大面積業(yè)務(wù)受損。
沈潔表示:
華為云化核心網(wǎng)智能運維解決方案將機器學習與專業(yè)知識有機結(jié)合,通過全量KPI動態(tài)偏差計算與根因分析快速識別各類靜默故障,變‘事后運維’為‘事先預(yù)測’,大幅提升運維效率和網(wǎng)絡(luò)可靠性。”
沈潔在SDN NFV世界峰會上進行主題分享
全量KPI動態(tài)偏差計算:運用實時流數(shù)據(jù)處理技術(shù),采集和預(yù)處理大量的KPI及metric指標,學習其內(nèi)在變化規(guī)律,為每一個KPI及metric訓練出對應(yīng)的動態(tài)異常檢測模型。該模型具有良好的通用性,能根據(jù)輸入KPI的特點,合理計算KPI數(shù)據(jù)在季節(jié)性、周期性、變點、節(jié)假日、重大事件等不同場景中的有效偏差,降低誤判和漏判,準確檢測出異常。
基于專家經(jīng)驗系統(tǒng)的根因分析:在探測出異常以后,系統(tǒng)將基于專業(yè)領(lǐng)域知識與皮爾松關(guān)聯(lián)、隨機森林等機器學習算法的深度結(jié)合生成的決策樹,對多個異常KPI進行關(guān)聯(lián)分析,給出根因 KPI排序推薦,有效降低定位定界難度,實現(xiàn)故障快速定位。
在涉及50個IMS網(wǎng)元,90個EPC網(wǎng)元商用VOLTE網(wǎng)絡(luò)中對智能化運維解決方案的驗證顯示,基于全量KPI動態(tài)偏差計算與根因分析的智能運維解決方案異常檢測準確度可達85%,且90%故障可自動快速完成定界。
目前,華為云核心網(wǎng)在全球正式商用100多張云化網(wǎng)絡(luò),多個網(wǎng)絡(luò)服務(wù)千萬用戶。未來,華為云核心網(wǎng)將持續(xù)創(chuàng)新,不斷深化自動化和AI技術(shù)的應(yīng)用,實現(xiàn)核心網(wǎng)絡(luò)運維效率的倍增,打造“永不故障”的自治網(wǎng)絡(luò)。