隨著國內近10年來IT云化和微服務化的持續火熱,企業對運維能力的要求開始不斷提高。人工智能算法的不斷突破,也讓越來越多的企業開始嘗試購買和使用智能運維平臺來幫助自身從自動化運維走向智能化運維。
睿象云正是一家幫助企業智能化運維轉型的公司。自成立以來,睿象云致力于通過人工智能技術來提升企業的智能化運維能力。在開展 AIOps 相關項目的過程中,睿象云的技術人員逐漸發現運維知識圖譜是 AIOps 的基石,在不依托運維領域的知識圖譜的情況下,根因定位的準確度,運維知識推薦等一系列智能運維的場景都無法達到令人滿意的效果。
深度挖掘海量信息,AIOps需要知識圖譜
眾所周知,計算機擅長處理結構化形式的數據,為了讓計算機能夠處理這些信息,就必須要理解這些非結構化形式數據所蘊含的語義,分析其中的語義單元之間的關系,從而將其轉換成結構化形式。而“圖”是一種可以有效表示數據之間結構的表達形式。因此,如果將數據中蘊含的知識用“圖”的結構進行形式化表示,將數據的結構化與已有的結構化數據進行關聯,檢索與查找的便利性就能得到極大的提升。這便是Google 公司于2012年提出的“知識圖譜”的概念。
然而,在復雜的IT運維領域中,隨著海量的事件不斷出現以及多數據源融合的交叉應用,致使傳統的IT運維管理模式一直很難突破對人的巨大依賴。一旦系統出現嚴重告警事件,如果沒有豐富的運維經驗或者了解系統脈絡的人員,很難快速地解決IT系統故障問題,被運維工程師們寄予厚望的AIOps也只能是紙上談兵。
睿象云研發團隊經過深思熟慮,提出了一個基于知識圖譜搭建智能運維體系的新構架。睿象云的團隊認為,企業的IT知識和通用領域下的IT知識要沉淀到運維圖譜里面,然后結合從IT生產系統采集的指標和事件數據,搭建出企業完整的智能運維平臺。相比傳統的運維體系,知識圖譜數據庫可迅速調用IT事件之間的關系,通過系統推理輔助分析并得出問題根因,極大地提升事件處理效率,讓業務運行更加可靠。

圖1:基于知識圖譜搭建智能運維體系的新構架
首個“中文運維知識圖譜”,IT事件關聯智能解析
傳統模式下,企業的IT知識和通用領域下的IT知識通常蘊含在數據之中。這些海量的數據中包含了大量運維領域的相關知識和資深技巧以及蘊含經驗的有用信息。只有通過基于知識圖譜搭建智能運維體系的框架下,計算機才能自動閱讀、分析、理解這些海量、繁雜乃至泛濫的數據,從中挖掘有價值的知識,繼而向使用者提供精準知識服務,最終實現真正的AIOps。
睿象云的研發團隊聯合中山大學數據科學與計算機學院的陳鵬飛教授團隊,經過了長達一年半的緊密合作,終于趕在新中國70年華誕時刻,完成了國內首個運維領域的知識圖譜——中文運維知識圖譜COKG。

圖2:COKG中文運維知識圖譜模型
睿象云本次發布的“中文運維知識圖譜”包含了30多萬個實體、400萬個實體關系,是目前中國運維領域首個公開發布的知識圖譜。此舉將傳統基于淺層語義分析的信息服務范式提升到基于深層語義的知識服務。不僅在學術層面和商業層面有具有深刻意義,更是代表了新代智能化運維的基礎設施業已建成。

圖3:中文運維知識圖譜實體示例
全景圖譜深度挖掘 根因定位不是夢
COKG將不同IT事件的碎片化數據信息進行多維度整合,依托自動語義分析算法,能夠收集企業內部的事件類數據(機器日志、告警等),IT配置信息(業務調用關系、CMDB等),和知識數據(故障手冊、廠家文檔、告警處理意見等)等三種IT運維數據。通過事件驅動發現異常事件,自動分析事件根因,并且各種事件均可溯源,方便企業探究問題根因,精準管控風險源頭,做到標本兼治,消滅風險于萌芽。另外COKG可對企業IT系統進行秒級實時數據抓取和分析,對于未來可能發生的威脅及時預警,并結合解決方案智能推薦形成企業內部智能運維體系閉環,令企業的運維管理達到“運籌帷幄,決勝千里”。

圖4:睿象云智能事件平臺
此次發布的知識圖譜更在交互方面具備了兩個顯著優勢:
1. 表示方法對使用者友好
傳統知識表示方法和描述語言需要運維工程師具備一定的專業知識和技能,非資深人群難以使用。COKG以實體和實體關系為基礎的簡潔表示形式,無論是專家還是入行小白都容易接受,這給以眾包等方式編輯和構建知識提供了便利,為一線運維人員參與大規模知識構建提供了低認知成本的保證。
2. 表示方法對計算機友好,支持高效推理
推理是知識表示的重要目標,傳統方法在進行知識推理時復雜度很高,難以快速有效地處理。COKG表示形式以圖結構為基礎,結合圖論相關算法的前沿技術,利用對節點和路徑的遍歷搜索,可以有效提高推理效率,極大降低計算機處理成本。
除此之外,通過本次發布的運維知識圖譜,AIOps算法的準確度也能得到相應的提升。以根因分析為例,在沒有圖譜的情況下,算法是完全沒有任何知識儲備的,它只能通過概率或者頻率去區分事件之間是否存在關聯關系。
而有了知識圖譜之后,便可以把領域內的復雜知識通過信息抽取、數據挖掘、語義匹配語義計算、知識推理等過程精確地描述出來,并且可以描述知識的演化過程和發展規律,從而為研究和決策提供準確、可追蹤、可解釋、可推理的知識數據。在實際操作中,使用者只需要在建立好的圖譜查找相關問題,便可快速提供解決方案,極大地增強了企業的決策能力。
結尾
從20世紀90年代開始,以統計機器學習為核心的人工智能技術逐步占據主流。進人新世紀,隨著互聯網的蓬勃發展,IT系統數據規模呈現爆炸式增長的趨勢,IT事件類型也更加復雜多變。因此,這次COKG的發布,于整個運維界來說,也是一件十分具有里程碑意義的壯舉。
知識圖譜將是企業里面最重要的數據資產之一,睿象云也將持續努力,幫助企業更好的搭建出屬于自己的AIOps平臺。