隨著計算機產業的發展,以計算機存儲設備為載體的信息愈來愈多,這些信息大致可分為兩類:結構化數據和非結構化數據,結構化數據指的是諸如企業財務賬目和生產數據、學生的分數等等,非結構化數據的則是一些文本數據、圖像聲音、郵件、聊天信息等數據。
而對于企業來說,可以記錄并查詢的網絡數據90%以上都是非結構化數據,比如我們日常工作中經常用到的郵件、Webmail、QQ、MSN、博客、論壇、上網記錄等。但是傳統的方式,是以信息或報告的方式,對員工的上網行為進行統計,進一步瀏覽信息內容的。而每天產生的數據那么多,如何快速并且準確的從海量數據中得到所要的數據?畢竟系統分析統計的是符合RD邏輯的數據,并不是老板或管理層所需要的。
企業用戶的要求是:簡單、方便、快速、實時、準確。顯然,傳統方式已經不能滿足按部就班的瀏覽方式了。理想的方式就是和百度、谷歌那樣,可按照新聞、視頻、音樂、圖片等類別,進行模糊搜索,并且對得到的結果進行分類統計。而對于結構化數據,用RDBMS “關系數據庫管理系統”技術來管理是目前最好的一種方式。但是由于RDBMS自身底層結構的緣故使得它管理大量非結構化數據顯得有些先天不足,特別是查詢這些海量非結構化數據的速度較慢,而通過全文檢索技術就能高效地管理這些非結構化數據。
經過幾年的發展,全文檢索從最初的字符串匹配程序已經演進到能對超大文本、圖像等非結構化數據進行綜合管理的大型軟件,由于內涵和外延的深刻變化,全文檢索技術已成為新一代管理信息系統的代名詞。
而搜索引擎是全文檢索技術最主要的一個應用。目前,搜索引擎的使用已成為排在收發電子郵件之后的第二大互聯網應用技術。搜索引擎起源于傳統的信息全文檢索理論,即計算機程序通過掃描每一篇文章中的每一個詞,建立以詞為單位的到排文件,檢索程序根據檢索詞在每一篇文章中出現的頻率和每一個檢索詞在一篇文章中出現的概率,對包含這些檢索詞的文章進行排序,最后輸出排序的結果。全文檢索技術是搜索引擎的核心支撐技術。
企業網絡面對的是內部員工,網絡其主要作用是方便用戶進行資料的查詢和溝通,相對來說,數據量和數據的類型沒有Internet上的豐富,但企業部署的“網絡內容安全管理系統”,需匹配“全文檢索”這樣的搜索引擎,才可幫助用戶第一時間找出敏感的、機密的、所需的信息。用戶登錄“網絡內容安全管理系統”使用站內檢索,站內檢索應是分類目錄導航和全文檢索的完美結合,具體包括以下幾個方面:
n 分類目錄導航的關鍵是檢索范圍,檢索范圍的限制能使得檢索結果準確、簡潔;
n 在通常情況下能夠幫助人們很快地找到所要的網頁、聊天記錄、郵件、博客論壇留言、內網IP地址、時間等;
n 必須有相關排序功能,因為當檢索結果太多時,用戶不可能一一瀏覽,大多數用戶只瀏覽前面幾條,沒有相關排序,可能準確的檢索結果排在后面,用戶不能瀏覽到,而排在前面的檢索結果卻相關性很少,會造成用戶的錯誤判斷;
通過部署“網絡內容安全管理系統”,企業可以記錄下每天每人的上網行為;通過“全文檢索”,管理員或老板可以挖掘所需信息,從而改變傳統的通過分析看數據,改善為通過搜索瀏覽數據,更加符合當前用戶的使用習慣。
Softnext守內安信息科技提供網絡內容安全管理解決方案(軟硬件一體),全面記錄、管理、審核、備份、檢索企業上網所涉及的內容,其中全文檢索的功能以其靈活、彈性、易用的特點,適合各類企業的上網行為管理和網絡內容管理。