亚洲成精品动漫久久精久,九九在线精品视频播放,黄色成人免费观看,三级成人影院,久碰久,四虎成人欧美精品在永久在线

掃一掃
關注微信公眾號

CCERT中文垃圾郵件過濾規則集
2005-12-30   

1. 什么是 Chinese_rules.cf

是用于業界廣泛使用的免費垃圾郵件過濾系統的中文垃圾郵件過濾規則集。由于以前沒有中文的過濾規則集,SpamAssassin對中文郵件過濾的準確性不高。CCERT反垃圾郵件研究小組利用CCERT所掌握的最新和豐富的樣本數據,推出了第一個基于SpamAssassin的中文垃圾郵件過濾規則集Chinese_rules.cf。該規則集每周更新一次,時效性非常好。
Chinese_rules.cf是在SpamAssassin 官方網站上發布的第一個中文垃圾郵件過濾規則集,也是用Google,Yahoo,百度,MSN搜索“中文垃圾郵件過濾”時所返回的第一條結果。

2. Chinese_rules.cf的理論背景

Chinese_rules.cf是郵件內容過濾規則集。目前郵件內容過濾技術可以分為兩種方法:基于規則和基于統計的方法。基于規則的方法就是在郵件內容中尋找特定的模式,例如主題包含“免費”?;诮y計的就是使用統計方法解決郵件的二元分類問題,其中分類機跟據垃圾郵件和正常郵件的樣本訓練出來。在垃圾郵件過濾技術中最常用的統計方法就是貝葉斯準則。
基于規則方法的優點是規則可以共享,因此它的推廣性很強。一個人寫出的規則可以提供給多個人,多個服務器使用。然而它的缺點就是更新速度慢。因為規則一般都是人工編寫生成,所以新規則的產生速度跟不上新垃圾郵件出現的速度,換句話說,它的時效性較差。
基于統計的方法的優點就是分類機由程序自動訓練出來,只要及時更新樣本訓練集就可以使分類機更新的速度跟得上垃圾郵件出現的速度,即它的時效性很強。然而該方法的缺點就是分類機不能共享,某個用戶用自己的郵件樣本集訓練出來的分類機對其他用戶可能效果不佳,因此該方法的推廣性較差。
Chinese_rules.cf使用基于統計規則的新方法,即它所使用的規則是由統計方法自動生成的。該方法吸取了基于規則和基于統計的優點:因為它是一種基于規則的方法,因此推廣性很強,又因為它的規則是由統計方法自動生成的,因此它的時效性也很強。Chinese_rules.cf和傳統方法比較如表1所示。

表1、Chinese_rules.cf和傳統方法比較

  推廣性 時效性
基于規則
基于統計
Chinese_rules.cf

CCERT反垃圾郵件組自從1998年成立以來,每天都處理大量的垃圾郵件投訴,掌握最新和最豐富的樣本數據。Chinese_rules.cf就在此最新和最豐富的樣本數據庫的基礎上,通過統計方法自動產生的。

3. Chinese_rules.cf的生成和使用框架

Chinese_rules.cf的生成和使用框架如圖1所示。首先,利用CCERT垃圾郵件處理服務和用戶反饋信息來維護一個最新,最全的垃圾/正常郵件樣本庫,再利用統計方法,根據垃圾/正常郵件樣本庫自動生成規則集Chinese_rules.cf。因為樣本庫是最新的,Chinse_rules.cf的時效性就非常強。CCERT把該規則集在CCERT主頁上發布,作為CCERT提供的一種對外服務。各地用戶(服務器)通過CCERT主頁下載Chinese_rules.cf,這樣使Chinese_rules.cf的推廣性很強。

圖1、Chinese_rules.cf 的生成和使用框架

4. Chinese_rules.cf的匹配速度問題

Chinese_rules.cf規則集一般被控制在500個規則左右。這一數字也許使人對Chinese_rules.cf的匹配速度有點置疑。仔細分析和測試結果表明Chinese_rules.cf的匹配性能還是比較高的,原因是:一、Chinese_rules.cf的規則都很簡單,都是一個比較短的字符串,中間沒有帶任何一個通配符,這樣匹配速度比復雜的規則要快的多;二、Chinese_rules.cf中有90%是郵件主題的規則,只有10%是信體的規則。由于郵件主題往往比較短,因此Chinese_rules.cf的匹配速度會比較快。
以上是對性能的理論分析。我們用一臺普通PC(P4 2.8G CPU),用Chinese_rules.cf (2004 Dec 21的版本) 對178482封郵件匹配,則結果是平均匹配一封大小為5.0K的郵件只需要 0.04秒。這個結果實非常好的,因為如果一個郵件服務器的郵件平均大小為5.0K(不算附件),那么只要一臺普通PC每天就可以處理216萬封郵件。一般的學生郵件服務器每天收發30萬封左右。換句話說,只要在現有的郵件服務器加上如同上述一臺PC的處理性能就足以滿足處理垃圾郵件的硬件需求。

5. Chinese_rules.cf 的準確率

Chinese_rules.cf的每一個版本都帶有對準確率的測試結果。當前版本的測試結果如下:

Chinese_rules.cf,2005 Jan 2


閾值 垃圾郵件查全率
(共16729)
正常郵件誤判率
(共93655)

0.5 95.0% 5.1%
1.0 92.9% 1.6%
1.5 90.4% 0.4%
2.0 87.9% 0.1%
2.5 84.5% 0.0%
3.0 81.1% 0.0%
3.5 76.6% 0.0%
4.0 72.4% 0.0%
4.5 67.0% 0.0%

掃描一封郵件大小為 1932.37 字節需要 0.03 秒(P4-2.8G CPU)

表2中的結果就是在測試規程中,除了Chinese_rules.cf 以外不使用其他任何規則。在實際情況,Chinese_rules.cf一般都會跟SpamAssassin的缺省規則同時使用。因為SpamAssassin的缺省規則中有一部分是描述郵件行為的規則,對檢測中文垃圾郵件起作用,因此實際的性能會比以上實驗結果要好。
注意、 對于每天處理40萬封郵件以上的郵件服務器來說,能夠容忍的性能是正常郵件誤判率小于5%的同時,垃圾郵件的檢測率大于90%。

6. Chinese_rules.cf 的用戶統計

CCERT于2004年9月7日在網上發布Chinese_rules.cf。從9月至12月的用戶統計情況如下。圖2就是用戶查看規則集的統計(按IP)。可以看出規則集的知名度在直續上升。

圖2、用戶查看規則集統計(按IP)

圖3就是在Unix/Linux服務器上使用的用戶統計(安不同IP),其中深灰色表示老客戶,即上個月已經出現的IP。

圖3、用戶使用規則集統計(按不同IP)

7. Chinese_rules.cf 的使用方法

下載,把該規則放在SpamAssassin存放規則的目錄(一般在/usr/share/spamassassin)。通過wget下載的命令如下:

# wget -N -P /usr/share/spamassassin www.ccert.edu.cn/spam/sa/Chinese_rules.cf

每次更新Chinese_rules.cf都需要重啟加載SpamAssassin規則的程序。如果你用spamd則通常重啟的方法是:

# ps –ax | grep spamd
察看spamd進程的PID,然后
# kill -HUP PID
如果你用mimedefang則要重起mimedefang。假設mimedefang的重起腳本為 /etc/init.d/init-script, 則命令如下:

# /etc/init.d/init-script restart

CCERT每周更新一次規則集和相應分數,更新使用CCERT反垃圾郵件服務在6個月內處理過的垃圾郵件為樣本。經常更新Chinese_rules.cf會使過濾效果更好。只要把上述下載命令以及重起mimedefang的命令放在crontab中,并定期運行就可以完成自動更新功能。假如你想一個月更新一次,那么在root的crontab中應該添加一行:

0 0 1 * * wget -N -P /usr/share/spamassassin www.ccert.edu.cn/spam/sa/Chinese_rules.cf; /etc/init.d/init-script restart

更多信息請參見CCERT中文垃圾郵件解決方案


熱詞搜索:

上一篇:利用UBE插件抵制垃圾郵件
下一篇:SMTP安全手冊—理論基礎

分享到: 收藏