抓垃圾電郵ＩＢＭ請出鍾馗

發表時間： 2004-08-26 04:18:00作者：

〔自由時報編譯張其賢□綜合報導〕美國「國際商業機器公司」（ＩＢＭ )的科學家，運用分析基因序列的技術，開發出一種反垃圾郵件的演算程式，阻擋成功率接近九十七％。

根據英國廣播公司（ＢＢＣ )報導，紐約ＩＢＭ華生研究中心的研究人員利古佐斯和田惠恩（譯音 )，將基因學家計算蛋白質註解的基因序列時所使用的一種演算程式「泰瑞西亞」，應用到辨識垃圾郵件上，並將這種新的程式命名為「鍾馗」。

利古佐斯表示，垃圾郵件會含有某些字元序列模式，這些模式不會出現在非垃圾郵件中。研究人員對大量垃圾郵件進行分析，建立出一套垃圾郵件經常包含的字元序列模式，這些模式相當於某種「字彙」。利用這套字彙組成的資料庫，「鍾馗」就可以辨識垃圾郵件。

「鍾馗」的運算原理是「模式發現」，而非「模式吻合」（如以郵件的來源、途徑、身份認證或安全名單等明確資訊串為對象，對郵件進行搜尋過濾 )。只要郵件中出現高頻率的垃圾「字彙」，就會被判定為垃圾郵件。

在六萬六千封垃圾郵件與二萬二千封非垃圾郵件的混合中，「鍾馗」成功辨識出絕大多數垃圾郵件，成功率高達九十六點五％。

利古佐斯說，「鍾馗」的辨識能力極強，只要「字彙」在郵件中出現兩次或兩次以上，郵件就會被抓出來，即使出現位置在郵件內容以外的地方也一樣。現在許多垃圾郵件以「Ｓ」代替「＄」來逃避過濾程式，但這種障眼法也騙不過「鍾馗」。此外，「鍾馗」會透過不斷學習擴大其「字型檔」。

「鍾馗」所根據的「泰瑞西亞」程式，也是華生研究中心的研發成果。它的命名取自希臘神話中著名的盲眼先知泰瑞西亞，理由是這種演算程式並不知道它所要尋找的明確基因模式為何，它只是在大量的基因資料中，發現到某些反覆出現的模式。基因學家利用這些模式，解釋疾病與基因缺陷的關係。

抓垃圾電郵 ＩＢＭ請出鍾馗