
計算機與現代化
2010年第lO期
JISUANJI YU XIANDAIHUA 總第182期
文章編號:1006-2475(2OLO)10-0125-04
一
種改進的貝葉斯郵件過濾算法
夏。超,徐德華
(同濟大學經濟與管理學院,上海200092)
摘要:貝葉斯過濾算法是反垃圾郵件過濾技術中應用最為廣泛的方法之一。考慮到郵件的錯誤分類對郵件接收者帶來
的損失不同,引入判定垃圾郵件是判定正常郵件的 倍作為最終郵件分類依據;同時,為了提高貝葉斯過濾算法的分類
質量,運用遺傳算法來對郵件中正文和標題的特征詞在郵件分類中不同的重要程度做區分。最后用實際的郵件樣本對
改進后的算法進行驗證,驗證結果表明,利用遺傳算法優化配合貝葉斯過濾算法能有效提高郵件分類的質量。
關鍵詞:貝葉斯;反垃圾郵件;遺傳算法
中圖分類號:TP311 文獻標識碼:A doi:10.3969/j.issn.1006-2475.2010.10.033
An Improved Bayesian Mail Filtering Algorithm
XIA Chao,XU De—hua
(College of Economics and Management,Ton6i University,Shanghai 200092,China)
Abstract:Bayesian filtering algorithm is one of most widely used methods of anti-spam filtering technology.Taking into account
the fact that the wrong classiifcation of the mail causes diferent losses tO recipients,SO introducing a message that if judging as a
spam mail is times that of judging as a normal mail,it can conclude that htis is a spam mail.Meanwhile,in order to improve
the quality of clsasification,the paper uses genetic algoirthm tO distinguish between tokens in the body and tokens in the subject.
Finally,using the sample to validate the improved algorithm,the result shows that using new algorithm Can improve the quality of
the message clsasiifcation.
Key words:Bayesina;anti—spain mail;genetic algoritmh
0 引 言
反垃圾郵件方法是試圖來減少垃圾郵件問題和
處理安全需求,通過正確地識別垃圾郵件、郵件病毒
2009年l2月,思科公司發布了《年度安全報
或者郵件攻擊程序等減少垃圾郵件。這些解決方法
告》。思科在報告中表示,由于黑客不斷想出控制用
采取多種安全途徑來努力阻止垃圾郵件。反垃圾郵
戶計算機的新途徑,被控制的計算機發送了大量垃圾 件技術中最流行的是過濾技術,主要有黑名單、白名
郵件,垃圾郵件約占90%。幾天后的McAfee研究結 單、基于規則的過濾和基于內容的過濾。黑名單和白
果顯示,垃圾郵件是超大的“碳”制造機。另外,垃圾
名單指的是已知的垃圾郵件發送者或可信任的發送
郵件通常都可能攜帶危險的病毒、蠕蟲,嚴重地威脅
者的IP地址。基于規則的過濾根據某些特征(比如
著用戶電腦的硬盤;大批量的垃圾郵件能使郵箱堵
單詞、詞組、位置、大小等)來形成規則,通過這些規
塞,使得電腦網絡速度大幅下降,影響電子郵箱的工
則來描述垃圾郵件。顯然,這些方法的主觀性會造成
作效率;對通信機構來說,大量的垃圾郵件使它們必
大量正常郵件的誤判和垃圾郵件的漏判 J。本文采
須大幅度提高計算機性能以維持郵件服務器的正常 用的基于貝葉斯過濾算法是內容過濾的一種。
運行。毫無疑問,目前垃圾郵件已經成為全球互聯網
治理工作的重點¨ 。
1貝葉斯過濾算法
收稿日期:2010-08.12
基金項目:國家自然科學基金資助項目(70971099)
作者簡介:夏超(1986-),男,浙江舟山人,同濟大學經濟與管理學院碩士研究生,研究方向:數據挖掘,文本挖掘;徐德華
(1967-),男,副研究員,博士,研究方向:數據倉庫與數據挖掘,SOA,移動商務。

本文發布于:2023-11-18 16:30:56,感謝您對本站的認可!
本文鏈接:http://www.newhan.cn/zhishi/a/1700296256219062.html
版權聲明:本站內容均來自互聯網,僅供演示用,請勿用于商業和其他非法用途。如果侵犯了您的權益請與我們聯系,我們將在24小時內刪除。
本文word下載地址:一種改進的貝葉斯郵件過濾算法.doc
本文 PDF 下載地址:一種改進的貝葉斯郵件過濾算法.pdf
| 留言與評論(共有 0 條評論) |