
第25卷第10期
2008年10月
計算機應(yīng)用與軟件
Computer Applications and Software
Vo1.25 NO.10
0ct.2008
累積反饋學(xué)習(xí)的簡單貝葉斯垃圾郵件過濾
張學(xué)農(nóng) 張立成
(廣東藥學(xué)院網(wǎng)絡(luò)中心廣東廣州510006)
(中山大學(xué)軟件研究所廣東廣州510275)
摘 要 給出了一種基于累積反饋學(xué)習(xí)的簡單貝葉斯郵件過濾方法。在此基礎(chǔ)上,通過領(lǐng)域規(guī)則的引入,對基于累積反饋學(xué)習(xí)的
簡單貝葉斯過濾方法進行了改進。實驗結(jié)果表明累積反饋學(xué)習(xí)對不斷保持和提高分類器的分類效果是必要的。
關(guān)鍵詞 垃圾郵件過濾 簡單貝葉斯 累積反饋學(xué)習(xí)
NAIVE BAYESIAN SPAM FILTERING BASED oN
ACCUMULATIVE FEEDBACK LEARNING
Zhang Xuenong Zhang Licheng ,
(Network Center,Guangdong Pharmace¨tical Universit) ,Guangzho“5 0OD6,GMangdong,ChinⅡ)
。(Institute of Software Research,Sun Yat—Sen University,Guangzhou 510275,Guangdong,China)
Abstract In this paper it proposes a Nai've Bayesian spam filtering algorithm based on accumulative feedback mode1.Applying some do—
main rules in our accumulative feedback Na ̄'ve Bayesian spare filter,the filter’S performance is improved.Experimental results indicate that
the accumulative feedback method is necessary on maintaining and enhancing the classiifer’s effect.
Keywords Spare filtering Na'fve Bayesian Accumulative feedback learning
我們要進行分類處理的對象是文本,通常采用向量空間模
0 引 言
基于內(nèi)容的垃圾郵件過濾方法…是處理垃圾郵件問題的
型來表示。文本可表示為一個n維向量( , ,…,W ),其中
W (i=t,2,…,n)表示第i個特征項的權(quán)重, 是特征項的個
數(shù),特征項可以是字、詞、短語等。權(quán)重有多種計算方法,最簡單
的是布爾權(quán)重。更一般的情況下,權(quán)重計算采用詞頻和文檔頻
常用方法。現(xiàn)主要基于內(nèi)容的垃圾郵件過濾方法有:貝葉斯方
法 、k近鄰、支持向量機、神經(jīng)網(wǎng)絡(luò)、Boosting方法、決策樹、粗
糙集方法等。簡單貝葉斯分類 方法利用貝葉斯公式計算文
本屬于每個類別的概率,從而將文本歸為概率最大的一類。從 c )},其中m ∈M,C ∈{s,L},樣本數(shù)為d。
目前的分類效果看,該方法的結(jié)果比較理想 。國內(nèi)學(xué)者也進 定義3樣本郵件m =( ,…,W ), =1,2,…,d,
行了有益的研究 。 廠(m )=c ,選擇特征數(shù)為n。
.
次的某種組合。
定義2 郵件樣本是集合{(m ,c ),(m:,c:),…,(m ,
垃圾郵件在內(nèi)容和形式上是不斷變化的。垃圾郵件發(fā)布者 待分類的郵件可表示為m =( w …,w ),分類器的
為了使其郵件能到達最終用戶,逃脫過濾器的檢查,會不斷地改 {s, }。 任務(wù)是將m 分到相應(yīng)的類別中去。即,(m )=c ,C
變垃圾郵件的內(nèi)容和形式;其次,垃圾郵件發(fā)布的內(nèi)容多半是產(chǎn)
品推銷、網(wǎng)站宣傳等廣告信息,具有時間性和潮流性;有的垃圾
郵件是由于蠕蟲病毒所產(chǎn)生的,郵件內(nèi)容就會因病毒不同而不
同。為保持郵件過濾器的效果,需不斷累積新的知識,并且強化
其對誤判郵件的學(xué)習(xí)。
取新的知識,并且強化對誤判郵件的學(xué)習(xí)。
為了保持郵件過濾器的效果,本文采用累計反饋學(xué)習(xí)的方法獲
2基于簡單貝葉斯的累積反饋學(xué)習(xí)
學(xué)習(xí)的主要任務(wù)是求解類的先驗概率P(C),用特定方法
垃圾郵件過濾問題的描述
基于內(nèi)容的垃圾郵件過濾,我們的目標(biāo)就是通過一定的機
器學(xué)習(xí)方法,得到一個郵件過濾器(分類器),也就是郵件判定
函數(shù),,我們能通過函數(shù)廠來判斷一封郵件是正常郵件還是垃圾
郵件。
定義1 郵件過濾器是判定函數(shù)_廠:M一{S,L},其中M為待
選擇合適的特征詞 ,計算特征詞 的類條件概率P( l C),
而P(C)、P( 『C)可以通過對郵件樣本的相關(guān)的統(tǒng)計信息來
計算得到。這些統(tǒng)計信息包括:用于訓(xùn)練的郵件樣本總數(shù)Ⅳ,垃
圾郵件總數(shù) ,正常的郵件總數(shù) ,特征詞 在垃圾郵件中出
現(xiàn)的次數(shù)Ⅳ 和其在正常郵件中出現(xiàn)的次數(shù)Ⅳ
,
。
進行累積反
收稿日期:2007—03—09。張學(xué)農(nóng),博士,主研領(lǐng)域:知識工程與
應(yīng)用。
處理的郵件集合, 表示正常郵件,s表示垃圾郵件。

本文發(fā)布于:2023-11-18 16:32:49,感謝您對本站的認可!
本文鏈接:http://www.newhan.cn/zhishi/a/1700296369219065.html
版權(quán)聲明:本站內(nèi)容均來自互聯(lián)網(wǎng),僅供演示用,請勿用于商業(yè)和其他非法用途。如果侵犯了您的權(quán)益請與我們聯(lián)系,我們將在24小時內(nèi)刪除。
本文word下載地址:累積反饋學(xué)習(xí)的簡單貝葉斯垃圾郵件過濾.doc
本文 PDF 下載地址:累積反饋學(xué)習(xí)的簡單貝葉斯垃圾郵件過濾.pdf
| 留言與評論(共有 0 條評論) |