首頁 > 專欄

累積反饋學(xué)習(xí)的簡單貝葉斯垃圾郵件過濾

更新時間:2023-11-18 16:32:50 閱讀：評論：0

公司崗位-冬至的祝福

2023年11月18日發(fā)(作者：秘訣的意思是什么)

第２５卷第１０期

２００８年１０月

計算機應(yīng)用與軟件

ＣｏｍｐｕｔｅｒＡｐｐｌｉｃａｔｉｏｎｓａｎｄＳｏｆｔｗａｒｅ

Ｖｏ１．２５ＮＯ．１０

０ｃｔ．２００８

累積反饋學(xué)習(xí)的簡單貝葉斯垃圾郵件過濾

張學(xué)農(nóng) 張立成

（廣東藥學(xué)院網(wǎng)絡(luò)中心廣東廣州５１０００６）

（中山大學(xué)軟件研究所廣東廣州５１０２７５）

摘要給出了一種基于累積反饋學(xué)習(xí)的簡單貝葉斯郵件過濾方法。在此基礎(chǔ)上，通過領(lǐng)域規(guī)則的引入，對基于累積反饋學(xué)習(xí)的

簡單貝葉斯過濾方法進行了改進。實驗結(jié)果表明累積反饋學(xué)習(xí)對不斷保持和提高分類器的分類效果是必要的。

關(guān)鍵詞垃圾郵件過濾簡單貝葉斯累積反饋學(xué)習(xí)

ＮＡＩＶＥＢＡＹＥＳＩＡＮＳＰＡＭＦＩＬＴＥＲＩＮＧＢＡＳＥＤｏＮ

ＡＣＣＵＭＵＬＡＴＩＶＥＦＥＥＤＢＡＣＫＬＥＡＲＮＩＮＧ

ＺｈａｎｇＸｕｅｎｏｎｇＺｈａｎｇＬｉｃｈｅｎｇ，

（ＮｅｔｗｏｒｋＣｅｎｔｅｒ，ＧｕａｎｇｄｏｎｇＰｈａｒｍａｃｅ¨ｔｉｃａｌＵｎｉｖｅｒｓｉｔ），Ｇｕａｎｇｚｈｏ“５０ＯＤ６，ＧＭａｎｇｄｏｎｇ，ＣｈｉｎⅡ）

。（ＩｎｓｔｉｔｕｔｅｏｆＳｏｆｔｗａｒｅＲｅｓｅａｒｃｈ，ＳｕｎＹａｔ—ＳｅｎＵｎｉｖｅｒｓｉｔｙ，Ｇｕａｎｇｚｈｏｕ５１０２７５，Ｇｕａｎｇｄｏｎｇ，Ｃｈｉｎａ）

ＡｂｓｔｒａｃｔＩｎｔｈｉｓｐａｐｅｒｉｔｐｒｏｐｏｓｅｓａＮａｉ＇ｖｅＢａｙｅｓｉａｎｓｐａｍｆｉｌｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎａｃｃｕｍｕｌａｔｉｖｅｆｅｅｄｂａｃｋｍｏｄｅ１．Ａｐｐｌｙｉｎｇｓｏｍｅｄｏ—

ｍａｉｎｒｕｌｅｓｉｎｏｕｒａｃｃｕｍｕｌａｔｉｖｅｆｅｅｄｂａｃｋＮａ￣＇ｖｅＢａｙｅｓｉａｎｓｐａｒｅｆｉｌｔｅｒ，ｔｈｅｆｉｌｔｅｒ’Ｓｐｅｒｆｏｒｍａｎｃｅｉｓｉｍｐｒｏｖｅｄ．Ｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｉｎｄｉｃａｔｅｔｈａｔ

ｔｈｅａｃｃｕｍｕｌａｔｉｖｅｆｅｅｄｂａｃｋｍｅｔｈｏｄｉｓｎｅｃｅｓｓａｒｙｏｎｍａｉｎｔａｉｎｉｎｇａｎｄｅｎｈａｎｃｉｎｇｔｈｅｃｌａｓｓｉｉｆｅｒ’ｓｅｆｆｅｃｔ．

ＫｅｙｗｏｒｄｓＳｐａｒｅｆｉｌｔｅｒｉｎｇＮａ＇ｆｖｅＢａｙｅｓｉａｎＡｃｃｕｍｕｌａｔｉｖｅｆｅｅｄｂａｃｋｌｅａｒｎｉｎｇ

我們要進行分類處理的對象是文本，通常采用向量空間模

０引言

基于內(nèi)容的垃圾郵件過濾方法…是處理垃圾郵件問題的

型來表示。文本可表示為一個ｎ維向量（，，…，Ｗ），其中

Ｗ（ｉ＝ｔ，２，…，ｎ）表示第ｉ個特征項的權(quán)重，是特征項的個

數(shù)，特征項可以是字、詞、短語等。權(quán)重有多種計算方法，最簡單

的是布爾權(quán)重。更一般的情況下，權(quán)重計算采用詞頻和文檔頻

常用方法。現(xiàn)主要基于內(nèi)容的垃圾郵件過濾方法有：貝葉斯方

法、ｋ近鄰、支持向量機、神經(jīng)網(wǎng)絡(luò)、Ｂｏｏｓｔｉｎｇ方法、決策樹、粗

糙集方法等。簡單貝葉斯分類方法利用貝葉斯公式計算文

本屬于每個類別的概率，從而將文本歸為概率最大的一類。從ｃ）｝，其中ｍ ∈Ｍ，Ｃ ∈｛ｓ，Ｌ｝，樣本數(shù)為ｄ。

目前的分類效果看，該方法的結(jié)果比較理想。國內(nèi)學(xué)者也進定義３樣本郵件ｍ＝（，…，Ｗ），＝１，２，…，ｄ，

行了有益的研究。廠（ｍ）＝ｃ，選擇特征數(shù)為ｎ。

．

次的某種組合。

定義２郵件樣本是集合｛（ｍ，ｃ），（ｍ：，ｃ：），…，（ｍ，

垃圾郵件在內(nèi)容和形式上是不斷變化的。垃圾郵件發(fā)布者待分類的郵件可表示為ｍ＝（ｗ …，ｗ），分類器的

為了使其郵件能到達最終用戶，逃脫過濾器的檢查，會不斷地改｛ｓ，｝。任務(wù)是將ｍ分到相應(yīng)的類別中去。即，（ｍ）＝ｃ，Ｃ

變垃圾郵件的內(nèi)容和形式；其次，垃圾郵件發(fā)布的內(nèi)容多半是產(chǎn)

品推銷、網(wǎng)站宣傳等廣告信息，具有時間性和潮流性；有的垃圾

郵件是由于蠕蟲病毒所產(chǎn)生的，郵件內(nèi)容就會因病毒不同而不

同。為保持郵件過濾器的效果，需不斷累積新的知識，并且強化

其對誤判郵件的學(xué)習(xí)。

取新的知識，并且強化對誤判郵件的學(xué)習(xí)。

為了保持郵件過濾器的效果，本文采用累計反饋學(xué)習(xí)的方法獲

２基于簡單貝葉斯的累積反饋學(xué)習(xí)

學(xué)習(xí)的主要任務(wù)是求解類的先驗概率Ｐ（Ｃ），用特定方法

垃圾郵件過濾問題的描述

基于內(nèi)容的垃圾郵件過濾，我們的目標(biāo)就是通過一定的機

器學(xué)習(xí)方法，得到一個郵件過濾器（分類器），也就是郵件判定

函數(shù)，，我們能通過函數(shù)廠來判斷一封郵件是正常郵件還是垃圾

郵件。

定義１郵件過濾器是判定函數(shù)＿廠：Ｍ一｛Ｓ，Ｌ｝，其中Ｍ為待

選擇合適的特征詞，計算特征詞的類條件概率Ｐ（ｌＣ），

而Ｐ（Ｃ）、Ｐ（『Ｃ）可以通過對郵件樣本的相關(guān)的統(tǒng)計信息來

計算得到。這些統(tǒng)計信息包括：用于訓(xùn)練的郵件樣本總數(shù)Ⅳ，垃

圾郵件總數(shù) ，正常的郵件總數(shù) ，特征詞在垃圾郵件中出

現(xiàn)的次數(shù)Ⅳ 和其在正常郵件中出現(xiàn)的次數(shù)Ⅳ

，

。

進行累積反

收稿日期：２００７—０３—０９。張學(xué)農(nóng)，博士，主研領(lǐng)域：知識工程與

應(yīng)用。

處理的郵件集合，表示正常郵件，ｓ表示垃圾郵件。

野風(fēng)車-四川粽子

本文發(fā)布于:2023-11-18 16:32:49，感謝您對本站的認可！

本文鏈接：http://www.newhan.cn/zhishi/a/1700296369219065.html

版權(quán)聲明：本站內(nèi)容均來自互聯(lián)網(wǎng)，僅供演示用，請勿用于商業(yè)和其他非法用途。如果侵犯了您的權(quán)益請與我們聯(lián)系，我們將在24小時內(nèi)刪除。

本文word下載地址：累積反饋學(xué)習(xí)的簡單貝葉斯垃圾郵件過濾.doc

本文 PDF 下載地址：累積反饋學(xué)習(xí)的簡單貝葉斯垃圾郵件過濾.pdf

上一篇：一種改進的貝葉斯郵件過濾算法

下一篇：返回列表

標(biāo)簽：反垃圾郵件

相關(guān)文章

2023-11-18電子郵箱大全
2023-11-18個人對可疑郵件的防止對策
2023-11-18一種改進的貝葉斯郵件過濾算法
2023-11-18梭子魚郵件安全整體解決方案
2023-11-18網(wǎng)易企業(yè)郵箱安全說明
2023-11-18郵件域名dns相關(guān)網(wǎng)絡(luò)知識
2023-11-18垃圾郵件的入侵與防范
2023-11-18來自于阿里巴巴
2023-11-18微軟exchange郵件系統(tǒng)方案
2023-11-18郵件退信解決方法

留言與評論（共有 0 條評論）