
維普資訊
■
酗 網(wǎng)絡(luò)安全
智能過(guò)濾垃圾郵件
■ /王鑫孫東紅 (5)用戶反饋信息收集模塊,該模塊負(fù)責(zé)收集郵件用戶對(duì)判
交互式中文垃圾郵件過(guò)濾系統(tǒng)是基于“統(tǒng)計(jì)”規(guī)則的過(guò)濾方 定正確性的反饋信息,并將反饋信息保存在用戶反饋信息數(shù)據(jù)庫(kù)
法設(shè)計(jì)并實(shí)現(xiàn)的,它兼具基于規(guī)則過(guò)濾方法與機(jī)器學(xué)習(xí),以及概 中,供用戶反饋信息學(xué)習(xí)模塊使用。
率統(tǒng)計(jì)過(guò)濾方法的垃圾郵件過(guò)濾系統(tǒng)的優(yōu)點(diǎn),同時(shí)還增加了郵件 (6)用戶反饋信息學(xué)習(xí)模塊。該模塊根據(jù)用戶反饋信息動(dòng)態(tài)
用戶與垃圾郵件過(guò)濾器之間的交互,利用用戶對(duì)郵件判定是否正 調(diào)整規(guī)則集中引起錯(cuò)判的過(guò)濾規(guī)則的權(quán)重,從而提高垃圾郵件過(guò)
確的反饋信息動(dòng)態(tài)調(diào)整過(guò)濾器,從而提高過(guò)濾準(zhǔn)確度。 濾器的準(zhǔn)確度,同時(shí)還能提高規(guī)則更新的速度。
系統(tǒng)框架 系統(tǒng)實(shí)現(xiàn)
整個(gè)交互式中文垃圾郵件過(guò)濾系統(tǒng)的結(jié)構(gòu)如圖l所示。 現(xiàn)對(duì)交互式中文垃圾郵件過(guò)濾系統(tǒng)幾個(gè)重要模塊的具體實(shí)現(xiàn)
(1)CCERT垃圾郵件樣本數(shù)據(jù)庫(kù)。我們將來(lái)自CCERT垃圾 描述如下。
郵件蜜罐網(wǎng)、用戶舉報(bào)以及CCERT應(yīng)急響應(yīng)系統(tǒng)接收和處理的 (1)規(guī)則生成模塊。CCERT垃圾郵件過(guò)濾規(guī)則主要針對(duì)中
垃圾郵件,經(jīng)過(guò)分析整理后創(chuàng)建了CCERT垃圾郵件樣本集合。 文垃圾郵件的標(biāo)題和內(nèi)容部分。以20萬(wàn)封中文垃圾郵件樣本作為
(2)規(guī)則生成模塊。該模塊主要通過(guò)分析垃圾郵件樣本數(shù)據(jù) 樣本集,生成中文關(guān)鍵字過(guò)濾規(guī)則。采取的主要手段是用分詞工
創(chuàng)建垃圾郵件過(guò)濾規(guī)則,所有過(guò)濾規(guī)則保存在規(guī)則集中并應(yīng)用到 具對(duì)郵件樣本的Subject部分lI]Body部分分別進(jìn)行分詞,然后各
郵件服務(wù)器的垃圾郵件過(guò)濾引擎中。 自統(tǒng)計(jì)詞頻,將詞頻最高的一組關(guān)鍵字提取出來(lái),分別生成針對(duì)
(3)規(guī)則權(quán)重訓(xùn)練模塊。該模塊負(fù)責(zé)用機(jī)器學(xué)習(xí)的方法給規(guī) Subject部分和Body部分的關(guān)鍵字過(guò)濾規(guī)則。這里將Body部分
則集中的所有規(guī)則找到最佳的規(guī)則權(quán)重分布。規(guī)則集中的每一條 和Subject部分分開(kāi)分析,主要是為了在郵件服務(wù)器負(fù)載較大時(shí)
規(guī)則都有一個(gè)權(quán)重,權(quán)重越大,說(shuō)明符合這條規(guī)則的郵件是垃圾 可以只啟用Subject部分的過(guò)濾規(guī)則,避免掃描郵件內(nèi)容來(lái)提高
郵件的可能性越大。 處理速度。
(4)垃圾郵件過(guò)濾引擎。該過(guò)濾器包含了所有過(guò)濾規(guī)則以及 (2)規(guī)則權(quán)重訓(xùn)練模塊。用改進(jìn)遺傳算法對(duì)規(guī)則生成模塊生
規(guī)則的權(quán)重,當(dāng)郵件服務(wù)器收到郵件時(shí),它就會(huì)對(duì)郵件應(yīng)用所有 成的中文過(guò)濾規(guī)則進(jìn)行權(quán)重訓(xùn)練,尋找CCERT垃圾郵件過(guò)濾規(guī)
規(guī)則,給郵件“打分”,根據(jù)所有規(guī)則來(lái)判定是否為垃圾郵件。被 則集中過(guò)濾規(guī)則的最優(yōu)權(quán)重分布。用改進(jìn)遺傳算法尋找規(guī)則權(quán)重
判定為Spam的郵件并不會(huì)被郵件服務(wù)器丟棄,而是在郵件標(biāo)題 的最優(yōu)分布時(shí),種群中的每個(gè)染色體向量代表一組可能的規(guī)則權(quán)
前打上Spam標(biāo)簽,這樣郵件用戶就可以利用客戶端軟件將其直 重分布,向量的維數(shù)等于CCERT垃圾郵件過(guò)濾規(guī)則集中的規(guī)則
接“掃除”到垃圾郵件夾。 總數(shù),每一維代表一條規(guī)則,每一維的值表示相應(yīng)規(guī)則的權(quán)重。算
i垃圾郵件拳報(bào) CcERT垃 始化時(shí)采用小群體競(jìng)爭(zhēng)法,交叉
圾郵件樣 郵件服務(wù)囂 IIIll ̄-W尸一
.
OcE盯垃圾郵件 本數(shù)據(jù)庫(kù) 算子采用優(yōu)選父代自適應(yīng)交叉
童■系統(tǒng) 操作
,
變異算子采取非一致自適
】 E則生成模塊 盤(pán)圾郵件過(guò)濾5 I 曲
5 基 應(yīng)變異操作,在產(chǎn)生子代群體
時(shí),允許父代群體一起參與競(jìng)
爭(zhēng),同時(shí)采用最優(yōu)保留策略和兩
CCERT垃塒 ,口r’Ⅸ●^1■月 兩競(jìng)爭(zhēng)選擇策略。在選擇適應(yīng)度
郵件過(guò)濾 規(guī)則權(quán)重訓(xùn)練模塊 數(shù)據(jù)庫(kù) 息收囊奠塊
規(guī)則簟 函數(shù)時(shí),按照可能的規(guī)則權(quán)重分
廣_: L +括 . 】級(jí), — ^h丁,堅(jiān)^
54中國(guó)教育同絡(luò)2oo6 4

本文發(fā)布于:2023-11-18 17:35:58,感謝您對(duì)本站的認(rèn)可!
本文鏈接:http://www.newhan.cn/zhishi/a/1700300158219111.html
版權(quán)聲明:本站內(nèi)容均來(lái)自互聯(lián)網(wǎng),僅供演示用,請(qǐng)勿用于商業(yè)和其他非法用途。如果侵犯了您的權(quán)益請(qǐng)與我們聯(lián)系,我們將在24小時(shí)內(nèi)刪除。
本文word下載地址:智能過(guò)濾垃圾郵件.doc
本文 PDF 下載地址:智能過(guò)濾垃圾郵件.pdf
| 留言與評(píng)論(共有 0 條評(píng)論) |