
垃圾郵件識別和過濾的方法
T大炮
北京理工大學計算機學院,北京 100081
(******************)
Methods for Identifying and Filtering Junk Mail or Spam
T Biggun
(Class 07111301,School of Computer Science, Beijing Institute of Technology, Beijing 100081)
Abstract Identifying and Filtering Spam is an important rearch subject in computer network. In this thesis, I have
studied the history of spam filtering technology, which mainly includes the first generation of rule-bad filtering
technology, the cond generation of content-bad filtering technology and the third generation of behavior-bad
filtering technology. 1. Rule-bad filtering includes IP address bad filtering, mail header bad filtering. 2. Content-
bad filtering includes Bayesian filtering, Memory-bad method, decision tree, Boosting method, Support Vector
Machine (SVM), etc. 3. Behavior-bad filtering includes Email data stream bad filtering, mail header bad filtering,
nder reputation bad filtering, mail fingerprint bad filtering, behavioral characteristics weighted bad filtering,
etc. The spammers’ common spurious methods are summarized. Through the reference to large amount of anti-spam
documents and data from home and broad, an analysis is made on existing anti-spam techniques and in particular the
content-bad spam filtering methods.
Key words spam filtering; rule; content; text categorization; Na?ve Bayes; behavior
摘要
垃圾郵件識別和過濾是計算機網(wǎng)絡(luò)領(lǐng)域的一個重要研究課題。垃圾郵件識別和過濾目前已經(jīng)發(fā)展出了三
代技術(shù),第一代過濾技術(shù)是基于規(guī)則的,例如:基于IP地址、基于郵件頭的過濾技術(shù)。第二代過濾技術(shù)是基
于內(nèi)容的,例如:貝葉斯分類算法、Memory-Bad方法、決策樹、Boosting方法、支持向量機等方法。第三
代過濾技術(shù)是基于行為的,例如:基于郵件數(shù)據(jù)流、基于郵件頭信息、基于發(fā)送方信譽、基于郵件指紋、基于
行為特征加權(quán)的決策樹等過濾方法。本文歸納總結(jié)了當前垃圾郵件發(fā)送者經(jīng)常采用的欺騙手段和方法,并參閱
國內(nèi)外大量反垃圾郵件文獻和數(shù)據(jù),對已有的垃圾郵件技術(shù)作出分析和總結(jié),尤其是對基于內(nèi)容的垃圾郵件過
濾方法進行了研究。
關(guān)鍵詞
垃圾郵件過濾;規(guī)則;內(nèi)容;文本分類;簡單貝葉斯;行為
隨著互聯(lián)網(wǎng)的發(fā)展,垃圾郵件常常讓人頭痛不已,最新報告稱美國為垃圾郵件第一大國,中國排名第三(圖
1)[1]。垃圾郵件問題如今已經(jīng)成為一個社會熱點,近些年來,研究人員們提出了很多垃圾郵件識別和過濾的
方法。這些方法的發(fā)展經(jīng)歷了三代,第一代過濾技術(shù)是基于規(guī)則的,例如:基于IP地址、基于郵件頭的過濾
技術(shù)。第二代過濾技術(shù)是基于內(nèi)容的,例如:貝葉斯分類算法、Memory-Bad方法、決策樹、Boosting方法、
支持向量機等方法。第三代過濾技術(shù)是基于行為的,例如:基于郵件數(shù)據(jù)流、基于郵件頭信息、基于發(fā)送方信
譽、基于郵件指紋、基于行為特征加權(quán)的決策樹等過濾方法。本文歸納總結(jié)了當前垃圾郵件發(fā)送者經(jīng)常采用的
欺騙手段和方法,并參閱國內(nèi)外大量反垃圾郵件文獻和數(shù)據(jù),對已有的垃圾郵件技術(shù)作出分析和總結(jié),尤其是
對基于內(nèi)容的垃圾郵件過濾方法進行了研究。
1
圖 1 世界垃圾郵件最多國家排名
Fig.1 Country Ranking on Spam
1 基于規(guī)則的垃圾郵件過濾
1.1 基于IP地址的垃圾郵件過濾方法
基于IP地址的過濾技術(shù)是目前使用最為廣泛的一種過濾技術(shù),包括基于網(wǎng)絡(luò)的IP地址過濾技術(shù),如BGP
和路由器訪問控制列表;基于主機的IP地址過濾技術(shù),如TCP Wrappers和主機路由表的過濾;以及目前最常
用的IP地址黑、白名單的過濾[2]。
黑白名單技術(shù)基于這樣的界定:白名單中的任何郵件都是合法郵件,而黑名單中的任何郵件都是垃圾郵件。
故通常會收集一個黑白名單的列表,這個列表里的內(nèi)容可以是電子郵件地址或郵件服務(wù)器的域名、IP地址等,
收到郵件時進行實時檢查,將符合黑名單的郵件放入垃圾文件夾中。黑白名單一般由權(quán)威的組織提供,如中國
互聯(lián)網(wǎng)協(xié)會等。個人也可以根據(jù)需要調(diào)整自己的黑白名單。
基于IP地址的過濾技術(shù)實現(xiàn)起來簡單方便,可以應(yīng)用與多個層次。但是缺點是可能會傷及無辜,因為有
一些垃圾郵件是通過別人的服務(wù)器來轉(zhuǎn)發(fā)的,這樣就會將別人無辜的服務(wù)器給屏蔽掉。所以,黑白名單具有一
定的局限性。
1.2 基于郵件頭的垃圾郵件過濾方法
基于郵件頭的過濾技術(shù)主要是使用正則表達式對郵件頭進行關(guān)鍵字的匹配,檢查發(fā)件人的信息是否符合
過濾要求,根據(jù)匹配結(jié)果決定阻塞或者接收具有特定單詞或短語的郵件。注意理解以下幾點有助于識別含有偽
造內(nèi)容的信頭。
(1)收件人地址和發(fā)件人地址
一般的MUA是從用戶在SMTP的DATA命令后輸入的數(shù)據(jù)中提取From、To等字段的內(nèi)容的,但是如果
發(fā)件人的MUA不是按照這個邏輯工作,或者發(fā)件人故意讓這兩個字段的內(nèi)容與SMTP會話時使用的MAIL
FROM和RCPT TO的內(nèi)容不一致時,就會發(fā)生發(fā)件人是自己的名字或者收件人不是自己的名字等情況。
(2)關(guān)于Open Relay
如果發(fā)件人使用的不是自己的服務(wù)器,而是使用別人的服務(wù)器的Open Relay的漏洞,這樣就會給追蹤?quán)]
件的真實來源帶來困難。如果一個郵件服務(wù)器和發(fā)件人、收件人都不屬于同一個域,就應(yīng)該懷疑是否使用了
Open Relay。
(3)Received信息
郵件頭中的Received信息是由SMTP服務(wù)器自動加入的,發(fā)送者無法干預(yù),因此,通過比較Received域,
特別是第一次經(jīng)過的郵件服務(wù)器的Received域,可以識別出偽造的發(fā)件人地址。
2
但是,規(guī)則匹配的方法也有不妥之處,其缺點是規(guī)則是人工指定的,需要花費時間和精力去收集信息,更
新信息,這無疑是一項持久繁瑣的工作。
2 基于內(nèi)容的垃圾郵件過濾
由于上述基于規(guī)則的過濾方法的缺陷,故發(fā)展出一套新的方法:基于內(nèi)容的垃圾郵件過濾方法。對電子郵
件的內(nèi)容(如正文)進行分析,識別出垃圾郵件。這就將垃圾郵件過濾和文本分類和信息過濾聯(lián)系起來了,將
文本分類和信息過濾中常用的方法引入垃圾郵件過濾任務(wù)中。這種內(nèi)容過濾技術(shù)提供了更為準確的郵件過濾
方法,可以自動獲取垃圾郵件的特征,并即時捕捉到垃圾郵件特征的變化[3]。
2.1 垃圾郵件過濾與文本分類
文本分類的首要任務(wù)是根據(jù)預(yù)先確定好的類別體系,將待分類文本分到對應(yīng)的類別中去,具體來說,就是
將郵件分為合法郵件和垃圾郵件。我們可以將電子郵件經(jīng)過處理獲取其正文的文本內(nèi)容,利用文本分類的算法
識別垃圾郵件。但是垃圾郵件分類與一般的文本分類也有很多不同之處。主要有:
(1)對文本分類,每個類別的內(nèi)容一般不會經(jīng)常改變。比如說,一個文本屬于科技類,將來也還會屬于
科技類。而垃圾郵件的類別是跟用戶的個性化需求相關(guān)的,用戶對于垃圾郵件的判別可能會隨著時間的推移而
改變的。同時,垃圾郵件的形式和內(nèi)容也在不斷地變化,因此垃圾郵件過濾中要向用戶提供自學習、反饋的機
制,以便適應(yīng)新情況。
(2)無論對于郵件服務(wù)器還是對用戶客戶端,垃圾郵件過濾對時效性的要求比較高,因此要求必須采用
高效的分類算法。
(3)在垃圾郵件過濾中我們最不愿看到的就是將合法郵件誤判為垃圾郵件,這就要求過濾算法具有較高
的準確率。
2.2 垃圾郵件過濾與信息過濾
信息過濾(Information Filtering)是從動態(tài)的信息流中找出與用戶興趣需求相關(guān)的信息的過程[4]。以文本
過濾為例,將新到達的文檔與用戶的興趣相匹配,把系統(tǒng)認為與用戶相關(guān)的文檔推送給用戶,用戶給予反饋,
說明被推送的文檔中有哪些是他感興趣的,哪些是不感興趣的。系統(tǒng)從反饋中自動更新用戶的興趣。文本分類
可以看做是一個反饋學習的二值分類問題。信息過濾系統(tǒng)的一般組成為圖2所示。
學習模塊用戶信息源
反饋
與用戶興趣
相關(guān)的信息
用戶興趣
用戶興趣建模過濾模塊預(yù)處理
圖 2 信息過濾系統(tǒng)
Fig.2 Information filtering System
可以認為垃圾郵件內(nèi)容過濾是這樣的一個信息過濾問題:初始時,提供一定的垃圾郵件和非垃圾郵件給過
濾系統(tǒng)學習,得到過濾模型;過濾的信息源是動態(tài)的郵件流;用戶可以指定自己的垃圾郵件集和非垃圾郵件,
供系統(tǒng)反饋學習,建立新的過濾模型。
2.3 文本分類簡介
文本分類的任務(wù)是:在給定的類別體系下,根據(jù)文本的內(nèi)容,將其自動映射到指定的類別中去。類別體系
一般由人工按照應(yīng)用需求構(gòu)造。基于內(nèi)容的文本分類需要指導,即一定數(shù)量的已分類好的訓練文本或者實例,
分類系統(tǒng)從訓練文本中獲取必要的信息,構(gòu)造分類器。因此文本分類一般都由訓練過程和分類過程兩階段構(gòu)成
(圖 3)。文本分類技術(shù)的應(yīng)用很廣泛,如新聞網(wǎng)頁的分類、電子圖書的分類等等。
3
訓練文本待分類文本
文本預(yù)處理文本預(yù)處理
特征選擇分類和輸出
特征集合
構(gòu)造分類器
分類器
訓練過程
分類過程
圖 3 文本分類器的一般模型
Fig.3 Model of Text Categorization
在文本處理領(lǐng)域,通常采用向量空間模型(VSM,Vector Space Model)表示文本,一篇文本可以表示為一
個維文本向量(
本文發(fā)布于:2023-11-18 17:20:33,感謝您對本站的認可!
本文鏈接:http://www.newhan.cn/zhishi/a/170029923332369.html
版權(quán)聲明:本站內(nèi)容均來自互聯(lián)網(wǎng),僅供演示用,請勿用于商業(yè)和其他非法用途。如果侵犯了您的權(quán)益請與我們聯(lián)系,我們將在24小時內(nèi)刪除。
本文word下載地址:垃圾郵件的識別和過濾方法.doc
本文 PDF 下載地址:垃圾郵件的識別和過濾方法.pdf
| 留言與評論(共有 0 條評論) |