• <em id="6vhwh"><rt id="6vhwh"></rt></em>

    <style id="6vhwh"></style>

    <style id="6vhwh"></style>
    1. <style id="6vhwh"></style>
        <sub id="6vhwh"><p id="6vhwh"></p></sub>
        <p id="6vhwh"></p>
          1. 国产亚洲欧洲av综合一区二区三区 ,色爱综合另类图片av,亚洲av免费成人在线,久久热在线视频精品视频,成在人线av无码免费,国产精品一区二区久久毛片,亚洲精品成人片在线观看精品字幕 ,久久亚洲精品成人av秋霞

            垃圾郵件的識別和過濾方法

            更新時間:2023-11-18 17:20:33 閱讀: 評論:0

            活出自己的精彩-小人物大作為

            垃圾郵件的識別和過濾方法
            2023年11月18日發(fā)(作者:可愛的女人)

            垃圾郵件識別和過濾的方法

            T大炮

            北京理工大學計算機學院,北京 100081

            (******************)

            Methods for Identifying and Filtering Junk Mail or Spam

            T Biggun

            (Class 07111301,School of Computer Science, Beijing Institute of Technology, Beijing 100081)

            Abstract Identifying and Filtering Spam is an important rearch subject in computer network. In this thesis, I have

            studied the history of spam filtering technology, which mainly includes the first generation of rule-bad filtering

            technology, the cond generation of content-bad filtering technology and the third generation of behavior-bad

            filtering technology. 1. Rule-bad filtering includes IP address bad filtering, mail header bad filtering. 2. Content-

            bad filtering includes Bayesian filtering, Memory-bad method, decision tree, Boosting method, Support Vector

            Machine (SVM), etc. 3. Behavior-bad filtering includes Email data stream bad filtering, mail header bad filtering,

            nder reputation bad filtering, mail fingerprint bad filtering, behavioral characteristics weighted bad filtering,

            etc. The spammers’ common spurious methods are summarized. Through the reference to large amount of anti-spam

            documents and data from home and broad, an analysis is made on existing anti-spam techniques and in particular the

            content-bad spam filtering methods.

            Key words spam filtering; rule; content; text categorization; Na?ve Bayes; behavior

            摘要

            垃圾郵件識別和過濾是計算機網(wǎng)絡(luò)領(lǐng)域的一個重要研究課題。垃圾郵件識別和過濾目前已經(jīng)發(fā)展出了三

            代技術(shù),第一代過濾技術(shù)是基于規(guī)則的,例如:基于IP地址、基于郵件頭的過濾技術(shù)。第二代過濾技術(shù)是基

            于內(nèi)容的,例如:貝葉斯分類算法、Memory-Bad方法、決策樹、Boosting方法、支持向量機等方法。第三

            代過濾技術(shù)是基于行為的,例如:基于郵件數(shù)據(jù)流、基于郵件頭信息、基于發(fā)送方信譽、基于郵件指紋、基于

            行為特征加權(quán)的決策樹等過濾方法。本文歸納總結(jié)了當前垃圾郵件發(fā)送者經(jīng)常采用的欺騙手段和方法,并參閱

            國內(nèi)外大量反垃圾郵件文獻和數(shù)據(jù),對已有的垃圾郵件技術(shù)作出分析和總結(jié),尤其是對基于內(nèi)容的垃圾郵件過

            濾方法進行了研究。

            關(guān)鍵詞

            垃圾郵件過濾;規(guī)則;內(nèi)容;文本分類;簡單貝葉斯;行為

            隨著互聯(lián)網(wǎng)的發(fā)展,垃圾郵件常常讓人頭痛不已,最新報告稱美國為垃圾郵件第一大國,中國排名第三(圖

            1[1]。垃圾郵件問題如今已經(jīng)成為一個社會熱點,近些年來,研究人員們提出了很多垃圾郵件識別和過濾的

            方法。這些方法的發(fā)展經(jīng)歷了三代,第一代過濾技術(shù)是基于規(guī)則的,例如:基于IP地址、基于郵件頭的過濾

            技術(shù)。第二代過濾技術(shù)是基于內(nèi)容的,例如:貝葉斯分類算法、Memory-Bad方法、決策樹、Boosting方法、

            支持向量機等方法。第三代過濾技術(shù)是基于行為的,例如:基于郵件數(shù)據(jù)流、基于郵件頭信息、基于發(fā)送方信

            譽、基于郵件指紋、基于行為特征加權(quán)的決策樹等過濾方法。本文歸納總結(jié)了當前垃圾郵件發(fā)送者經(jīng)常采用的

            欺騙手段和方法,并參閱國內(nèi)外大量反垃圾郵件文獻和數(shù)據(jù),對已有的垃圾郵件技術(shù)作出分析和總結(jié),尤其是

            對基于內(nèi)容的垃圾郵件過濾方法進行了研究。

            1

            1 世界垃圾郵件最多國家排名

            Fig.1 Country Ranking on Spam

            1 基于規(guī)則的垃圾郵件過濾

            1.1 基于IP地址的垃圾郵件過濾方法

            基于IP地址的過濾技術(shù)是目前使用最為廣泛的一種過濾技術(shù),包括基于網(wǎng)絡(luò)的IP地址過濾技術(shù),BGP

            和路由器訪問控制列表;基于主機的IP地址過濾技術(shù),如TCP Wrappers和主機路由表的過濾;以及目前最常

            用的IP地址黑、白名單的過濾[2]

            黑白名單技術(shù)基于這樣的界定:白名單中的任何郵件都是合法郵件,而黑名單中的任何郵件都是垃圾郵件。

            故通常會收集一個黑白名單的列表,這個列表里的內(nèi)容可以是電子郵件地址或郵件服務(wù)器的域名、IP地址等,

            收到郵件時進行實時檢查,將符合黑名單的郵件放入垃圾文件夾中。黑白名單一般由權(quán)威的組織提供,如中國

            互聯(lián)網(wǎng)協(xié)會等。個人也可以根據(jù)需要調(diào)整自己的黑白名單。

            基于IP地址的過濾技術(shù)實現(xiàn)起來簡單方便,可以應(yīng)用與多個層次。但是缺點是可能會傷及無辜,因為有

            一些垃圾郵件是通過別人的服務(wù)器來轉(zhuǎn)發(fā)的,這樣就會將別人無辜的服務(wù)器給屏蔽掉。所以,黑白名單具有一

            定的局限性。

            1.2 基于郵件頭的垃圾郵件過濾方法

            基于郵件頭的過濾技術(shù)主要是使用正則表達式對郵件頭進行關(guān)鍵字的匹配,檢查發(fā)件人的信息是否符合

            過濾要求,根據(jù)匹配結(jié)果決定阻塞或者接收具有特定單詞或短語的郵件。注意理解以下幾點有助于識別含有偽

            造內(nèi)容的信頭。

            1)收件人地址和發(fā)件人地址

            一般的MUA是從用戶在SMTPDATA命令后輸入的數(shù)據(jù)中提取FromTo等字段的內(nèi)容的,但是如果

            發(fā)件人的MUA不是按照這個邏輯工作,或者發(fā)件人故意讓這兩個字段的內(nèi)容與SMTP會話時使用的MAIL

            FROMRCPT TO的內(nèi)容不一致時,就會發(fā)生發(fā)件人是自己的名字或者收件人不是自己的名字等情況。

            2)關(guān)于Open Relay

            如果發(fā)件人使用的不是自己的服務(wù)器,而是使用別人的服務(wù)器的Open Relay的漏洞,這樣就會給追蹤?quán)]

            件的真實來源帶來困難。如果一個郵件服務(wù)器和發(fā)件人、收件人都不屬于同一個域,就應(yīng)該懷疑是否使用了

            Open Relay。

            3Received信息

            郵件頭中的Received信息是由SMTP服務(wù)器自動加入的,發(fā)送者無法干預(yù),因此,通過比較Received域,

            特別是第一次經(jīng)過的郵件服務(wù)器的Received域,可以識別出偽造的發(fā)件人地址。

            2

            但是,規(guī)則匹配的方法也有不妥之處,其缺點是規(guī)則是人工指定的,需要花費時間和精力去收集信息,

            新信息,這無疑是一項持久繁瑣的工作。

            2 基于內(nèi)容的垃圾郵件過濾

            由于上述基于規(guī)則的過濾方法的缺陷,故發(fā)展出一套新的方法:基于內(nèi)容的垃圾郵件過濾方法。對電子郵

            件的內(nèi)容(如正文)進行分析,識別出垃圾郵件。這就將垃圾郵件過濾和文本分類和信息過濾聯(lián)系起來了,將

            文本分類和信息過濾中常用的方法引入垃圾郵件過濾任務(wù)中。這種內(nèi)容過濾技術(shù)提供了更為準確的郵件過濾

            方法,可以自動獲取垃圾郵件的特征,并即時捕捉到垃圾郵件特征的變化[3]。

            2.1 垃圾郵件過濾與文本分類

            文本分類的首要任務(wù)是根據(jù)預(yù)先確定好的類別體系,將待分類文本分到對應(yīng)的類別中去,具體來說,就是

            將郵件分為合法郵件和垃圾郵件。我們可以將電子郵件經(jīng)過處理獲取其正文的文本內(nèi)容,利用文本分類的算法

            識別垃圾郵件。但是垃圾郵件分類與一般的文本分類也有很多不同之處。主要有:

            1)對文本分類,每個類別的內(nèi)容一般不會經(jīng)常改變。比如說,一個文本屬于科技類,將來也還會屬于

            科技類。而垃圾郵件的類別是跟用戶的個性化需求相關(guān)的,用戶對于垃圾郵件的判別可能會隨著時間的推移而

            改變的。同時,垃圾郵件的形式和內(nèi)容也在不斷地變化,因此垃圾郵件過濾中要向用戶提供自學習、反饋的機

            制,以便適應(yīng)新情況。

            2)無論對于郵件服務(wù)器還是對用戶客戶端,垃圾郵件過濾對時效性的要求比較高,因此要求必須采用

            高效的分類算法。

            3)在垃圾郵件過濾中我們最不愿看到的就是將合法郵件誤判為垃圾郵件,這就要求過濾算法具有較高

            的準確率。

            2.2 垃圾郵件過濾與信息過濾

            信息過濾(Information Filtering)是從動態(tài)的信息流中找出與用戶興趣需求相關(guān)的信息的過程[4]。以文本

            過濾為例,將新到達的文檔與用戶的興趣相匹配,把系統(tǒng)認為與用戶相關(guān)的文檔推送給用戶,用戶給予反饋,

            說明被推送的文檔中有哪些是他感興趣的,哪些是不感興趣的。系統(tǒng)從反饋中自動更新用戶的興趣。文本分類

            可以看做是一個反饋學習的二值分類問題。信息過濾系統(tǒng)的一般組成為圖2所示。

            學習模塊用戶信息源

            反饋

            與用戶興趣

            相關(guān)的信息

            用戶興趣

            用戶興趣建模過濾模塊預(yù)處理

            2 信息過濾系統(tǒng)

            Fig.2 Information filtering System

            可以認為垃圾郵件內(nèi)容過濾是這樣的一個信息過濾問題:初始時,提供一定的垃圾郵件和非垃圾郵件給過

            濾系統(tǒng)學習,得到過濾模型;過濾的信息源是動態(tài)的郵件流;用戶可以指定自己的垃圾郵件集和非垃圾郵件,

            供系統(tǒng)反饋學習,建立新的過濾模型。

            2.3 文本分類簡介

            文本分類的任務(wù)是:在給定的類別體系下,根據(jù)文本的內(nèi)容,將其自動映射到指定的類別中去。類別體系

            一般由人工按照應(yīng)用需求構(gòu)造。基于內(nèi)容的文本分類需要指導,即一定數(shù)量的已分類好的訓練文本或者實例,

            分類系統(tǒng)從訓練文本中獲取必要的信息,構(gòu)造分類器。因此文本分類一般都由訓練過程和分類過程兩階段構(gòu)成

            (圖 3。文本分類技術(shù)的應(yīng)用很廣泛,如新聞網(wǎng)頁的分類、電子圖書的分類等等。

            3

            訓練文本待分類文本

            文本預(yù)處理文本預(yù)處理

            特征選擇分類和輸出

            特征集合

            構(gòu)造分類器

            分類器

            訓練過程

            分類過程

            3 文本分類器的一般模型

            Fig.3 Model of Text Categorization

            在文本處理領(lǐng)域,通常采用向量空間模型VSM,Vector Space Model表示文本,一篇文本可以表示為一

            維文本向量(

            本文發(fā)布于:2023-11-18 17:20:33,感謝您對本站的認可!

            本文鏈接:http://www.newhan.cn/zhishi/a/170029923332369.html

            版權(quán)聲明:本站內(nèi)容均來自互聯(lián)網(wǎng),僅供演示用,請勿用于商業(yè)和其他非法用途。如果侵犯了您的權(quán)益請與我們聯(lián)系,我們將在24小時內(nèi)刪除。

            本文word下載地址:垃圾郵件的識別和過濾方法.doc

            本文 PDF 下載地址:垃圾郵件的識別和過濾方法.pdf

            下一篇:返回列表
            標簽:反垃圾郵件
            留言與評論(共有 0 條評論)
               
            驗證碼:
            推薦文章
            排行榜
            • 爆笑的笑話
              綠豆莢-三幫車視2023年3月16日發(fā)(作者:森林運動會)1幽默笑話大全爆笑經(jīng)典短信幽默笑話大全爆笑1、口誤傷不起呀:一次坐公交車,到某站臺時,司機突然問到:有人下車么,沒人我下啦!頓時車上笑做一團。2、聽說你工作瘋狂,難道是愛共產(chǎn)黨,領(lǐng)導大家人人夸,能明白多么恨你,可否癡心改一改。(請看每句第三個字。)3、工作是苦是累,我們積極面對,干好職屬分內(nèi),與同事友好相對,拿到工資問心無愧;花得自在,用得
            • 1171℃五兒孝母
            • 965℃幽默笑話段子
            • 960℃戀愛說說
            • 921℃陳大惠老師
            • 568℃銀行印鑒卡
            • 490℃湯姆索亞歷險記梗概
            • 453℃舉例子的作用
            • 442℃開心丁月五香天
            • 397℃聯(lián)想思維
            Copyright ?2019-2022 Comsenz Inc.Powered by ? 實用文體寫作網(wǎng)旗下知識大全大全欄目是一個全百科類寶庫! 優(yōu)秀范文|法律文書|專利查詢|
            主站蜘蛛池模板: 国产成人1024精品免费| 久久精品国产亚洲AV瑜伽| 久久久久国产精品人妻| 亚洲精品乱码久久久久久按摩高清| 国产免费高清69式视频在线观看| 五月天中文字幕mv在线| 蜜臀午夜一区二区在线播放 | 人妻久久久一区二区三区| 国产a在视频线精品视频下载| 亚洲 国产 制服 丝袜 一区| 羞羞影院午夜男女爽爽影视| 中文字幕有码高清日韩| 91精品国产91久久综合桃花 | 国产第一区二区三区精品| 国产三级精品片| 自偷自拍亚洲综合精品| 久久精品夜夜夜夜夜久久| 精品超清无码视频在线观看 | 国产91精品丝袜美腿在线| 欧美怡春院一区二区三区| 亚洲av影院一区二区三区四区| 国产首页一区二区不卡| 99热亚洲人色精品国产88| 91麻豆亚洲国产成人久久| 精品无码国产自产拍在线观看蜜| 精品国产欧美一区二区三区在线| 亚洲国产成人无码网站大全| 免费成人深夜福利一区| 亚洲精品久久久久久婷婷| 手机看片日本在线观看视频| 国产精品一区久久人人爽| 亚洲人成亚洲人成在线观看| 午夜福利日本一区二区无码| 国产成人AV一区二区三区无码| 国产18禁黄网站禁片免费视频| 日本怡春院一区二区三区| 午夜精品一区二区三区的区别| 香蕉EEWW99国产精选免费| 国产精品久久中文字幕第一页| 亚洲香蕉网久久综合影视| 久久精品道一区二区三区|