首頁 > 工作總結

中文垃圾郵件過濾綜合方法

更新時間:2023-11-18 17:36:22 閱讀：評論：0

冬天來了-正能量激勵人的短句子

2023年11月18日發(作者：渴望長大)

第２８卷第８期

２０１１年８月

計算機應用與軟件

ＣｏｍｐｕｔｅｒＡｐｐｌｉｃａｔｉｏｎｓａｎｄＳｏｆｔｗａｒｅ

Ｖ０ｌ＿２８Ｎｏ．８

Ａｕｇ．２０１１

中文垃圾郵件過濾綜合方法

李玉峰郜曉晶

（內蒙古農業大學計算機與信息工程學院內蒙古呼和浩特０１００１８）

摘要隨著電子郵件在人們生活中的廣泛應用，垃圾郵件的危害也日益引起人們的重視。目前，已經有一些過濾系統在英文環

境中取得了較好的過濾效果，但在中文環境中，過濾效果不夠理想。針對中文垃圾郵件，提出一種將基于ＩＰ的白名單過濾、基于規則

的ＳｐａｍＡｓｓａｓｓｉｎ過濾、基于統計的貝葉斯過濾結合在一起的垃圾郵件綜合過濾方法，并在Ｌｉｎｕｘ下的實驗中取得良好的過濾效果。

關鍵詞垃圾郵件過濾貝葉斯分類ＳｐａｍＡｓｓａｓｓｉｎ

中圖分類號ＴＰ３１７．２文獻標識碼Ａ

ＣｏＭＰＲＥＨＥＮＳＩＶＥＡＰＰＲｏＡＣＨＦｏＲＣＨＩＮＥＳＥＳＰＡＭＥＭＡＩＬＦＩＬＴＥＲＩＮＧ

ＬｉＹｕｆｅｎｇＧａｏＸｉａｏｊｉｎｇ

（ＣｏｌｌｅｇｅｏｆＣｏｍｐｕｔｅｒａｎｄＩｎｆｏｒｍａｔｉｏｎＥｎｇｉｎｅｅｒｉｎｇ，ＩｎｎｅｒＭｏｎｇｏｌｉａＡｇｒｉｃｕｌｔｕｒａｌＵｎｉｖｅｒｓｉｔｙ，Ｈｏｈｈｏｔ０１００１８，ＩｎｎｅｒＭｏｎｇｏｌｉａ，Ｃｈｉｎａ）

ＡｂｓｔｒａｃｔＷｉｔｈｔｈｅｗｉｄｅａｐｐｌｉｃａｔｉｏｎｏｆＥ—ｍａｉｌｉｎｐｅｏｐｌｅ’Ｓｄａｉｌｙｌｉｆｅ，ｔｈｅｈａｒｍｉｎｃｕｒｒｅｄｂｙｔｈｅｓｐａｍａｔｔｒａｃｔｓｉｎｃｒｅａｓｉｎｇａｔｔｅｎｔｉｏｎｓ．Ａｔ

ｐｒｅｓｅｎｔ，ｓｏｍｅｆｉｌｔｅｒｉｎｇｓｙｓｔｅｍｓｈａｖｅｇｏｔｓａｔｉｓｆｉｅｄｆｉｌｔｅｒｉｎｇｅｆｆｅｃｔｉｎＥｎｇｌｉｓｈｃｉｒｃｕｍｓｔａｎｃｅｓ．ＨｏｗｅｖｅｒｉｎＣｈｉｎｅｓｅｃｉｒｃｕｍｓｔａｎｃｅｓ，ｔｈｅｆｉｌｔｅｒｉｎｇ

ｅｆｆｅｃｔｉｓｓｔｉｌｌｎｏｔｉｄｅａｌｙｅｔ．ＦｏｒｔｈｅＣｈｉｎｅｓｅｓｐａｍ，ｔｈｉｓｐａｐｅｒｐｒｏｐｏｓｅｓａｃｏｍｐｒｅｈｅｎｓｉｖｅｓｐａｍｆｉｌｔｅｒｉｎｇｍｅｔｈｏｄｗｈｉｃｈｃｏｍｂｉｎｅｓｔｈｅＩＰ—ｂａｓｅｄ

ｗｈｉｔｅｌｉｓｔｆｉｌｔｅｒｉｎｇ，ｔｈｅｐｒｉｎｃｉｐｌｅ—ｂａｓｅｄＳｐａｍＡｓｓａｓｓｉｎｆｉｌｔｅｒｉｎｇａｎｄｔｈｅｓｔａｔｉｓｔｉｃ－ｂａｓｅｄＢａｙｅｓｉａｎ—ｆｉｌｔｅｒｉｎｇｔｏｇｅｔｈｅｒ，ａｎｄｉｔａｃｈｉｅｖｅｓｐｅｒｆｅｃｔ

ｉｆｌｔｅｒｉｎｇｅｆｆｅｃｔｉｎｔｈｅｅｘｐｅｒｉｍｅｎｔｉｎＬｉｎｕｘｓｙｓｔｅｍ．

ＫｅｙｗｏｒｄｓＳｐａｍｆｉｌｔｅｒｉｎｇＢａｙｅｓｉａｎ－ｃｌａｓｓｉｉｆｃａｔｉｏｎＳｐａｍＡｓｓａｓｓｉｎ

在基于規則的垃圾郵件過濾技術方面，ＳｐａｍＡｓｓａｓｓｉｎ處于

０引言

遙遙領先的地位Ｊ，己經被ＲｅｄＨａｔ公司ＯＥＭ到ＲｅｄＨａｔＬｉｎｕｘ

的標準安裝組件里。另外，ＳｐｍａＡｓｓａｓｓｉｎ可成為完全獨立的平

隨著Ｉｎｔｅｒｎｅｔ應用在全球的快速普及，電子郵件已經成為人

臺，當被最終用戶或系統管理員調用時，可以方便地與Ｐｒｏｃ－

們日常生活中通信、交流的重要手段之一。然而，垃圾郵件的濫

ｍａｉｌ、Ｓｅｎｄｍａｉｌ或Ｑｍａｉｌ以及其它ＭＴＡ一起使用，為單一用戶甚

發，不僅浪費了大量的網絡資源，而且給整個社會帶來很大危

至整個站點過濾垃圾郵件。其次，它允許用戶自定義規則和修

害。其中中文垃圾郵件占很大比重。

改規則權值。研究表明，經過合適的參數調整，ＳｐｍａＡｓｓａｓｓｉｎ可

目前，隨著垃圾郵件過濾技術的不斷發展，已經有一些垃圾

以過濾９０％的垃圾郵件。

郵件過濾系統在英文環境中取得了較好的過濾效果，但在中文

盡管ＳｐａｍＡｓｓａｓｓｉｎ在設計的時候考慮了多種語言的兼容

環境中，過濾效果均不夠理想，不能滿足用戶的要求。本文對幾

性，但目前廣泛應用的都是比較適合英文用戶的版本，其中絕大

種常用的過濾算法進行了研究，分析了它們在中文環境中存在

部分是英文過濾規則，中文用戶使用前需要對其進行較大的調

的問題，根據各算法的優缺點，提出了一種中文環境中的垃圾郵

整，要使中文垃圾郵件過濾更有效，還需要添加中文過濾規則，

件綜合過濾方法，首先通過白名單過濾，將在白名單中的正常郵

件直接接收，然后通過基于規則的方法過濾，保證誤判率為０，

并經常更新。

常用的基于概率統計的分類方法中，貝葉斯作為一種經

最后通過基于統計的方法過濾，盡量提高查全率，并在Ｌｉｎｕｘ下

典的概率統計算法，在垃圾郵件過濾方面得到了廣泛的應用。

完成實驗，取得了良好的過濾效果。

貝葉斯過濾器與以前收到的垃圾郵件和合法郵件中相同詞語及

短語出現的概率對比來確定垃圾郵件的可能性。貝葉斯過濾器

１垃圾郵件過濾技術

功能強大，但它僅在英文郵件環境中得到實現。文獻［５］描述

了一些對簡單貝葉斯方法的一些可能改進，得到了９９．７５％的垃

目前，垃圾郵件過濾技術主要集中在基于郵件地址、標題和

圾郵件過濾準確率。中文郵件與英文郵件存在較大的差異，首

內容進行過濾。從實際應用分析，郵件內容是郵件的主要信息

先是中文分詞和特征選取具有更大難度，英文是用空格簡單地

載體，因此對郵件內容進行過濾被認為是目前最有效的過濾方

法。基于內容的郵件過濾方法主要分為基于規則匹配和基于概

收稿日期：２０１０—０５—１５。李玉峰，講師，主研領域：計算機網絡，網

率統計兩類。

絡安全，多媒體技術。

２２０計算機應用與軟件２０ｌ１年

分詞，而中文的詞與詞之間沒有直接的分詞符號，通常是通過人

的理解來劃分的，而中文語義理解還處于研究初期。這些差異

Ａｓｓａｓｓｉｎ規則庫，保證他們的及時更新。將用戶發送的郵件提

取內容作為特征詞庫的學習資料，提取收件方地址作為白名單

對于步驟（２）和步驟（３）提到的基于ＳｐａｍＡｓｓａｓｓｉｎ過濾昕

使得直接將該貝葉斯算法的過濾器應用于中文環境顯然是不合

理的。目前還沒有基于該算法的過濾工具被很好地設計實現需的規則庫，以及基于貝葉斯過濾所需的特征詞庫，需要經過

來．．

２所示步驟生成。

２綜合過濾方法

由于基于規則過濾的工具如ＳｐａｍＡｓｓａｓｓｉｎ和基于統計的過

濾方法，如貝葉斯過濾器在垃圾郵件過濾方面已經達到了比較

高的準確率，但都是在英文垃圾郵件過濾中取得較好的效

果。相對來說，基于規則匹配的過濾方法檢測垃圾郵件的準確

率高，不能檢測新的垃圾郵件，即漏檢率高。而基于概率統計的

過濾方法檢測垃圾郵件的準確率相對不高，但能檢測新的垃圾

郵件，即漏檢率低。鑒于以上分析，兩種方法各有優缺點，為了

加強過濾效果，本文運用基于規則方法和基于統計方法相結合

的過濾方案，首先通過白名單過濾，將正常郵件直接接收，然后

通過基于規則方法的ＳｐａｍＡｓｓａｓｓｉｎ過濾，保證誤判率為０，最后

通過基于統計方法的貝葉斯過濾器過濾，盡量提高查全率。過

濾流程如圖１所示。

圖１中文垃圾郵件過濾流程圖

（１）對于一封新到達的郵件，系統首先查看郵件的發送方

地址，如果在白名單中，則直接送到用戶郵箱，否則進入基于規

則的ＳｐａｍＡｓｓａｓｓｉｎ過濾。

（２）基于規則的ＳｐａｍＡｓｓａｓｓｉｎ過濾要求達到零誤報率。根

據實際情況調整規則的分值，通過訓練集生成規則庫添加中文

規則，并定期更新Ｃｈｉｎｅｓｅ—ｒｕｌｅｓ．ｃｆ中文規則。經過ＳｐａｍＡｓｓａｓ－．

ｓｉｎ過濾判別為垃圾郵件的直接進入Ｓｐａｒｅ集。

（３）通過規則過濾的郵件經過中文分詞、特征選取，進入貝

葉斯過濾器過濾，貝葉斯算法以特征詞庫為基礎，對這封郵件的

全文進行查看和計算后做出判斷。判別為垃圾郵件的進入

Ｓｐａｒｅ集，對于處于判別邊界值的郵件放人疑似集，提交給用戶

處理ｊ

（４）將過濾后的正常郵件提交用戶閱讀。并將Ｓｐａｍ集打

包給用戶審閱．

（５）將過濾產生的Ｓｐａｍ集和Ｈａｍ集以及用戶的手動反饋ｆａｎｇ．ｅｆ文件中添加ｗｈｉｔｅｌｉｓｔ—ｆｒｏｍ＠ｃｃｅｒｔ．ｅｄｕ．ｃｎ，會使所有來

信息，交由貝葉斯過濾的特征詞庫進行再學習，并更新Ｓｐａｍ．自ｃｃｅｒｔ．ｅｄｕ．ｃｎ的郵件被視為正常郵件。根據文獻［１０］通過實

圖２生成ＳｐａｍＡｓｓａｓｓｉｎ中文規則和貝葉斯特征詞厙過程

本文采用Ｊａｖａ語言編程實現郵件解碼，采用Ｊａｖａｍａｉｌ實

郵件元素的分離。關于特征選取部分，采用中國科學院計算技

術研究所提供的漢語詞法分析系統ＩＣＴＣＬＡＳ（ＩｎｓｔｉｔｕｔｅｏｆＣｏｒｎ—

ｐｕｔｉｎｇＴｅｃｈｎｏｌｏｇｙ，ＣｈｉｎｅｓｅＬｅｘｉｃａｌＡｎａ１），ｓｉｓＳｙｓｔｅｍ）實現咔ｌ文分

詞，該系統的分詞正確率高達９７．５８％特征選取辦法采川

ＤＦＲ，文獻［８］實驗結果表明，在英文文本分類中表現良好的特

征抽取方法（ＩＧ、ＭＩ和ＣＨＩ），但是在中文文本分類實驗中的表

現遠遠不及ＤＦ，并分析了原因．．文獻［９］針對ＤＦ依賴高頻ｉ百Ｊ

的缺點，ＭＩ對低頻詞依賴等特點，對ＤＦ進行了改進，用新函數

ＤＦＲ（ＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙＲａｔｉｏ）文本頻率比值進行特征選取，

實驗顯示，ＤＦＲ比ＤＦ具有更好的特征選擇效果，而且保留了原

公式簡單高效的優點。

計算權值并生成特征詞庫和ＳｐａｍＡｓｓａｓｓｉＯ中文規則分為以

下幾步完成：

（１）將垃圾郵件集和正常郵件集經過郵件解碼、元素分離、

中文分詞后，得到垃圾郵件集對應的ｓｕｂｊｅｃｔ—ｂａｄ，ｂｏｄｙ—ｂａｄ表，

正常郵件集對應的ｓｕｂｊｅｃｔ一＿ｇｏｏｄ和ｂｏｄｙ—ｇｏｏｄ表。采用以上提

到的ＤＦＲ方法將ｓｕｂｊｅｃｔ．一ｂａｄ表和ｓｕｂｊｅｃｔ．ｇｏｏｄ表作為一個訓練

集，將ｂｏｄｙ—ｂａｄ表和ｂｏｄｅ—ｇｏｏｄ表作為一個訓練集，分別得到４

張特征詞表，經過特征選取后，分別由ｓｕｂｊｅｃｔ—ｂａｄ和ｓｕｂｊｅｃｔ—

ｇｏｏｄ得到垃圾郵件主題特征詞表ｓ￣ｂｊｍ，由ｂｏｄｙ—ｂａｄ和ｂｏｄｙ—

ｇｏｏｄ得到垃圾郵件信體特征詞表ｂｏｄｙ。這兩張表的ｋｅｙ為ｔｏ—

ｋｅｎ，ｖａｌｕｅ為ｐｒｏｂａｂｉｌｉｔｙ。

（２）按照特征詞的垃圾郵件概率值（ｐｒｏｂａｂｉｈｔｙ）由大到小

進行排序，分別從垃圾郵件主題特征詞表（ｓｕｂｊｅｃｔ）和垃圾郵件

信體特征詞表（ｂｃ，ａｙ）中，選取５００個主題特征詞和５ＯＯ個信體

內容特征詞，根據ＳＡ的規則寫法標準建立相應的ｓＡ主題規則

和內容規則，名字分別表示為“ＣＮ—ｓｕｂｊｅｃｔ”和“ＣＮ—ｂｏｄｙ”。利用

ｓＡ提供的ｍａｓｓ—ｃｈｅｃｋ腳本對中文規則進行評估，最后選出５００

條最好的規則。

（３）將垃圾郵件主題特征詞表（ｓｕｂｊｅｃｔ）和垃圾郵件信體特

征詞表（ｂｏｄｙ）合并生成貝葉斯特征詞庫。其中兩個表中十｝｛同

的特征詞的權值取二者平均值．．本系統使用ｓｐａｍＡｓｓａｓｓｉｎ提供

的白名單功能，如在Ｌｉｎｕｘ下／ｅｔｃ／ｍａｉｌ／ＳｐａｍＡｓｓａｓｓｉｎ／ｓａ，．ｍｉｍｅｄｅ－

第８期李玉峰等：中文垃圾郵件過濾綜合方法２２１

驗中獲得的中文郵件對于ＳｐａｍＡｓｓａｓｓｉｎ自帶的缺省英文規則的中文郵件進行測試，將閾值設置為５個等級，實驗結果見表２

匹配情況表，調整了ＳｐａｍＡｓｓａｓｓｉｎ自帶英文規則的分值。根據

所示。

對郵件訓練集的學習獲得特征詞，按照ＳｐａｍＡｓｓａｓｓｉｎ過濾規則

表２使用ＳｐａｍＡｓｓａｓｓｉｎ缺省英文規則過濾的實驗結果

的格式，添加中文過濾規則。通過以下步驟設置實現ＣＣＥＲＴ的

闞值查全率誤判率

中文垃圾郵件過濾規則集Ｃｈｉｎｅｓｅ＿ｒｕｌｅｓ．ｃｆ的定期更新。

Ｏ．５６７．４％５５．３％

（１）下載中文過濾規則集Ｃｈｉｎｅｓｅ＿ｒｕｌｅｓ．ｃｆ，在Ｌｉｎｕｘ下執行

語句ｗｇｅｔ－Ｎ—Ｐ／ｕｓｒ／ｓｈａｒｅ／ｓｐａｍａｓｓａｓｓｉｎ／ｗｗｗ．ｃｃｅｒｔ．ｅｄｕ．ｃｎ／ｓｐａｍ／

１．５６２．３％５４．２５

ｓａ／Ｃｈｉｎｅｓｅ

＿

ｍｌｅｓ．ｃｆｏ

２．５５８．５％４９．７％

（２）實現中文過濾規則集Ｃｈｉｎｅｓｅ—ｒｕｌｅｓ．ｃｆ一個月更新一

次，在ｒｏｏｔ的ｃｒｏｎｔａｂ中添加一行：００１￥ｗｇｅｔ－Ｎ—Ｐ／ｕｓｒ／ｓｈａｒｅ／

３．５５４．２％４８．４％

ｓｐａｍＡｓｓａｓｓｉｎｈｔｔｐ：／／ｗｗｗ．ｃｃｅｒｔ．ｅｄｕ．ｃｎ／ｓｐａｍ／ｓａ／Ｃｈｉｎｅｓｅｒｕｌｅｓ．

—

４．５４８．６％４５．３％

ｃｆ重新啟動ｉｎｉｔ—ｓｃｒｉｐｔ，在Ｌｉｎｕｘ下執行：／ｅｔｃ／ｉｎｉｔ．ｄ／ｉｎｉｔ—ｓｃｒｉｐｔｒｅ－

（２）調整ＳｐａｍＡｓｓａｓｓｉｎ自帶規則并補充中文規則后，采用

“１０次交叉驗證方法”，結果取平均值。閾值設置為９個等級，

３綜合過濾系統測評

實驗結果如表３所示，與表２比較過濾效果有明顯提高。通過

調整閾值使正常郵件誤判率下降的情況下，垃圾郵件查全率也

３．１郵件訓練集和測試集的獲取

在下降，當閾值為３．５時，達到誤判率為０的過濾目的，但是查

本文使用的郵件集的收集主要采用以下兩種方式：

全率不是很高，所以要采用貝葉斯過濾器作進一步過濾。

（１）通過收集內蒙古農業大學校園網郵箱教師和學生正常

表３調整補充Ｓｐａｍａｓｓａｓｓｌｎ規則后的過濾結果

郵件１０３４封，垃圾郵件１２０３封。

閾值查全率誤判率

（２）ＣＣＥＲＴ提供的垃圾郵件和正常郵件集。其中選取

４０５６封正常郵件和５０００封垃圾郵件。

０．５８４．６％４．１％

由于郵件集中既有簡體中文郵件又有英文和繁體中文郵

１８１．１％３．２％

件，所以經過編碼識別后，只保留簡體中文郵件１０２２３封，其中

垃圾郵件５７０２封，正常郵件４５２１封。然后采用Ｋ次交叉驗證

１．５７７．９％２．Ｏ％

方法… （Ｋ－ｆｏｌｄｃｒｏｓｓｖａｌｉｄａｔｉｏｎ），將這１０２２３封郵件分為１０份，

２７３．５％１．４％

每份大約１０２２篇，每次取其中的９份作為訓練集，另外１份作

為測試集，如此交叉做１０次。

２．５６９．２％Ｏ．７％

３．２評價指標

３６６．３％０．１％

本文借鑒了文本分類和信息檢索領域的一些指標。設測試

３．５６３．５％Ｏ．０％

集中有Ⅳ封郵件，為了敘述方便，先定義幾個變量，見表１所

示，其中，ＮＡ＋＋Ｃ＋Ｄ。

４５９．８％Ｏ．０％

表１變量定義表

４．５５５．４％Ｏ．０％

正確為ＳＰＡＭ正確為非ＳＰＡＭ

（３）貝葉斯過濾器作為本系統的第三層過濾組件，主要對

系統判定為ＳＰＡＭＡ曰

通過ＳｐａｍＡｓｓａｓｓｉｎ過濾后郵件采用統計的方法進行過濾，它利

系統判定為非ＳＰＡＭＣＤ

用前面學習過程中生成自己特征詞庫對郵件作出判斷，實驗使

定義如下評價指標：

用貝葉斯過濾器ＳｐａｍＢａｙｅｓ，過濾結果見表４和表５，表５與表４

（１）查全率（也叫召回率）（Ｒｅｃａｌ１）：Ｒｅｃａｌｌ＝Ｄ／（Ｃ＋Ｄ）×

相比較，經過對中文郵件的分詞和特征選取、建立特征詞庫后并

１００％，即垃圾郵件檢出率。該指標反映了過濾系統發現垃圾郵

作為第三步組件進行過濾，過濾效果有明顯提高。

件的能力，召回率越高，“漏網”的垃圾郵件就越少。

表４貝葉斯過濾器直接過濾的結果

（２）誤判率（Ｅｒｒｏｒ）：Ｅｒｒｏｒ＝（Ｂ＋Ｃ）／Ｎ×１００％。

貝葉斯算法

３．３實驗環境和結果

查全率８７．２％

１）實驗環境

本系統選擇ＬｉｎｕｘＲｅｄＨａｔ９．０作為操作系統，數據庫采用

誤報率７．５％

ＭｙＳＱＬ４．０２０和ｂｓｄｄｂ，其中ｂｓｄｄｂ數據庫主要供貝葉斯過濾器

表５貝葉斯過濾器作為第三步過濾的結果

ＳｐａｍＢａｙｅｓ使用，在安裝ＳｐａｍＢａｙｅｓ時由Ｐｙｔｈｏｎ自帶，編程語言

貝葉斯算法

采用Ｊａｖａ。選擇性能穩定的Ｓｅｎｄｍａｉｌ作為ＭＴＡ，并且安裝了開

查全率９２．７％

源軟件Ａｐａｃｈｅ和ＯｐｅｎＷｅｂｍａｉｌ，以提供ＷｅｂＭａｉｌ服務。

誤報率３．８％

２）實驗方法和結果

（１）使用ＳｐａｍＡｓｓａｓｓｉｎ自帶的缺省英文規則對測試集中的

（下轉第２２６頁）

２２６計算機應用與軟件２０１１血

圖６為空間查詢結果的示例。

＿．

，

孵。。＿ｕ一

、

ｉ

江蘇省銅礦

礦產地慧數：１３

最小值．Ｏ０１９

最大值９２３８０００

平均值９６ｂｂ２７

總和．’２５５１ｅ５３

單位萬噸

６空間查詢結果

３．４屬性查詢模塊

全部屬性系統首先將彈出文件選擇窗口，用戶須選擇點

文件，返回文件的工作區號和屬性結構類型，然后系統以表格的

形式顯示當前窗Ｖｌ中全部點的所有可見屬性值。

單點屬性系統將彈出文件選擇窗口，用戶須選擇點文件，

返回文件的工作區號和屬性結構類型，此時系統處在單點查詢

狀態，用戶雙擊所需查詢的礦產地的點圖元時，系統則彈出窗體

顯示該礦產地的可見屬性值，但此處不允許用戶進行修改。

修改屬性此處用戶在彈出的對話框中選擇點文件后系統

即處在單點編輯狀態，用戶雙擊所需修改的礦產地的點圖元時，

系統則彈出窗體顯示該礦產地的全部屬性值，此處允許用戶進

行修改。

３．５設置路徑模塊

系統彈出對話框，對話框中顯示當前ＭＡＰＧＩＳ客戶端的矢

量庫和系統庫目錄供用戶修改。

４結語

該系統設計合理，具有瀏覽全局、空間查詢、屬性查詢、統

計、屬性編輯、底圖選擇和疊加、結果圖形輸出等多項功能，實現

了直觀顯示查詢結果空間位置和屬性的目標。界面友好簡潔，

不熟悉ＧＩＳ軟件操作的人員也可以方便地使用，在使用過程中

受到專家的好評，它是一個有創新的實用的軟件。

參考文獻

【１］王強，王永春，滕壽仁．ＭＡＰＧＩＳ二次開發在國家儲量空間數據庫

中的運用［Ｊ］．西部探礦工程，２００６，１８（１２）．

［２］ＨａｒｔＪＭ．ＷｉｎｄｏｗｓＳｙｓｔｅｍＰｒｏｇｒａｍｍｉｎｇ［Ｍ］．機械工業出版

社，２００５．

［３］薩師渲．數據庫系統概論［Ｍ］．北京：高等教育出版社，１９９１．

［４］中國地質大學（武漢）信息工程學院．ＭＡＰＧＩＳ地理信息系統開發

手冊［Ｍ］．１９９８．

［５］趙森，廖望，梁乘銘．ＶｉｓｕａｌＣ＋＋程序設計教程［Ｍ］．冶金工業出

版社，２００６．

［６］吳信才，鄭貴洲，謝忠，等．地理信息系統設計與實現［Ｍ］．北京：電

子工作出版社，２００２．

［７］夏云慶．ＶｉｓｕａｌＣ＋＋６．０數據庫高級編程［Ｍ］．北京希望電子出版

社。２００２．

［８］ＣｈａｎｇＫＴ．地理信息系統總論［Ｍ］．科學出版社，２００３．

［９］蔡洪春，張春明，等．基于ＧＩＳ技術的礦產資源信息系統［Ｊ］．地質

與資源，２００３．

（上接第２２１頁）

３．４實驗結果分析

通過以上實驗，說明將基于ＩＰ的白名單過濾和基于規則的

ＳｐａｍＡｓｓａｓｓｉｎ過濾，以及基于統計的貝葉斯過濾算法相結合，對

中文垃圾郵件的過濾有很大貢獻。雖然與文獻［１２］通過改進

貝葉斯算法設計的中文垃圾郵件過濾的９８％的查全率相比，與

文獻［１３］基于ＲＢＦ神經網絡學習得到中文垃圾的９９％過濾效

果相比，還有一定的差距，但可以通過改進中文分詞方法、特征

選取方法、以及在實際應用中隨著郵件訓練集的不斷積累而達

到更好的過濾效果。

４結語

本文首先描述了基于規則匹配的ＳｐａｍＡｓｓａｓｓｉｎ過濾方法，

和基于統計技術的貝葉斯過濾方法在英文垃圾郵件過濾中的良

好效果，以及在中文垃圾郵件過濾中的不足，ＳｐａｍＡｓｓａｓｓｉｎ缺省

英文規則的調整、補充中文規則以及自動更新ＣＣＥＲＴ的中文過

濾規則集等方法克服ＳｐａｍＡｓｓａｓｓｉｎ在中文垃圾郵件過濾中的不

足，通過在貝葉斯過濾器過濾之前增加獨立的中文分詞和特征

選取模塊，使貝葉斯過濾器適用于中文環境。將該方法在Ｌｉｎｕｘ

下完成實驗，將英文垃圾郵件過濾中應用效果很好的Ｓｐａｍ—

Ａｓｓａｓｓｉｎ和貝葉斯過濾器這樣的開源軟件應用于中文環境，設

計并實現中文垃圾郵件過濾系統，可以很好地完成中文垃圾郵

件的過濾。

參考文獻

［１］王斌，潘文鋒．基于內容的垃圾郵件過濾技術綜述［Ｊ］．中文信息

學報，２００５，１９（５）：１～１０．

［２］ＳｐａｍＡｓｓａｓｓｉｎ網站［ＯＬ］．ｈｔｔｐ：／／ｗｗｗ．ｓｐａｍａｓｓａｓｓｉｎ．ｏｒｇ．

［３］ＧｒａｈａｍＰ．ＳｔｏｐｐｉｎｇＳｐａｍｌＯＬ］．２００３—０８．ｈｔｔｐ：／／ｗｗｗ．ｐａｕｌｇｒａ—

ｈａｍ．ｃｏｍ／ｓｔｏｐｓｐａｍ．ｈｔｍ．

［４］ＤｅｓｈｐａｎｄｅＶＰ，ＥｒｂａｃｈｅｒＲＦ，ＨａｒｒｉｓＣ．ＡｎｅｖａｌｕａｔｉｏｎｏｔＮａｌｖｅＢａｙｅｓ—

ｉａｎａｎｔｉ—ｓｐａｒｅｆｉｌｔｅｒｉｎｇｔｅｃｈｎｉｑｕｅｓ［ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２００７ＩＥＥＥ

ＷｏｒｋｓｈｏｐｎｉｌＩｎｆｏｒｍａｔｉｏｎＡｓｓｕｒａｎｃｅＵｎｉｔｅｄＳｔａｔｅｓＭｉｌｉｔａｒｙＡｃａｄｅｍｙ，

ＷｅｓｔＰｏｉｎｔ，ＮＹ，２０—２２Ｊｕｎｅ２００７：３３３—３４０．

［５］ＧｒａｈａｍＰａｕｌ（２００２）．ＢｅｔｔｅｒＢａｙｅｓｉａｎＦｉｌｔｅｒｉｎｇ［ＯＬ］．２００３—１１—１３

ｈｔｔｐ：／／ｗｗｗ．ｐａｕｌｇｒａｈａｍ．ｃｏｒｎ／ｓｐａｒｅ．ｈｔｍ１．

［６］ＷｉｌｌｉａｍＹ．Ｔｈｅｓｐａｍ—ｆｉｌｔｅｒｉｎｇａｃｃｕｒａｃｙｐｌａｔｅａｕａｔ９９９％ａｃｃｕｒａｃｙａｎｄ

ｈｏｗｔｏｇｅｔｐａｓｔｉｔ［ＥＢ／ＯＬ］．［ｓ．１．］：ＭＩＴＳｐａｍＣｏｎｆｅｒｅｎｃｅ，２００４

（２００４—０１—１８）［２００５—０８—２０］，ｈｔｔｐ：／／ｃｒｍｌ１４．ｓｏｕｒｃｅｆｏｒｇｅ．ｎｅｔ／

ＰｌａｔｅａｕＰａ—ｐｅｒ．ｐｄｆ．

—

［７］中文分詞網站［ＯＬ］．ｈｔｔｐ：／／ｉｃｔｃｌａｓ．ｏｒｇ．

［８］代六玲，黃河燕，陳肇雄．中文文本分類中特征抽取方法的比較研

究［Ｊ］．中文信息學報，２００４，１８（１）．

［９］寧慧，呂志龍．中文文本分類中特征選擇方法的研究［Ｊ］．電腦知

識與技術，２００７（２１）．

［１０］徐激，龔儉．垃圾郵件的綜合過濾方法［Ｊ］．計算機科學，２００５，３２

（２）．

［１１］李愛平，廖桂平，吳泉源．診斷型專家系統中的基于粗糙集的歸納推理

方法［Ｊ］．廣西師范大學學報：自然科學版，２００３，２１（１）：３４—３９

［１２］黃志剛．基于貝葉斯的中文垃圾郵件過濾系統的設計與實現［Ｄ］．

電子科技大學，２００７．

［１３］寧靜．基于數據挖掘的中文垃圾郵件過濾技術研究［Ｄ］．西南交通

大學，２００６．

凈居寺-考后總結

本文發布于:2023-11-18 17:36:22，感謝您對本站的認可！

本文鏈接：http://www.newhan.cn/zhishi/a/170030018294275.html

本文word下載地址：中文垃圾郵件過濾綜合方法.doc

本文 PDF 下載地址：中文垃圾郵件過濾綜合方法.pdf

上一篇：論電子廣告郵件的法律規制

下一篇：返回列表

標簽：反垃圾郵件

留言與評論（共有 0 條評論）