
信息科學 31
基于內容的反垃圾郵件技術比較分析
趙卓
(長沙市質量技術監督信息管理所,湖南長沙410013)
摘要當前,在基于內容的各種反垃圾郵件技術中,基于貝葉斯的反垃圾郵件技術顯示出了較強的分類能力和較高的準確性,而基于人工
免疫系統的反垃圾郵件技術則具有良好的自適應、自學習和魯棒性。兩個技術的結合在實踐測試中取得了良好的效果。
關鍵詞反垃圾郵件;貝葉斯;人工免疫系統
中圈分類號TP 文獻標識碼A 文章編號1673—9671一(2010)072—0031—01
1貝葉斯理論 其中 是若干特征變量值( , ,…,X )構成的一個實例,在計算的
貝葉斯方法以概率理論為基礎,用于處理統計學中不確定性問題。
過程中,屬于垃圾郵件類情況下,特征變量 出現的概率可以采用如下
對于概率公式:
方式計算:
Pr l 1=二 = f1)
P(Xi=xi 塑 ㈩
’ P( )
其中, , 表示兩個事件,且Pf >0,該公式表示在事件 發
基于貝葉斯算法的反垃圾郵件過濾系統具有較強分類能力,但在識
生的前提下事件 發生的條件概率。
別時很大程度依賴于以往的統計結果,自適應能力較弱,且對已有樣本
在此基礎上,有貝葉斯(Bayes)公式如下:
的變異樣本辨識效果不盡人意。
P(B I 、: ! 璺
鑒于上述弱點,人工免疫系統以其良好的自適應、自學習和魯棒性
、 。 。
一
n r,、
啟示著反垃圾郵件技術的研發,依據此開發的反垃圾郵件過濾系統的運
>’Pf lB )Pf 1 …
作原理如下:
其中B,,B .., 為一系列互不相容事件,RP(B )>0(i=1,2,
當一封郵件到達時,提取郵件的特征向量,以此生成待定抗原,抗
…
,
n)。 ‘
原首先通過記 細胞檢測器,與記憶細胞進行匹配,若出現匹配,則確
一
般而言,人們能根據歷史經驗或主觀判斷給出某些事件發生的概
認該郵件為垃圾郵件;若未出現匹配,則將抗原與未成熟細胞檢測器中
率,這樣的概率沒有經過檢驗,被稱之為先驗概率。貝葉斯方法則是利
的抗體進行匹配,匹配程度用親和度表示,若親和度達到設定的閥值,
用貝葉斯公式,結合調查、統計、實驗等方式獲取新的信息,對先驗概
則抗原為陽性,郵件被判為垃圾郵件;若親和度小于I爵疽,則抗原為陰
率進行修正,從而得到更符合實際的可能發生概率的預計。
性,這時,郵件被判為正常郵件。
基于貝葉斯的統計分析技術常常被應用于各行各業的分類應用系統
為測試兩種技術在反垃圾郵件系統中的應用效果,我們進行了基于
中,因其模型塑造簡單易行,運行效果良好而廣受歡迎。
貝葉斯算法和基于貝葉斯及人工免疫系統綜合算法的兩種測試,使用
2人工免疫系統(Artificial Immune System,AIS)理論
了中、英文語料庫,中文語料庫選取的是中國教育和科研計算機網緊急
生物免疫系統是一個高度進化的生物系統,它旨在區分外部有害抗
相應組(CCERT)發布的數據集“2005-Jul”,包含20308條垃圾郵件和
原和自身組織,從而清除病原并保持有機體的穩定。而AIs則是以此為
9042條正常郵件,英文語料庫選用Sparn Assassin語料,可從http://www.
原型從計算的角度產生的面向應用的計算模型。
spmnassassin.唧獲得,該語料包含了1897條垃圾郵件和4150 ̄.正常郵件。
AIS的免疫算法一般步驟為:1)定義抗原:將有待解決的問題抽象
所進行的測試是把語料庫中郵件分為10份,其中的9份作為訓練集,另
成抗原,抗體則對應為問題的求解。2)產生初始抗體:抗體與抗原之
外1份作為測試集,如此交叉做10次,最后取10次實驗的平均值作為最
間的親和度對應問題的評估:親和度越高,說明解越好。3)計算親和
后的實驗數據,得到了如圖1所示的對比結果。
度:計算抗原與抗體之間的親和度。4)克隆選擇:與抗原有較大親和
★B 憾
度的抗體即為問題的解,在這個過程中,要盡量抑制濃度過高的抗體即
l
是避免局部解,也要淘汰低親和度的抗體,同時為獲得解的多樣性以求
最佳解,抗體在克隆時會經歷變異(如高頻變異等)。5)評估新的抗
a9》
體:若不能滿足終止條件,則轉向第3)步,重新開始;若滿足終止條
件,則當前的抗體為問題的最優解。
準哇薅
AIS因其復雜的仿生原理往往在實踐應用中較難建模,但又因其強
確
大的智能化、自學習、自適應等特性吸引著越來越多的研發者將其應用
裹
于各技術領域,以期在智能化發展上有新的突破。
0,9"/
3兩種技術在反垃圾郵件系統中的應用
縱觀現有的反垃圾郵件技術,可謂百花齊放,層出不窮,歸納一
下,大致有三種:1)基于硼拘過濾;2)基于內容的過濾;3)基于行為
的過濾。而研究人員也致力于研究這三種層次上的新技術新方法,或者
包蛄
對已有的技術進行整合、實踐評測、改進。本文分析的技術是基于內容
的過濾技術。
在反垃圾郵件過濾系統中我們常會使用樸素貝葉斯算法,該模型采
塞 譬 § 熹 塞 基 萋 莖 萎 簍
用特征變量獨立假設,即假設每個特征變量置都從屬于同一個類別變量
垃疑郵件樣本皴
C,而它們彼此之間相互獨立。
圖1兩種算法測試結果對比
在反垃圾郵件過濾系統中,我們只考慮兩個類別:一類為垃圾郵
件,一類為非垃圾郵件,設C=1表示垃圾郵件,C=0表示非垃圾郵
4結語
件,則應用樸素貝葉斯算法的目標是計算:
可見,在隨著郵件數目增多的情況下,基于AIS的過濾系統比單純
Pr。:1Ix: : ! 三 !!三 2 三 2 (3)
基于貝葉斯的過濾系統更能保持穩定和較高的準確性,當然現在還沒有
一
種可以稱得上完美的技術方案來徹底解決垃圾郵件的問題,就基于
P(X= 、
(下轉第29頁)
信息科學 29
淺談軟交換網絡的QoS
張穎,李晶波
(中國聯合網絡通信有限公司哈爾濱分公司,黑龍江哈爾濱150090)
摘要首先闡述服務質量的背景、定義及軟交換中的服務質量管理機制和基于服務質量的計費,并對軟交換網絡中的服務質量進行展望。
關鍵詞軟交換網絡;服務質量;基于Q0s的計費;IPv6
中圖分類號TN 文獻標識碼A 文章編號1673—9671一(2010)072—0029—01
1 Q0S的背景和定義 是層次化的,即端對端的QoS管理映射到軟交換網絡系統的分層結構
隨著Int rn t規模的不斷擴大,網上的實時業務量也在不斷增長,軟 上,形成了層次化的QoS管理模式。3)QoS管理應當是動態的。在用戶
交換網絡上的應用類型將會是多種多樣。不同的應用對網絡的需求也有 端,應該有用戶界面,允許用戶在會話期間,動態變更Qos承諾(QoS
所不同,應用業務發展的速度突飛猛進,也希望網絡以相應的速率傳輸 commitment)提供的Qos控制能力。在網絡內部,應該有監控系統實時觀
這些業務量。另外,不同的應用對網絡傳輸的延時和延時抖動的敏感程 察網絡運行情況(如網絡負荷、抖動、丟包率及延時等),并將Qos參
度不一樣,有的應用能容忍少量的業務量流失,有的應用則要求可靠傳 數動態反饋給Qos監控系統,以實現Qos動態管理。
輸。因此應在IP網絡上導) ̄QOS技術,以確保實時業務的通信質量,使 3軟交換網絡中基于QoS的計費
網上資源獲得最佳利用,降低成本,改善對用戶的服務。 軟交換網絡除了提供傳統的語音業務外,還提供數據、視頻及以此
軟交換服務質量(QOS)是指用戶要求軟交換網絡傳輸系統所必須 為基礎的各種增值業務。軟交換業務的多樣性對其專業計費系統提出了
保證的關于信息傳輸質量的特征集,它反映服務提供者(系統)和服務 更高的要求。軟交換專業計費系統不僅需要提供靈活的資費策略,還需
使用者(用戶)之間的能力和需求關系,是用來描述網絡性能的。 支持按時長、流量、QoS等的計費能力。
2軟交換網絡中的QoS管理機制 軟交換網絡中基于QoS的計費,目前有兩條思路:一條思路是通過
隨著網上實時業務量的不斷增長,IP 4本身的缺點變得日益明顯起 從配置系統中采集用戶所申請業務的Qos注冊信息,作為其Qos計費依
來,其中最為突出的是IPv4對于實時性要求頗高的數據包(如視頻、音 據;另外一條思路是根據用戶在使用業務過程中,其設備與軟交換網絡
頻數據包)和一般性的數據包(如文件傳送、電子郵件等數據包)的處 協商并獲準相應級別的Q0s服務后,在cDR中對Qos的標識(某些廠商的
理并不加以區分。這種等同對待的處理方式所導致的后果不僅僅是使通 網絡設備未提供Qos相關數據),計費系統通過cDR的采集來獲知用戶
道阻塞,還使數據丟失,出現較大的延時以及抖動,這是實時多媒體業 本次呼叫的QoS信息,并據此形成QoS的計費依據。在計費系統中,按照
務所無法接受的。Qos能夠在一定程度上解決這個難題。QoS能夠對數據 QoS的級別不同(端到端電話業務的Qos等級、端到端多媒體業務I ̄QoS
包進行合理排隊,對含有內容標識的數據包進行優化,并對其中特定的 等級、保證數據業務等級、盡力而為數據業務等級等),設置不同的費
數據包賦予較高的優先級,從而加速傳輸的進程,并實現實時交互。有 率,作為計費的重要參數之一(其它參數包括時長、流量等)。
QoS¥3L制的IP/[<僅在可預測、可測量性方面比傳統無O0see制的IP有了很 如果在軟交換網絡中實 ̄T'QoS的計費,軟交換設備最好能夠在
大提高,而且還帶來了更高效的帶寬利用率等。 cDR中提供可量化的QoS指標,包括包丟失率、延時、延時抖動、阻塞
Q。s機制是包括Qos參數定義、Q。s參數映射、Q。s管理和維護、QoS 率、吞【吐量等。
協商、Q。s監控等一系列機制的綜合,它貫穿j'ISO/OSI ̄:定義的七層 如果軟交換設備能夠在其cDR中提供上述參數,那么以此為基礎制
模型的應用層至物理層,能夠在應用交付給網絡系統之時開始,對每 定費率標準和資費策略,就可方便地進行計費處理。
層都能把握和保證達到網絡系統預先指定的Q。s級別、參數等,使網 目前,軟交換設備尚不能在其CDRt ̄提供這些參數,因此,在以此
絡系統在高效、平穩的良陛環境下運行,而Q0S參數定義是其重要組成 為基礎的軟交換網絡中,要實現基于Q0s的計費,就必須到各網關、網
部分。因傳輸層介于應用層和實際資源處理之間,一般選擇傳輸層O。s 守、路由器或Qos服務器等設備中采集,采集方案將視具體的網絡方案
參數加以定義,好的傳輸層Q。s參數定義能夠一方面體現應用的不同需 而確定采集方向和實現方式等。采集方向可以是主動到網絡設備查詢信
求,另一方面充分利用網絡資源,是定義完整O0s參數的基礎和關鍵。 息,或網絡設備將信息推送到計費系統;實現方式可以是普通的幾嘮
服務質量用一系列說明多媒體系統性能目標的參數元組來確定,包 式或CORBA中I 牛方式。
括速度比率、利用率、平均延遲時間、最大延時、最大抖動(時滯)、 從用戶的角度看,Qos可被映射為不同的服務等級(SLA)。因此,
誤碼率(BER)和分組錯誤率(PER)等。 如果軟交換設備能夠根據用戶(或應用)的Qos請求等級,將其轉化為
速度比率反映某段時間內正常接收到的分組數與實際發送的分組數 網絡設備的Qos控制參數從而實現Qos保障,那么用戶的Qos請求等級參
的比值,當比值小于1時出現延時;利用率反映某時間內實際到達分組 數也可以作為計費參數使用,以實現基于Qos的計費。
一
4小結 數與其中應正常到達分組數的比值,當比值小于1時則可能丟失部分分
服務質量是軟交換部署所必須考慮的因素之一,它直接受著lP技術 組;時滯反映了在某段時間內分組的平均延時,若不為0就存在延時,
的發展的制約,隨著iPv6 ̄術的出現,QoS將逐漸得到改善。IPv6對服 速度比率和時滯都反映平均延時,前者強調某段時間內發送或接收的平
務質量的支持主要反映在IPv6的包頭中定義的兩個重要參數:業務類別 均分組數,而后者則強調這段時間內分組非同步所造成的延時;BER和
(tra ̄c class)域和數據流標志(flowlabe1),前者用于支持DiSServ ̄型 PER表示通信服務的可靠性,它們存在于不同層次,如每比特、每一幀
的服務質量,后者主要用于支持IntServ模型的服務質量。IPv6和IPv4在 或每—個通道、每一連接等。
DiftServ的實現機制上基本一致,但IPv6對隊列的排隊方式、帶寬分配以 在可運營的軟交換電信網絡中,Q0S機制應具有如下功能:
及擁塞處理進行了更加合理的規劃。我們深信,隨著軟交換中服務質量 1)QoS的管理應當是可配置的,允許用戶對系統的QoS管理功能
相關的問題得到解決,軟交換網絡將成為下一代網絡的核心之一。 進行適當裁剪,以便建立與應用相適應的QoS級別。2)QoS管理應當
2003.9:167—169.
(上接第31頁)
AIS的反垃圾郵件技術而言,仍然還有很多值得探索和改進的地方,畢
[2】李濤.計算機免疫學[MI.電子工業出版社,2008
竟AIS的仿生機理是很復雜的,我們要能融會貫通靈活運用還需要時
日,加之現有方案中,對于一些關鍵值,關鍵算法的測試也還不夠完
備,如此種種,這都將是我們今后繼續研究的內容。
參考文獻
【11蔡立軍,施榮華.一種新的電子郵件過濾系統模型的設計….計算機工程,
作者簡介
趙卓(1977一),男,漢族,江蘇武進人,長沙市質量技術監督信息管
理所工程師,工學碩士。

本文發布于:2023-11-18 16:02:45,感謝您對本站的認可!
本文鏈接:http://www.newhan.cn/zhishi/a/1700294565219047.html
版權聲明:本站內容均來自互聯網,僅供演示用,請勿用于商業和其他非法用途。如果侵犯了您的權益請與我們聯系,我們將在24小時內刪除。
本文word下載地址:基于內容的反垃圾郵件技術比較分析.doc
本文 PDF 下載地址:基于內容的反垃圾郵件技術比較分析.pdf
| 留言與評論(共有 0 條評論) |