[發(fā)明專利]一種與內(nèi)容無關(guān)的垃圾郵件過濾方法有效
| 申請?zhí)枺?/td> | 201410405970.X | 申請日: | 2014-08-14 |
| 公開(公告)號: | CN105337842B | 公開(公告)日: | 2018-08-07 |
| 發(fā)明(設(shè)計)人: | 胡勇;張晨威;張智軍;鄧勇;劉梅;張享周;陳詩峰;謝康;肖靜華;姜靈敏;曾馭然;張振華;丘心穎;陳蔚琦;劉康;蘇麗君;郭策 | 申請(專利權(quán))人: | 廣東外語外貿(mào)大學(xué);胡勇;鄧勇 |
| 主分類號: | H04L12/58 | 分類號: | H04L12/58 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 510420 *** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 內(nèi)容 無關(guān) 垃圾郵件 過濾 方法 | ||
本發(fā)明提供了一種與內(nèi)容無關(guān)的垃圾郵件過濾方法,包括如下特征提取、特征量化和機(jī)器學(xué)習(xí)分類三個步驟,其中特征量化包括如下步驟:1)對于郵件樣本的標(biāo)題,去除標(biāo)點,特殊符號以及停用詞;2)經(jīng)分詞轉(zhuǎn)化為由單詞組成的特征向量;3)將步驟2)中特征向量的每一個元素進(jìn)行統(tǒng)計,并分別對照垃圾標(biāo)題特征集和合法標(biāo)題特征集進(jìn)行統(tǒng)計,查找各個元素分別在這兩個集中出現(xiàn)的頻率次數(shù),并將結(jié)果分為四種情況,分別得到基本概率指派函數(shù);4)將步驟3)的基本概率指派函數(shù)根據(jù)證據(jù)理論的D?S組合規(guī)則進(jìn)行融合,得到最終的基本概率指派函數(shù)。5)將最終的基本概率指派函數(shù)經(jīng)過賭博概率轉(zhuǎn)化作為郵件標(biāo)題特征量化的結(jié)果。
技術(shù)領(lǐng)域
本發(fā)明屬于垃圾郵件過濾方法,特別是涉及一種與內(nèi)容無關(guān)的垃圾郵件過濾方法。
背景技術(shù)
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,電子郵件成為一種重要的通訊工具。但隨之而來的垃圾郵件數(shù)量眾多,這些垃圾郵件具有反復(fù)性、強制性、欺騙性、不健康性或傳播速度快等特點,嚴(yán)重影響了人們的正常郵件交流。對于垃圾郵件過濾技術(shù),目前主流的技術(shù)主要分為非機(jī)器學(xué)習(xí)型和機(jī)器學(xué)習(xí)型。非機(jī)器學(xué)習(xí)型郵件過濾系統(tǒng)(如黑名單式)的缺點在于系統(tǒng)無法學(xué)習(xí)更新數(shù)據(jù),難將其部署為一個單機(jī)(而非聯(lián)網(wǎng))的過濾系統(tǒng),且有很大幾率把正常郵件當(dāng)作垃圾郵件過濾。機(jī)器學(xué)習(xí)型系統(tǒng)分為基于內(nèi)容和不基于內(nèi)容的郵件過濾系統(tǒng)。由于郵件中各種多媒體技術(shù)的發(fā)展,基于內(nèi)容的分析變得困難,越來越多的研究轉(zhuǎn)向?qū)τ卩]件其他元素(標(biāo)題,郵件發(fā)件人IP地址等非正文元素)的分析。
Bayes(貝葉斯)方法是當(dāng)前實際使用最多的垃圾郵件過濾方法。由于Bayes對于郵件分類的速度很快,而且在識別過濾過程中可以進(jìn)行動態(tài)的調(diào)整,因此在垃圾郵件過濾方面應(yīng)用最為廣泛。然而由于垃圾郵件本身的一些偽裝方法比較好或者合法郵件的一些關(guān)鍵字和符合垃圾郵件的關(guān)鍵字匹配,使得目前垃圾郵件的識別越來越困難。一個郵件樣本難以明確地歸為某一類,而以一定概率或一定隸屬度屬于某一類。因此,在對樣本的類型不確定性比較大的時候,強行分類勢必會造成分類結(jié)果錯誤,正確率下降的情況。無論是黑名單式的方法還是貝葉斯的方法,僅用郵件分類輸出y∈{spam,legitimate}表示類別信息并不恰當(dāng)??梢杂懈‘?dāng)?shù)姆椒▉硖幚磉@種不確定的情況。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題在于克服現(xiàn)有技術(shù)的不足,提供一種處理不確定性的方法;基于這種處理不確定性的方法,提出一種與內(nèi)容無關(guān)的垃圾郵件過濾方法。
本發(fā)明所使用的證據(jù)理論是一套基于“證據(jù)”和“組合”來處理不確定性推理問題的數(shù)學(xué)方法。這種Dempster-Shafer(D-S)理論能有效地提高不確定情況下目標(biāo)的識別能力。該理論把概率論中的基本事件空間拓寬為基本事件的冪集(又稱為辨識框架),在辨識框架上建立了基本概率指派函數(shù)(Basic Probability Assignment,下文簡寫為BPA)。此外,證據(jù)理論還提供了一個D-S組合規(guī)則,該規(guī)則可以在沒有先驗信息的情況下實現(xiàn)證據(jù)的融合。
本發(fā)明采用如下技術(shù)方案:
一種與內(nèi)容無關(guān)的垃圾郵件過濾方法,其包含如下步驟:(1)對待過濾郵件樣本的郵件信頭和郵件標(biāo)題進(jìn)行特征提取,(2)對步驟(1)所得的郵件信頭特征進(jìn)行特征量化,(3)對步驟(1)所得的郵件標(biāo)題特征進(jìn)行特征量化,(4)將步驟(2)和(3)所得結(jié)果輸入人工神經(jīng)網(wǎng)絡(luò)分類器進(jìn)行分類,根據(jù)分類結(jié)果判斷待過濾郵件樣本是否為垃圾郵件。其特征在于:
對于一個電子郵件樣本e,所述步驟(2)具體包括如下步驟:1)判斷郵件信頭的發(fā)件人地址特征是否合法,轉(zhuǎn)化為二值特征sender(e);2)對郵件信頭的收件人地址和抄送人進(jìn)行量化,將收件人個數(shù)轉(zhuǎn)化為特征nrcpt(e);3)對郵件信頭的郵件客戶端根據(jù)是否支持匿名大量發(fā)送郵件進(jìn)行量化,得到二值特征xmalr(e);4)對郵件信頭中的IP地址進(jìn)行量化,將IP地址轉(zhuǎn)化為無符號整數(shù)特征ip(e)。另外,所述步驟(3)具體包括如下步驟:
1)對郵件標(biāo)題去除標(biāo)點符號、特殊符號、停用詞后,經(jīng)分詞轉(zhuǎn)化為由單詞組成的特征向量G;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣東外語外貿(mào)大學(xué);胡勇;鄧勇,未經(jīng)廣東外語外貿(mào)大學(xué);胡勇;鄧勇許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410405970.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 內(nèi)容再現(xiàn)系統(tǒng)、內(nèi)容提供方法、內(nèi)容再現(xiàn)裝置、內(nèi)容提供裝置、內(nèi)容再現(xiàn)程序和內(nèi)容提供程序
- 內(nèi)容記錄系統(tǒng)、內(nèi)容記錄方法、內(nèi)容記錄設(shè)備和內(nèi)容接收設(shè)備
- 內(nèi)容服務(wù)系統(tǒng)、內(nèi)容服務(wù)器、內(nèi)容終端及內(nèi)容服務(wù)方法
- 內(nèi)容分發(fā)系統(tǒng)、內(nèi)容分發(fā)裝置、內(nèi)容再生終端及內(nèi)容分發(fā)方法
- 內(nèi)容發(fā)布、內(nèi)容獲取的方法、內(nèi)容發(fā)布裝置及內(nèi)容傳播系統(tǒng)
- 內(nèi)容提供裝置、內(nèi)容提供方法、內(nèi)容再現(xiàn)裝置、內(nèi)容再現(xiàn)方法
- 內(nèi)容傳輸設(shè)備、內(nèi)容傳輸方法、內(nèi)容再現(xiàn)設(shè)備、內(nèi)容再現(xiàn)方法、程序及內(nèi)容分發(fā)系統(tǒng)
- 內(nèi)容發(fā)送設(shè)備、內(nèi)容發(fā)送方法、內(nèi)容再現(xiàn)設(shè)備、內(nèi)容再現(xiàn)方法、程序及內(nèi)容分發(fā)系統(tǒng)
- 內(nèi)容再現(xiàn)裝置、內(nèi)容再現(xiàn)方法、內(nèi)容再現(xiàn)程序及內(nèi)容提供系統(tǒng)
- 內(nèi)容記錄裝置、內(nèi)容編輯裝置、內(nèi)容再生裝置、內(nèi)容記錄方法、內(nèi)容編輯方法、以及內(nèi)容再生方法
- 相聯(lián)存儲器及其存儲單元
- 媒體無關(guān)切換用戶標(biāo)識方法和裝置
- 具有媒介無關(guān)切換能力的無線發(fā)射/接收單元和接入點
- 無關(guān)位提取方法及無關(guān)位提取程序
- 協(xié)議無關(guān)組播業(yè)務(wù)處理方法及裝置
- 無關(guān)節(jié)機(jī)械臂和無關(guān)節(jié)機(jī)器蛇
- 無關(guān)節(jié)機(jī)械臂和無關(guān)節(jié)機(jī)器蛇
- 尺度無關(guān)圖
- 波長無關(guān)、方向無關(guān)和競爭無關(guān)的網(wǎng)絡(luò)節(jié)點以及光傳輸網(wǎng)絡(luò)
- 圖像識別網(wǎng)絡(luò)對抗訓(xùn)練方法及裝置





