[發明專利]垃圾郵件過濾方法及裝置在審
| 申請號: | 201510794358.0 | 申請日: | 2015-11-18 |
| 公開(公告)號: | CN105323153A | 公開(公告)日: | 2016-02-10 |
| 發明(設計)人: | 周鑫 | 申請(專利權)人: | TCL集團股份有限公司 |
| 主分類號: | H04L12/58 | 分類號: | H04L12/58 |
| 代理公司: | 深圳中一專利商標事務所 44237 | 代理人: | 張全文 |
| 地址: | 516006 廣東省*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 垃圾郵件 過濾 方法 裝置 | ||
技術領域
本發明實施例屬于信息過濾領域,尤其涉及一種垃圾郵件過濾方法及裝置。
背景技術
文本聚類是將語義相近的文本聚在一起,傳統的數據挖掘方法在處理文本數據之前,首先必須把文本表示成計算機能夠處理的、可體現文本本質特征的形式,然后用詞頻逆向文件頻率(TermFrequencyInverseDocumentFrequency,TFIDF)將文檔轉化為向量形式,最后在向量空間模型中通過文本聚類方法計算文本相似度。在基于TFIDF的向量空間模型中,由于沒有考慮詞之間存在的概念相似情況,因此影響了數據聚類的準確性。并且,現有方法也難以識別出垃圾郵件發送者在郵件內容中融入的正常郵件信息或者關鍵詞語,從而難以準確過濾出垃圾郵件。
發明內容
本發明實施例提供了一種垃圾郵件過濾方法及裝置,旨在解決現有方法難以準確過濾出垃圾郵件的問題。
本發明實施例是這樣實現的,一種垃圾郵件過濾方法,所述方法包括:
接收到新郵件后,獲取所述新郵件的郵件內容;
將獲取的郵件內容處理為預設類別的字符串;
根據預設的空格懲罰值、字符相似度值及預設的初始簇中心的數據確定所述郵件內容與所述預設初始簇中心的文本相似度;
根據確定的文本相似度與預設的閾值判斷所述新郵件是否為垃圾郵件,以根據判斷結果判斷是否過濾所述新郵件。
本發明實施例的另一目的在于提供一種垃圾郵件過濾裝置,所述裝置包括:
郵件內容獲取單元,用于接收到新郵件后,獲取所述新郵件的郵件內容;
郵件內容預處理單元,用于將獲取的郵件內容處理為預設類別的字符串;
文本相似度確定單元,用于根據預設的空格懲罰值、字符相似度值及預設的初始簇中心的數據確定所述郵件內容與所述預設初始簇中心的文本相似度;
垃圾郵件判斷單元,用于根據確定的文本相似度與預設的閾值判斷所述新郵件是否為垃圾郵件,以根據判斷結果判斷是否過濾所述新郵件。
在本發明實施例中,由于將獲取的郵件內容處理為預設類別的字符串,因此縮短了郵件內容的長度,減少了郵件內容的比較次數,從而提高了過濾郵件的速度。并且,由于保留了完整的郵件內容,因此保證了聚類指令,從而提高了過濾垃圾郵件的準確度。
附圖說明
圖1是本發明第一實施例提供的一種垃圾郵件過濾方法的流程圖;
圖2是本發明第二實施例提供的一種垃圾郵件過濾裝置的結構圖。
具體實施方式
為了使本發明的目的、技術方案及優點更加清楚明白,以下結合附圖及實施例,對本發明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發明,并不用于限定本發明。
本發明實施例中,接收到新郵件后,獲取所述新郵件的郵件內容,將獲取的郵件內容處理為預設類別的字符串,根據預設的空格懲罰值、字符相似度值及預設的初始簇中心的數據確定所述郵件內容與所述預設初始簇中心的文本相似度,根據確定的文本相似度與預設的閾值判斷所述新郵件是否為垃圾郵件,以根據判斷結果判斷是否過濾所述新郵件。
為了說明本發明所述的技術方案,下面通過具體實施例來進行說明。
實施例一:
圖1示出了本發明第一實施例提供的一種垃圾郵件過濾方法的流程圖,詳述如下:
步驟S11,接收到新郵件后,獲取所述新郵件的郵件內容。
該步驟中,當接收到一個新郵件時,解碼該新郵件,使之成為正常的文本內容,再從解碼后的新郵件中獲取該新郵件的郵件內容,該郵件內容包括正文、關鍵字和附件等。
步驟S12,將獲取的郵件內容處理為預設類別的字符串。
其中,預設類別的字符串包括中文字符、英文字符串和其他字符的字符串。需要指出的是,當郵件內容包括數字時,該數字劃分為“英文字符串”一類。
該步驟中,假設郵件內容為“⊙復:55如有打擾請見諒!2”,則該郵件內容經過處理后變為:“⊙”、“復”、“:”、“55”、“如”、“有”、“打”、“擾”、“請”、“見”、“諒”、“!”、“2””,其中,“⊙”、“:”、“!”劃分為“其他字符”這一類,“復”、“如”、“有”、“打”、“擾”、“請”、“見”、“諒”劃分為“中文字符”這一類,“55”、“2”劃分為“英文字符”這一類。
步驟S13,根據預設的空格懲罰值、字符相似度值及預設的初始簇中心的數據確定所述郵件內容與所述預設初始簇中心的文本相似度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于TCL集團股份有限公司,未經TCL集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510794358.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:耐沖擊復合制品
- 下一篇:用于制造多層材料片的方法、多層材料片及其用途





