[發明專利]一種垃圾郵件的識別方法、裝置以及電子設備有效
| 申請號: | 201710085329.6 | 申請日: | 2017-02-17 |
| 公開(公告)號: | CN108462624B | 公開(公告)日: | 2021-03-09 |
| 發明(設計)人: | 沈朝陽 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | H04L12/58 | 分類號: | H04L12/58 |
| 代理公司: | 北京清源匯知識產權代理事務所(特殊普通合伙) 11644 | 代理人: | 馮德魁 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 垃圾郵件 識別 方法 裝置 以及 電子設備 | ||
本申請公開了一種垃圾郵件的識別方法,包括:提取待識別郵件的正文并進行分詞,獲得所述待識別郵件的詞條集;結合預先獲得的基準詞頻表識別所述詞條集當中的噪音字符,并計算所述詞條集當中的噪音字符占比;判斷所述噪音字符占比是否大于預設噪音字符占比閾值,若是,將所述待識別郵件識別為垃圾郵件。所述垃圾郵件的識別方法,根據噪音字符的特性識別待識別郵件當中的噪音字符,并進一步根據待識別郵件當中包含的噪音字符來識別待識別郵件是否為垃圾郵件,實現方式簡單,識別垃圾郵件的準確率更高。
技術領域
本申請涉及垃圾郵件識別技術領域,具體涉及一種垃圾郵件的識別方法。本申請同時涉及一種垃圾郵件的識別裝置,以及一種電子設備。
背景技術
隨著網絡技術的發展,在用戶的工作和生活當中使用電子郵件變的越來越頻繁,然而,用戶經常會收到各種各樣的垃圾郵件,并且需要辨別哪些郵件是正常郵件、哪些郵件是垃圾郵件,給用戶工作和生活帶來困擾。
目前,針對垃圾郵件的識別,通過收集大量的垃圾郵件和正常郵件作為樣本郵件,并根據樣本郵件分詞后獲得的詞條在樣本郵件當中的數目建立樣本詞條庫;當用戶有郵件需要識別時,對當前郵件的郵件主題和郵件內容進行分詞,并統計分詞獲得的詞條在樣本詞條庫中出現的次數,根據統計得到的分詞獲得的詞條在樣本詞條庫中出現的次數,利用貝葉斯算法計算當前郵件為垃圾郵件的概率并與預設概率閾值進行比較,如果計算獲得的概率大于或者等于預設概率閾值,則當前郵件為垃圾郵件;如果計算獲得的概率小于預設概率閾值,則當前郵件為正常郵件。
然而,垃圾郵件制造者為了干擾和逃避垃圾郵件檢查系統的檢查,其手段之一就是在垃圾郵件中添加干擾信息,比如在郵件正文當中添加非文字字符這一類噪音字符,以干擾、逃避垃圾郵件檢查系統的檢查。因此,針對上述這些問題,采用現有的垃圾郵件的識別方法進行垃圾郵件的識別較為困難,具有一定的局限性。
發明內容
本申請提供一種垃圾郵件的識別方法,以解決現有技術存在識別困難的問題。本申請另外提供一種垃圾郵件的識別裝置,以及一種電子設備。
本申請提供一種垃圾郵件的識別方法,包括:
提取待識別郵件的正文并進行分詞,獲得所述待識別郵件的詞條集;
結合預先獲得的基準詞頻表識別所述詞條集當中的噪音字符,并計算所述詞條集當中的噪音字符占比;
判斷所述噪音字符占比是否大于預設噪音字符占比閾值,若是,將所述待識別郵件識別為垃圾郵件。
可選的,所述噪音字符包括下述至少一項:非文字字符、單個字符以及稀疏詞。
可選的,所述提取待識別郵件的正文并進行分詞,獲得所述待識別郵件的詞條集步驟執行后,且所述結合預先獲得的基準詞頻表識別所述詞條集當中的噪音字符,并計算所述詞條集當中的噪音字符占比步驟執行前,執行下述步驟:
對獲得的所述詞條集當中的詞條進行歸一化處理。
可選的,所述對獲得的所述詞條集當中的詞條進行歸一化處理,包括:
利用預設歸一化算法對所述詞條集當中的外文詞條進行歸一化處理。
可選的,所述基準詞頻表采用如下方式獲得:
在預先設置的郵件存儲空間中獲取以往特定時間區間內的歷史郵件;所述歷史郵件當中不包含垃圾郵件;
提取所述歷史郵件各自的正文并分別進行分詞,獲得所述歷史郵件各自的歷史詞條集;
按照預設的詞條采集規則采集所述歷史詞條集當中的詞條作為基準詞條;
根據采集到的所述基準詞條以及所述基準詞條在所述歷史郵件各自的正文中的出現頻次,創建所述基準詞頻表。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710085329.6/2.html,轉載請聲明來源鉆瓜專利網。





