[發明專利]一種郵件分類識別方法在審
| 申請號: | 201410547075.1 | 申請日: | 2014-10-14 |
| 公開(公告)號: | CN104361015A | 公開(公告)日: | 2015-02-18 |
| 發明(設計)人: | 羅陽;陳虹宇;王峻嶺 | 申請(專利權)人: | 四川神琥科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京天奇智新知識產權代理有限公司 11340 | 代理人: | 郭霞 |
| 地址: | 610041 四川省成都市高新*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 郵件 分類 識別 方法 | ||
技術領域時
本發明涉及一種郵件的分類識別方法,適用于網絡內容監管、垃圾郵件過濾等領域。
背景技術
隨著互聯網應用的發展,電子郵件得到廣泛的應用,已成為Internet上最基本的服務之一,用戶可以通過電子郵件與遠程用戶進行經濟、方便和快捷的信息交流。然而,就在電子郵件逐漸成為一種不可缺少的重要信息交流工具的同時,也正在成為一種商業廣告手段。用戶在收到有用信息的同時,還必須花費大量時間和精力多各種各樣的郵件進行分類識別,以過濾“垃圾”郵件,而現有的郵件分類識別方法或采用較單一的分類識別方法而導致結果不準確,或使用過于復雜的識別方式而提高了時間成本。因此,如何提高郵件分類識別的準確率以及效率是目前研究的熱點問題。
目前常用的分類方法有很多種,有基于概率的方法,如貝葉斯方法,其原理是通過概率計算,由待分類的數據對象的屬性值求出最可能的分類目標值,即計算各個類別在給定這組屬性值時的條件概率,并把輸出條件概率值最大的類標號作為目標值。其缺點是前提條件不容易滿足;基于實例的方法,如KNN方法,其基本原理是基于實例之間的距離,對每個實例來說,如果靠近它的實例都是某個類別,那么該實例也可能是這個類別。該方法的缺點是分類效率較低;基于統計學習的方法,如SVM等。SVM分類器是目前最好的文本分類器之一。其缺點是核函數的選擇缺乏指導,難以針對具體問題選擇最佳的核函數。另外SVM訓練速度極大地受到訓練集規模的影響,計算開銷比較大。
雖然這些方法各自有各自的優勢,但各自有不同的缺點,分類準確率最高在80%左右,還不能夠滿足實際使用的要求。
投票算法,其核心思想是:k(k為大于1的整數)個專家判斷的有效組合應該優于某個專家個人的判斷。投票算法主要有兩種:Bagging算法和Boosting算法。
支持向量機作為一種分類工具已經被廣泛的應用于各個領域。支持向量機將向量映射到一個更高維的空間里,在這個空間里建立有一個最大間隔超平面。在分開數據的超平面的兩邊建有兩個互相平行的超平面。建立方向合適的分隔超平面使兩個與之平行的超平面間的距離最大化。其假定為,平行超平面間的距離或差距越大,分類器的總誤差越小。
當前的歷史信息通過支持向量和與它們關聯的權重來表示。因此,在每一次增量更新中,描述類邊界信息的支持向量以及新到來的數據被作為新的數據集對支持向量機進行更新。
對支持向量機進行增量更新的技術包括誤差驅動方法ED(Error-driven?technique),固定分割方法FP(Fixed-partitiontechnique),超間隔方法EM(Exceeding-margin?technique),超間隔+誤差方法EM+E(Exceeding-margin+error?technique)等。
發明內容
本發明的主要目的在于提供一種郵件的分類識別方法,利用多種方式對郵件進行多層次的分類識別,采用決策中心的投票方式得到準確分類結果;對已構建的分類器進行增量更新,以提高分類器的自適應能力;并用最終分類結果更新預設表情和/或語音特征數據庫,提高分類屬性的識別效率,可以解決現有技術中郵件的分類識別方法對郵件的區分度以及效率較低的問題。
為了實現上述目的,根據本發明的一個方面,提供了一種郵件分類識別方法,包括以下步驟:
步驟1,獲取用戶收發郵件時的表情和/或語音特征數據;并按照所述表情和/或語音特征數據獲得用戶收發的郵件的分類屬性,所述分類屬性包括:正常郵件、垃圾郵件和無法確認;
如果所獲得的分類屬性為正常郵件或垃圾郵件,則結束分類,否則執行步驟2。
進一步地,在步驟2之后還包括以下步驟:
步驟3,將每個分類器的分類結果發送至決策中心,在決策中心采用投票算法對所述多個分類器得到的分類結果進行投票,得到最終分類結果;
步驟4,對所述多個分類器進行增量更新,并用最終分類結果更新預設表情和/或語音特征數據庫。
進一步地,在步驟1后,且步驟2前包括:
對郵件進行分詞、特征向量提取、權重計算預處理;
其中,所述特征向量提取包括:郵件頭特征向量提取、附件特征向量提取、以及正文特征向量提取;并且
提取的特征向量以數據庫字段的方式存入特征向量數據庫。
進一步地,所述分類器可采用基于決策樹的學習算法構建。
進一步地,對所述多個分類器進行增量更新包括:
每收發一封郵件,獲取該郵件的特征向量;
判斷所述特征向量是否位于已構建分類器的分類間隔內;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川神琥科技有限公司,未經四川神琥科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410547075.1/2.html,轉載請聲明來源鉆瓜專利網。





