[發明專利]郵件分類方法和裝置有效
| 申請號: | 201410163082.1 | 申請日: | 2014-04-22 |
| 公開(公告)號: | CN103984703B | 公開(公告)日: | 2017-04-12 |
| 發明(設計)人: | 陳玉焓 | 申請(專利權)人: | 新浪網技術(中國)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06Q10/10 |
| 代理公司: | 北京市京大律師事務所11321 | 代理人: | 張璐,方曉明 |
| 地址: | 100080 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 郵件 分類 方法 裝置 | ||
1.一種郵件分類方法,其特征在于,包括:
對于預先確定的每個郵件類別,根據待分類郵件的特征詞,計算出所述待分類郵件屬于該郵件類別的概率后,將計算出的概率作為對應該郵件類別的概率;
將計算出的對應各郵件類別的概率進行排序,并判斷所述待分類郵件的特征詞中是否包括最大的概率所對應的郵件類別的至少一個關鍵詞;若是,則將所述待分類郵件劃分到最大的概率所對應的郵件類別中;否則:
計算出最大的概率和排序第二的概率的差值,并計算該差值與最大的概率的比值;若判定計算出的比值小于設定差率閾值,且所述待分類郵件的特征詞中包括有排序第二的概率所對應的郵件類別的至少一個關鍵詞,則將所述待分類郵件劃分到排序第二的概率所對應的郵件類別中。
2.如權利要求1所述的方法,其特征在于,所述計算出所述待分類郵件屬于該郵件類別的概率之前,還包括:
確定出所述待分類郵件的特征詞中包含于該郵件類別的特征詞典中的特征詞的個數,計算確定出的個數與所述待分類郵件的特征詞的總數的比值,作為所述待分類郵件在該郵件類別下的特征詞出現比率;并確認所述待分類郵件在該郵件類別下的特征詞出現比率大于設定的比率閾值。
3.如權利要求2所述的方法,其特征在于,所述郵件類別的關鍵詞是預先確定的:
針對每個郵件類別,對于該郵件類別的特征詞典中的每個特征詞,預先統計出該郵件類別中包含該特征詞的樣本郵件的數量并進行由大到小排序;將排序靠前的設定個數的特征詞作為該郵件類別的關鍵詞。
4.如權利要求3所述的方法,其特征在于,對于預先確定的每個郵件類別,根據待分類郵件的特征詞,計算出所述待分類郵件屬于該郵件類別的概率,具體包括:
記第i個郵件類別為Ci,所述待分類郵件的n個特征詞分別為F1,F2,...,Fn,計算出如下式1的值,將其作為所述待分類郵件屬于第i個郵件類別的概率:
P(Ci)P(F1|Ci)P(F2|Ci)...P(Fn|Ci)???(式1)
式1中,
其中,k取1~n之間的自然數;為特征詞Fk在郵件類別Ci的郵件數據樣本集中出現的次數;為郵件類別Ci的特征詞典中的各特征詞在郵件類別Ci的郵件數據樣本集中出現的次數之和;為郵件類別Ci的郵件數據樣本集中的樣本郵件的數量;S為各郵件類別的郵件數據樣本集中的樣本郵件的數量之和。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于新浪網技術(中國)有限公司,未經新浪網技術(中國)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410163082.1/1.html,轉載請聲明來源鉆瓜專利網。





