[發(fā)明專利]郵件分類方法和裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201410163082.1 | 申請(qǐng)日: | 2014-04-22 |
| 公開(kāi)(公告)號(hào): | CN103984703B | 公開(kāi)(公告)日: | 2017-04-12 |
| 發(fā)明(設(shè)計(jì))人: | 陳玉焓 | 申請(qǐng)(專利權(quán))人: | 新浪網(wǎng)技術(shù)(中國(guó))有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30;G06Q10/10 |
| 代理公司: | 北京市京大律師事務(wù)所11321 | 代理人: | 張璐,方曉明 |
| 地址: | 100080 北京市海淀*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 郵件 分類 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及互聯(lián)網(wǎng)領(lǐng)域,尤其涉及一種郵件分類方法和裝置。
背景技術(shù)
電子郵件采用儲(chǔ)存-轉(zhuǎn)發(fā)方式在網(wǎng)絡(luò)上逐步傳遞信息,具有傳播速度快、交流對(duì)象廣泛、成本低廉等特點(diǎn)。在當(dāng)前的互聯(lián)網(wǎng)信息化時(shí)代中,人們通過(guò)電子郵件進(jìn)行交流或通信的行為越來(lái)越普遍。
通常,電子郵件用戶的郵箱中包含多種類型的郵件,比如,商訊、社交、訂單、招聘、培訓(xùn)機(jī)構(gòu)、銀行理財(cái)?shù)阮愢]件,以及普通的對(duì)話郵件(如朋友間相互問(wèn)候的郵件)等。若用戶的收件箱中商訊推廣等類郵件過(guò)多,則會(huì)造成用戶投訴過(guò)多的問(wèn)題,而且將郵件無(wú)差別的投遞到用戶的收件箱中,可能會(huì)導(dǎo)致用戶的收件箱中各種類型的郵件混雜在一起,從而給用戶查看閱讀所需郵件造成困擾。因此,郵件系統(tǒng)往往會(huì)對(duì)郵件進(jìn)行分類,將郵件劃分為多種類別,以使用戶獲得更好地郵箱體驗(yàn)。例如,gmail郵箱在普通的收件箱之外有廣告郵件、網(wǎng)站動(dòng)態(tài)信息郵件等,qq郵箱在普通的收件箱之外有訂閱郵件等。
目前,現(xiàn)有的一種郵件分類方法主要是基于聚類算法:根據(jù)訓(xùn)練樣本郵件的郵件數(shù)據(jù)進(jìn)行分詞后得到的特征詞,將訓(xùn)練樣本郵件劃分為若干郵件類別,并分別組成若干郵件類別的郵件數(shù)據(jù)樣本集;之后,根據(jù)待分類郵件的郵件數(shù)據(jù)的特征詞,計(jì)算待分類郵件屬于每個(gè)郵件類別的郵件數(shù)據(jù)樣本集的概率,將最大的概率所對(duì)應(yīng)的郵件類別作為待分類郵件的郵件類別,并將待分類郵件劃分到該郵件類別的郵件數(shù)據(jù)樣本集中。其中,郵件數(shù)據(jù)通常為郵件內(nèi)容。
然而,本發(fā)明的發(fā)明人發(fā)現(xiàn),現(xiàn)有技術(shù)的郵件分類方法準(zhǔn)確度較低,會(huì)出現(xiàn)一些郵件類別誤判的現(xiàn)象,而使得用戶不能及時(shí)查看到所需要的郵件:比如,用戶在求職期間可能較為關(guān)心招聘類郵件,現(xiàn)有技術(shù)的方法卻可能將招聘類郵件劃分到培訓(xùn)機(jī)構(gòu)類郵件中,使得用戶不能及時(shí)得到招聘類郵件的信息;再如,將普通的對(duì)話郵件劃分為商訊類郵件,可能使得用戶無(wú)法及時(shí)查看這些誤判的普通的對(duì)話郵件,給用戶帶來(lái)極大不便。因此,有必要提供一種能夠更為準(zhǔn)確的對(duì)郵件進(jìn)行分類的郵件分類方法。
發(fā)明內(nèi)容
針對(duì)上述現(xiàn)有技術(shù)存在的缺陷,本發(fā)明提供了一種郵件分類方法和裝置,用以提高郵件分類的準(zhǔn)確性。
根據(jù)本發(fā)明的一個(gè)方面,提供了一種郵件分類方法,包括:
對(duì)于預(yù)先確定的每個(gè)郵件類別,根據(jù)待分類郵件的特征詞,計(jì)算出所述待分類郵件屬于該郵件類別的概率后,將計(jì)算出的概率作為對(duì)應(yīng)該郵件類別的概率;
將計(jì)算出的對(duì)應(yīng)各郵件類別的概率進(jìn)行排序,并判斷所述待分類郵件的特征詞中是否包括最大的概率所對(duì)應(yīng)的郵件類別的至少一個(gè)關(guān)鍵詞;若是,則將所述待分類郵件劃分到最大的概率所對(duì)應(yīng)的郵件類別中;否則:
計(jì)算出最大的概率和排序第二的概率的差值,并計(jì)算該差值與最大的概率的比值;若判定計(jì)算出的比值小于設(shè)定差率閾值,且所述待分類郵件的特征詞中包括有排序第二的概率所對(duì)應(yīng)的郵件類別的至少一個(gè)關(guān)鍵詞,則將所述待分類郵件劃分到排序第二的概率所對(duì)應(yīng)的郵件類別中。
較佳地,所述計(jì)算出所述待分類郵件屬于該郵件類別的概率之前,還包括:
確定出所述待分類郵件的特征詞中包含于該郵件類別的特征詞典中的特征詞的個(gè)數(shù),計(jì)算確定出的個(gè)數(shù)與所述待分類郵件的特征詞的總數(shù)的比值,作為所述待分類郵件在該郵件類別下的特征詞出現(xiàn)比率;并確認(rèn)所述待分類郵件在該郵件類別下的特征詞出現(xiàn)比率大于設(shè)定的比率閾值。
其中,所述郵件類別的關(guān)鍵詞是預(yù)先確定的:
針對(duì)每個(gè)郵件類別,對(duì)于該郵件類別的特征詞典中的每個(gè)特征詞,預(yù)先統(tǒng)計(jì)出該郵件類別中包含該特征詞的樣本郵件的數(shù)量并進(jìn)行由大到小排序;將排序靠前的設(shè)定個(gè)數(shù)的特征詞作為該郵件類別的關(guān)鍵詞。
較佳地,對(duì)于預(yù)先確定的每個(gè)郵件類別,根據(jù)待分類郵件的特征詞,計(jì)算出所述待分類郵件屬于該郵件類別的概率,具體包括:
記第i個(gè)郵件類別為Ci,所述待分類郵件的n個(gè)特征詞分別為F1,F2,...,Fn,計(jì)算出如下式1的值,將其作為所述待分類郵件屬于第i個(gè)郵件類別的概率:
P(Ci)P(F1|Ci)P(F2|Ci)...P(Fn|Ci)???(式1)
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于新浪網(wǎng)技術(shù)(中國(guó))有限公司,未經(jīng)新浪網(wǎng)技術(shù)(中國(guó))有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410163082.1/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 上一篇:多功能整粒篩分機(jī)
- 下一篇:兩用插頭
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 電子郵件管理方法及系統(tǒng)
- 郵件系統(tǒng)、垃圾郵件處理器及標(biāo)記垃圾郵件的方法
- 郵件發(fā)送方法、裝置和系統(tǒng)
- 一種郵件發(fā)送、審核方法及裝置
- 一種非標(biāo)準(zhǔn)郵件系統(tǒng)信息錯(cuò)誤的處理方法和系統(tǒng)
- 郵件關(guān)聯(lián)的方法及裝置
- 一種處理郵件的方法、裝置、存儲(chǔ)介質(zhì)及電子設(shè)備
- 一種處理郵件的方法、裝置、存儲(chǔ)介質(zhì)及電子設(shè)備
- 一種垃圾郵件源檢測(cè)方法及裝置
- 郵件處理方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





