[發(fā)明專利]一種基于樣本難度的垃圾郵件分類方法有效
| 申請(qǐng)?zhí)枺?/td> | 202010374804.3 | 申請(qǐng)日: | 2020-05-06 |
| 公開(公告)號(hào): | CN111582365B | 公開(公告)日: | 2022-07-22 |
| 發(fā)明(設(shè)計(jì))人: | 李雄飛;于爽;張小利;張維軒;王澤宇;羅茂 | 申請(qǐng)(專利權(quán))人: | 吉林大學(xué) |
| 主分類號(hào): | G06K9/62 | 分類號(hào): | G06K9/62;G06Q10/10 |
| 代理公司: | 長春吉大專利代理有限責(zé)任公司 22201 | 代理人: | 郭佳寧 |
| 地址: | 130012 吉*** | 國省代碼: | 吉林;22 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 樣本 難度 垃圾郵件 分類 方法 | ||
本發(fā)明屬于機(jī)器學(xué)習(xí)分類技術(shù)領(lǐng)域,具體涉及一種基于樣本難度的垃圾郵件分類方法;能夠提高垃圾郵件分類的準(zhǔn)確性和穩(wěn)定性,本發(fā)明根據(jù)郵件樣本的難度信息為每個(gè)郵件樣本制定統(tǒng)一的誤分類損失函數(shù),然后根據(jù)最小化總體誤分類損失的原則提出一種更可靠和穩(wěn)定的分類器算法,并將該算法應(yīng)用在垃圾郵件分類中;本發(fā)明方法更加注重對(duì)簡單樣本的正確分類,這符合認(rèn)知規(guī)律,即在誤分率大致相當(dāng)?shù)那闆r下,該分類方法在分類難度值越小的郵件樣本上誤分率越低,這使得該分類方法的可信度高,更加可靠、穩(wěn)定,適用性更強(qiáng)。
技術(shù)領(lǐng)域
本發(fā)明屬于機(jī)器學(xué)習(xí)分類技術(shù)領(lǐng)域,具體涉及一種基于樣本難度的垃圾郵件分類方法。
背景技術(shù)
傳統(tǒng)垃圾郵件分類器采用諸如樸素貝葉斯、k近鄰、決策樹、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)和AdaBoost等算法都是平等地對(duì)待不同郵件樣本,并以最小化分類器的整體誤分率為優(yōu)化目標(biāo)。實(shí)際上,許多帶有混淆信息的郵件難以被人類和機(jī)器學(xué)習(xí)方法正確分類。在現(xiàn)實(shí)生活中,一些相對(duì)較難的郵件被錯(cuò)誤分類通常是可以接受的,而一個(gè)可靠、穩(wěn)定的垃圾郵件分類器應(yīng)該能夠避免錯(cuò)誤分類簡單的樣本。并且,在誤分率大致相當(dāng)?shù)那闆r下,垃圾郵件分類器在低難度樣本上的誤分率越小,該分類器的性能越好,這是符合認(rèn)知規(guī)律的。然而,現(xiàn)在垃圾郵件分類領(lǐng)域內(nèi)的方法完全忽略了這些重要的信息,大多數(shù)垃圾郵件分類器的設(shè)計(jì)只是關(guān)注對(duì)相對(duì)較難的樣本進(jìn)行正確分類,以達(dá)到更高的精度。而這些相對(duì)較難的樣本很可能是異常值或噪音點(diǎn),如果過于關(guān)注這些樣本,很可能發(fā)生過擬合問題。
綜上所述,如何在不損失分類準(zhǔn)確率的情況下區(qū)分出這些難樣本并減少其對(duì)垃圾郵件分類器泛化性能的影響是一個(gè)值得研究的問題。因此,有必要將樣本的分類難度信息引入到垃圾郵件分類規(guī)則的設(shè)計(jì)中,以改善分類性能。
發(fā)明內(nèi)容
為了克服上述問題,本發(fā)明提供一種基于樣本難度的垃圾郵件分類方法,能夠提高垃圾郵件分類的準(zhǔn)確性和穩(wěn)定性,本發(fā)明根據(jù)郵件樣本的難度信息為每個(gè)郵件樣本制定統(tǒng)一的誤分類損失函數(shù),然后根據(jù)最小化總體誤分類損失的原則提出一種更可靠和穩(wěn)定的分類器算法,并將該算法應(yīng)用在垃圾郵件分類中;本發(fā)明方法更加注重對(duì)簡單樣本的正確分類,這符合認(rèn)知規(guī)律,即在誤分率大致相當(dāng)?shù)那闆r下,該分類方法在分類難度值越小的郵件樣本上誤分率越低,這使得該分類方法的可信度高,更加可靠、穩(wěn)定,適用性更強(qiáng)。
一種基于樣本難度的垃圾郵件分類方法,具體步驟包括:
步驟一:從統(tǒng)計(jì)學(xué)的角度,采用一個(gè)統(tǒng)一的計(jì)算規(guī)則來計(jì)算郵件樣本的分類難度值,并將帶有分類難度值的訓(xùn)練樣本輸入到分類器中,讓分類器進(jìn)行學(xué)習(xí),得到弱分類器,帶有分類難度值的訓(xùn)練樣本指的是帶標(biāo)簽的郵件訓(xùn)練樣本,即帶有標(biāo)簽為垃圾郵件的訓(xùn)練樣本和標(biāo)簽為非垃圾郵件的訓(xùn)練樣本;
步驟二:根據(jù)郵件樣本的分類難度值計(jì)算郵件樣本的誤分類代價(jià);
步驟三:根據(jù)郵件樣本的誤分類代價(jià)初始化郵件樣本權(quán)重;
步驟四:根據(jù)初始郵件樣本權(quán)重按照以下方法來訓(xùn)練步驟一中得到的弱分類器:
根據(jù)第一個(gè)弱分類器的表現(xiàn)對(duì)帶有分類難度值的訓(xùn)練樣本的分布進(jìn)行調(diào)整,使得被前一個(gè)弱分類器錯(cuò)分的訓(xùn)練樣本在后續(xù)迭代中更受重視,即增加其權(quán)重;同時(shí),訓(xùn)練樣本權(quán)重的更新規(guī)則還和訓(xùn)練樣本的分類難度值成負(fù)相關(guān),即在錯(cuò)分的訓(xùn)練樣本中樣本的分類難度值越小,樣本獲得的權(quán)重越大,則其在錯(cuò)分的訓(xùn)練樣本中更受重視,而后根據(jù)調(diào)整后的訓(xùn)練樣本分布來訓(xùn)練下一個(gè)弱分類器,如此重復(fù)訓(xùn)練直到迭代結(jié)束;
步驟五:運(yùn)用基于自適應(yīng)學(xué)習(xí)的函數(shù)模型將得到的全部弱分類器進(jìn)行加權(quán)投票,獲得最終結(jié)果,其中,f(χi)是指全部弱分類器進(jìn)行加權(quán)投票后得到的最終分類器,即郵件分類結(jié)果,φt是按序調(diào)整數(shù)據(jù)分布而得到的第t個(gè)弱分類器,χi代表郵件樣本,w是弱分類器的權(quán)重,w0是初始化權(quán)重,wt是指訓(xùn)練弱分類器的權(quán)重,T是迭代次數(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于吉林大學(xué),未經(jīng)吉林大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010374804.3/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種基于散熱風(fēng)扇運(yùn)動(dòng)實(shí)現(xiàn)計(jì)算機(jī)內(nèi)存條灰塵清理裝置
- 下一篇:一種磁環(huán)高度檢測及劃線設(shè)備和方法
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 樣本引入裝置、樣本引入基片和樣本引入方法
- 樣本查找方法、裝置及系統(tǒng)
- 模型訓(xùn)練、樣本平衡方法及裝置以及個(gè)人信用評(píng)分系統(tǒng)
- 樣本輸送系統(tǒng)、樣本輸送方法以及樣本檢測系統(tǒng)
- 樣本分析裝置、樣本檢測設(shè)備及樣本檢測方法
- 樣本檢測方法、樣本檢測裝置及樣本檢測系統(tǒng)
- 樣本架、樣本混勻系統(tǒng)及樣本分析儀
- 樣本收集管及樣本收集系統(tǒng)
- 樣本數(shù)據(jù)集的擴(kuò)容方法及模型的訓(xùn)練方法
- 行人重識(shí)別的噪聲樣本識(shí)別方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)





