[發(fā)明專利]一種垃圾電子郵件意圖識(shí)別系統(tǒng)有效
| 申請?zhí)枺?/td> | 201410187923.2 | 申請日: | 2014-05-06 |
| 公開(公告)號(hào): | CN103944810B | 公開(公告)日: | 2017-02-15 |
| 發(fā)明(設(shè)計(jì))人: | 李紹滋;郭鋒;曹冬林 | 申請(專利權(quán))人: | 廈門大學(xué) |
| 主分類號(hào): | H04L12/58 | 分類號(hào): | H04L12/58;H04L29/06 |
| 代理公司: | 廈門市首創(chuàng)君合專利事務(wù)所有限公司35204 | 代理人: | 張松亭 |
| 地址: | 361000 *** | 國省代碼: | 福建;35 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 垃圾 電子郵件 意圖 識(shí)別 系統(tǒng) | ||
1.一種垃圾電子郵件意圖識(shí)別系統(tǒng),其特征在于,包括意圖抽取單元、意圖判斷及意圖庫維護(hù)單元,和由所述意圖判斷及意圖庫維護(hù)單元?jiǎng)?chuàng)建的意圖庫;
所述意圖抽取單元接收來自上級(jí)單元的電子郵件全文和包括意圖分析命令或反饋學(xué)習(xí)命令的操作指令;若所述操作指令為意圖分析命令,則所述意圖抽取單元抽取該電子郵件中指定類型的意圖、形成意圖串,并將該意圖串連同該操作指令一起傳送給所述意圖判斷及意圖庫維護(hù)單元,之后接收來自意圖判斷及意圖庫維護(hù)單元的郵件屬性判斷結(jié)果,并將該判斷結(jié)果反饋給上級(jí)單元;若所述操作指令為反饋學(xué)習(xí)命令,則所述意圖抽取單元抽取該電子郵件中指定類型的意圖、形成意圖串,并抽取該電子郵件中預(yù)先標(biāo)記的郵件屬性,之后將該意圖串、該郵件屬性連同該操作指令一起傳送給所述意圖判斷及意圖庫維護(hù)單元;
所述意圖判斷及意圖庫維護(hù)單元接收來自意圖抽取單元的意圖串和意圖分析命令,或意圖串、郵件屬性和反饋學(xué)習(xí)命令;若所述意圖判斷及意圖庫維護(hù)單元接收到意圖分析命令,則通過對接收到的意圖串中的所有意圖在所述意圖庫中進(jìn)行查詢而分析判斷出郵件屬性,并向所述意圖抽取單元反饋郵件屬性判斷結(jié)果;若所述意圖判斷及意圖庫維護(hù)單元接收到反饋學(xué)習(xí)命令,則基于接收到的意圖串和郵件屬性進(jìn)行反饋學(xué)習(xí)并更新意圖庫;
所述意圖判斷及意圖庫維護(hù)單元還包括在預(yù)置的時(shí)間間隔內(nèi)自動(dòng)維護(hù)意圖庫;
所述指定類型的意圖包括顯式URL地址、隱式URL地址、顯示郵箱地址、隱式郵箱地址、QQ號(hào)碼、銀行賬號(hào)、信用卡號(hào)、電話號(hào)碼和公司名稱;
所述郵件屬性包括垃圾郵件、正常郵件和未知郵件三種屬性。
2.如權(quán)利要求1所述的一種垃圾電子郵件意圖識(shí)別系統(tǒng),其特征在于,所述意圖庫中存有意圖文件,每個(gè)意圖文件包括意圖內(nèi)容、意圖種類、總頻數(shù)、ham頻數(shù)、spam頻數(shù)、總文檔數(shù)、ham文檔數(shù)、spam文檔數(shù)、生命值、ham%、spam%和特征向量;所述總頻數(shù)為對應(yīng)的意圖內(nèi)容在所述意圖識(shí)別系統(tǒng)之前處理過的所有郵件中出現(xiàn)的次數(shù),所述ham頻數(shù)為對應(yīng)的意圖內(nèi)容在所述意圖識(shí)別系統(tǒng)之前處理過的正常郵件中出現(xiàn)的次數(shù),所述spam頻數(shù)為對應(yīng)的意圖內(nèi)容在所述意圖識(shí)別系統(tǒng)之前處理過的垃圾郵件中出現(xiàn)的次數(shù),所述總文檔數(shù)為所述意圖識(shí)別系統(tǒng)之前處理過的所有郵件中存在對應(yīng)的意圖內(nèi)容的郵件數(shù),所述ham文檔數(shù)為所述意圖識(shí)別系統(tǒng)之前處理過的所有郵件中存在對應(yīng)的意圖內(nèi)容的正常郵件數(shù),所述spam文檔數(shù)為所述意圖識(shí)別系統(tǒng)之前處理過的所有郵件中存在對應(yīng)的意圖內(nèi)容的垃圾郵件數(shù),所述ham%為ham頻數(shù)/總頻數(shù),所述spam%為spam頻數(shù)/總頻數(shù),所述特征向量用于區(qū)分各個(gè)意圖文件。
3.如權(quán)利要求1所述的一種垃圾電子郵件意圖識(shí)別系統(tǒng),其特征在于,所述意圖抽取單元對所述指定類型的意圖的抽取順序?yàn)椋菏紫瘸槿‰[式URL地址和隱式郵箱地址,其次抽取顯式URL地址和顯示郵箱地址,然后抽取QQ號(hào)碼、銀行賬號(hào)、信用卡號(hào)和電話號(hào)碼,最后抽取公司名稱。
4.如權(quán)利要求3所述的一種垃圾電子郵件意圖識(shí)別系統(tǒng),其特征在于,所述隱式URL地址和隱式郵箱地址的抽取過程包括如下步驟:
首先,讀入一封電子郵件的html代碼,并將該郵件的html代碼整合為一個(gè)字符串;
其次,掃描當(dāng)前的字符串,截取其中以“<a”開始、以“/a>”結(jié)尾的子字符串,若所述子字符串含有“href=”,則截取該子字符串中的href=“**”中引號(hào)間所包含的內(nèi)容;
最后,若該截取內(nèi)容中包括“mailto:”,則以預(yù)先統(tǒng)計(jì)的郵箱后綴庫為截?cái)鄻?biāo)準(zhǔn)截取出“mailto:”之后的郵箱地址,作為要抽取的隱式郵箱地址類意圖;若該截取內(nèi)容中包括“http”、“https”或“www.”,則以預(yù)先統(tǒng)計(jì)的域名后綴庫為截?cái)鄻?biāo)準(zhǔn)截取出“http”、“https”或“www.”之后的內(nèi)容,作為要抽取的隱式URL地址類意圖。
5.如權(quán)利要求3所述的一種垃圾電子郵件意圖識(shí)別系統(tǒng),其特征在于,所述顯式URL地址和顯式郵箱地址的抽取過程包括:讀入一封電子郵件的正文,以一行為一個(gè)處理單元,按從上到下的順序,抽取其中含有“http”、“https”或“www.”的行,并以現(xiàn)有的域名后綴庫為截?cái)鄻?biāo)準(zhǔn)截取出“http”、“https”或“www.”之后的內(nèi)容,作為要抽取的顯式URL地址類意圖;抽取其中含有“@”的行,從該行中的“@”往前和往后、以郵箱用戶名的命名標(biāo)準(zhǔn)和現(xiàn)有的郵箱后綴庫為截?cái)嘁罁?jù),截取出郵箱地址段,作為要抽取的顯式郵箱地址類意圖。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廈門大學(xué),未經(jīng)廈門大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410187923.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種軸向徑向電勵(lì)磁磁軸承
- 下一篇:一種軸承對及軸承對組件
- 用于意圖挖掘的方法和設(shè)備
- 意圖估計(jì)裝置以及意圖估計(jì)方法
- 意圖識(shí)別方法、裝置、設(shè)備及計(jì)算機(jī)可讀介質(zhì)
- 意圖確認(rèn)方法及裝置
- 搜索意圖識(shí)別方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 語句多意圖識(shí)別方法、系統(tǒng)、電子設(shè)備及存儲(chǔ)介質(zhì)
- 對話系統(tǒng)中意圖沖突的解決方法、系統(tǒng)及裝置
- 信息通信網(wǎng)絡(luò)的意圖轉(zhuǎn)譯方法、系統(tǒng)、介質(zhì)及交互接口
- 語音對話的意圖識(shí)別方法、系統(tǒng)、設(shè)備及存儲(chǔ)介質(zhì)
- 意圖識(shí)別方法、裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)
- 識(shí)別媒體、識(shí)別媒體的識(shí)別方法、識(shí)別對象物品以及識(shí)別裝置
- 一種探針卡識(shí)別裝置和方法
- 識(shí)別裝置、識(shí)別方法以及記錄介質(zhì)
- 識(shí)別裝置、識(shí)別系統(tǒng),識(shí)別方法以及存儲(chǔ)介質(zhì)
- 識(shí)別程序、識(shí)別方法以及識(shí)別裝置
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 識(shí)別裝置、識(shí)別方法以及識(shí)別程序
- 識(shí)別裝置、識(shí)別方法及識(shí)別程序





