[發(fā)明專利]基于事件識(shí)別的搜索電子郵件內(nèi)容的方法及系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201810980147.X | 申請(qǐng)日: | 2018-08-27 |
| 公開(kāi)(公告)號(hào): | CN109446299B | 公開(kāi)(公告)日: | 2022-08-16 |
| 發(fā)明(設(shè)計(jì))人: | 盧志剛;李寧;楊波;姜波 | 申請(qǐng)(專利權(quán))人: | 中國(guó)科學(xué)院信息工程研究所 |
| 主分類號(hào): | G06F16/332 | 分類號(hào): | G06F16/332;G06F16/35;G06N3/04;G06N3/08;G06K9/62;H04L51/42 |
| 代理公司: | 北京君尚知識(shí)產(chǎn)權(quán)代理有限公司 11200 | 代理人: | 邱曉鋒 |
| 地址: | 100093 *** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 事件 識(shí)別 搜索 電子郵件 內(nèi)容 方法 系統(tǒng) | ||
1.一種基于事件識(shí)別的搜索電子郵件內(nèi)容的方法,其特征在于,包括以下步驟:
1)解析網(wǎng)絡(luò)數(shù)據(jù)包,提取并存儲(chǔ)所有smtp協(xié)議數(shù)據(jù)包,以msg格式存儲(chǔ)每封郵件的內(nèi)容;
2)從存儲(chǔ)的郵件內(nèi)容中讀取msg信息,按行輸出到mbox格式文件;
3)通過(guò)預(yù)先訓(xùn)練完成的基于卷積神經(jīng)網(wǎng)絡(luò)的分類器讀取mbox格式文件中的郵件內(nèi)容,將郵件內(nèi)容按預(yù)定義事件類型進(jìn)行分類,得到每封郵件中發(fā)生的事件;
其中,步驟(3)所述按預(yù)定義事件類型進(jìn)行分類包括:
3.1)對(duì)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行修改,在其中加入事件類型觸發(fā)詞查找表;所述事件類型包括:會(huì)面事件、行程事件、聯(lián)絡(luò)事件、交易事件;根據(jù)案件類型和訓(xùn)練集中的先驗(yàn)數(shù)據(jù),包括典型詞及其變形,來(lái)設(shè)定所述事件類型觸發(fā)詞查找表;
3.2)將郵件內(nèi)容的句子中的詞與所述事件類型觸發(fā)詞查找表中的觸發(fā)詞進(jìn)行余弦相似量平均加權(quán)計(jì)算,得到每個(gè)句子的詞級(jí)特征向量;其中的余弦相似量平均加權(quán)計(jì)算,采用的計(jì)算公式如下,其中Ai表示句子中的詞向量,Bi表示事件類型觸發(fā)詞查找表中的觸發(fā)詞向量,n表示向量維度:
3.3)將所述詞級(jí)特征向量與根據(jù)句子抽取的句子級(jí)特征向量結(jié)合,構(gòu)造最終的特征向量,用于最終分類。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟1)解析網(wǎng)絡(luò)數(shù)據(jù)包得到的解析結(jié)果包含:郵件發(fā)信人、收信人、郵件內(nèi)容及是否包含附件信息。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟(1)對(duì)郵件內(nèi)容進(jìn)行哈希計(jì)算生成校驗(yàn)值,以保證郵件內(nèi)容的完整性。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟(2)在按行輸出到mbox格式文件后,對(duì)msg信息進(jìn)行預(yù)處理,然后作為所述分類器的輸入;所述預(yù)處理包括分詞、去除噪聲。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于卷積神經(jīng)網(wǎng)絡(luò)的分類器通過(guò)word2vec算法構(gòu)造預(yù)處理詞向量作為郵件內(nèi)容中各個(gè)詞的向量,經(jīng)過(guò)訓(xùn)練,逐漸更新詞向量使詞向量參數(shù)適合輸出最優(yōu)分類結(jié)果。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)標(biāo)記好的語(yǔ)料進(jìn)行分類訓(xùn)練,得到所述基于卷積神經(jīng)網(wǎng)絡(luò)的分類器的內(nèi)部參數(shù),所述內(nèi)部參數(shù)包括卷積核維度、權(quán)重維度。
7.一種采用權(quán)利要求1~6中任一權(quán)利要求所述方法的基于事件識(shí)別的搜索電子郵件內(nèi)容的系統(tǒng),其特征在于,包括:
數(shù)據(jù)包解析模塊,負(fù)責(zé)解析網(wǎng)絡(luò)數(shù)據(jù)包,提取并存儲(chǔ)所有smtp協(xié)議數(shù)據(jù)包,以msg格式存儲(chǔ)每封郵件的內(nèi)容;
msg信息讀取模塊,負(fù)責(zé)從存儲(chǔ)的郵件內(nèi)容中讀取msg信息,按行輸出到mbox格式文件;
分類模塊,負(fù)責(zé)通過(guò)預(yù)先訓(xùn)練完成的基于卷積神經(jīng)網(wǎng)絡(luò)的分類器讀取mbox格式文件中的郵件內(nèi)容,將郵件內(nèi)容按預(yù)定義事件類型進(jìn)行分類,得到每封郵件中發(fā)生的事件。
8.根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,還包括分類器訓(xùn)練模塊,負(fù)責(zé)訓(xùn)練所述基于卷積神經(jīng)網(wǎng)絡(luò)的分類器。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)科學(xué)院信息工程研究所,未經(jīng)中國(guó)科學(xué)院信息工程研究所許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810980147.X/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種事件通訊裝置及方法
- 動(dòng)態(tài)權(quán)重事件處理系統(tǒng)和方法
- 攻擊檢測(cè)裝置和攻擊檢測(cè)方法
- 基于Unity的事件管理方法及系統(tǒng)
- 事件解析裝置、事件解析系統(tǒng)、事件解析方法及事件解析程序
- 事件解析裝置、事件解析系統(tǒng)、事件解析方法及事件解析程序
- 事件解析裝置、事件解析系統(tǒng)、事件解析方法及事件解析程序
- 熱點(diǎn)事件確定方法及裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種樹(shù)狀模型中節(jié)點(diǎn)的連接方法及其模型、計(jì)算機(jī)裝置和可讀存儲(chǔ)介質(zhì)
- 一種事件處理方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 識(shí)別媒體、識(shí)別媒體的識(shí)別方法、識(shí)別對(duì)象物品以及識(shí)別裝置
- 一種探針卡識(shí)別裝置和方法
- 識(shí)別裝置、識(shí)別方法以及記錄介質(zhì)
- 識(shí)別裝置、識(shí)別系統(tǒng),識(shí)別方法以及存儲(chǔ)介質(zhì)
- 識(shí)別程序、識(shí)別方法以及識(shí)別裝置
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 識(shí)別裝置、識(shí)別方法以及識(shí)別程序
- 識(shí)別裝置、識(shí)別方法及識(shí)別程序





