[發明專利]基于事件識別的搜索電子郵件內容的方法及系統有效
| 申請號: | 201810980147.X | 申請日: | 2018-08-27 |
| 公開(公告)號: | CN109446299B | 公開(公告)日: | 2022-08-16 |
| 發明(設計)人: | 盧志剛;李寧;楊波;姜波 | 申請(專利權)人: | 中國科學院信息工程研究所 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/35;G06N3/04;G06N3/08;G06K9/62;H04L51/42 |
| 代理公司: | 北京君尚知識產權代理有限公司 11200 | 代理人: | 邱曉鋒 |
| 地址: | 100093 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 事件 識別 搜索 電子郵件 內容 方法 系統 | ||
本發明涉及一種基于事件識別的搜索電子郵件內容的方法及系統。該方法包括:1)解析網絡數據包,提取并存儲所有smtp協議數據包,以msg格式存儲每封郵件的內容;2)從存儲的郵件內容中讀取msg信息,按行輸出到mbox格式文件;3)通過預先訓練完成的基于卷積神經網絡的分類器讀取mbox格式文件中的郵件內容,將郵件內容按預定義事件類型進行分類,得到每封郵件中發生的事件。本發能夠自動化完成對郵件內容按各事件類型進行標記,給出郵件中是否出現與案件相關事件的標記,方便調查人員快速掌握郵件中的信息,快速篩選出與案件密切相關的郵件,提高自動化程度。
技術領域
本發明屬于計算機網絡取證領域,涉及一種信息檢索技術,特別涉及一種基于事件識別的搜索電子郵件內容的方法及系統。
背景技術
移動通信技術、網絡技術、信息技術的相互融合與交織發展,使得電子郵件在工作、生活中替代了傳統書信成為了主要的書面通信載體。據統計平均一個企業員工每天四分之一的時間處理與郵件相關的業務,平均每天發信43封。在涉及電子郵件取證調查的案件中,待查的郵件數據規模通常使得調查工作面臨資源(計算資源、人力資源)不足的困難,從而造成積壓滯后,主要原因包括以下幾點:
(1)相關取證工具對于文本內容搜索效率不高。當前工具主要依賴相對簡單的哈希及檢索算法限制了檢查的效率。有限數量的關鍵詞搜索(10-20個關鍵詞)處理時間往往要耗費數天時間,重要證據常常被淹沒在大量與案件相關度不高的命中結果中。
(2)調查人員有限的認知處理能力妨礙取證調查的結果。隨著案件涉及待檢查、待分析的文本數據規模的增加,調查人員無法實現對所有的關鍵字命中結果完成詳細的分析。
(3)從海量數據中篩選信息從而推導得出結論的需求不僅只涉及數字取證研究領域。盡管其它領域已經廣泛開展應用數據挖掘以及信息檢索技術解決類似的問題,但是目前致力將這些技術應用到數字取證調查中來的研究數量不多,應用到電子郵件的取證調查的數量更少。
事件識別是事件提取的任務的重要組成部分。事件識別(Event Detection)指從文本內容中發現特定事件類型的實例。與每個事件描述相關聯的是引發事件的短語、觸發詞(通常是動詞或名詞化結構)。因此可以更準確將事件識別任務描述為識別事件的觸發詞并將其分類到特定的類別。例如,在“The gunman fired three bullets at the police”句子中,事件識別系統需要能夠將“fired”歸類為攻擊事件的觸發詞。事件識別需要解決兩個主要問題:相同的事件可能會被不同的觸發詞所表示和一個表示在不同語境下代表不同的事件。
目前,事件識別可采用的技術包括以下幾個方面:
(1)基于規則的方法。基于規則的系統通常采用正則表達式的形式制定規則,如果輸入文本與某一規則匹配,則被歸入相應的類。在自然語言處理中,應用基于規則的方法分詞(tokenization)、提取詞干(stemming)和詞性標注(Part-of-Speech tagging)。基于規則的方法需要大量的人工干預,雖然仍具有一定的優勢,例如:規則制定開發時間短,不依賴標注好的訓練數據,但只適用于小規模新出現的應用領域等。
(2)監督學習。通過已有數據自動提取規則或應用統計方法預測,可采用支持向量機、邏輯回歸等。
(3)混合方法。基于規則方法與機器學習方法結合,混合方法在自然語言處理的任務應用廣泛,例如機器翻譯、語法分析和信息抽取等。
(4)詞向量(word embedding)。詞向量是通過神經網絡模型生成的詞的低維實數向量表示,詞向量中包含豐富的語義信息,在信息檢索、機器翻譯、語音識別等自然語言處理任務中發揮關鍵作用。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院信息工程研究所,未經中國科學院信息工程研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810980147.X/2.html,轉載請聲明來源鉆瓜專利網。





