[發明專利]一種基于關系圖的海量電子郵件分析方法及系統在審
| 申請號: | 201310054990.2 | 申請日: | 2013-02-20 |
| 公開(公告)號: | CN103106573A | 公開(公告)日: | 2013-05-15 |
| 發明(設計)人: | 李書豪;云曉春;張永崢;郝志宇;霍永亮 | 申請(專利權)人: | 中國科學院信息工程研究所 |
| 主分類號: | G06Q10/10 | 分類號: | G06Q10/10;G06F17/30 |
| 代理公司: | 北京輕創知識產權代理有限公司 11212 | 代理人: | 楊立 |
| 地址: | 100093 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 關系 海量 電子郵件 分析 方法 系統 | ||
1.一種基于關系圖的海量電子郵件分析方法,其特征在于,包括:
并行解析步驟:采用并行處理方式解析電子郵件源數據,并提取出電子郵件頭部信息、正文信息和附件信息,將電子郵件頭部信息和正文信息保存到海量電子郵件數據庫的電子郵件表中;
附件存儲檢測步驟:將并行解析步驟中得到的附件信息的摘要信息以設定的文件存儲結構存儲至海量電子郵件數據庫的電子郵件附件表中,并進行檢測;
關系圖生成步驟:基于并行解析步驟與附件存儲檢測步驟得到的電子郵件相關數據,構建實時更新的電子郵件關系表,并根據用戶需求和電子郵件關系表生成單點關系圖或多點關系圖;
關聯分析步驟:引入IP地址地理信息數據庫與電子郵件用戶身份信息數據庫,并將這兩個數據庫與電子郵件表進行關聯,并基于生成的關系圖進行關聯分析,再把關聯分析過程與結果在關系圖中展示。
2.根據權利要求1所述的海量電子郵件分析方法,其特征在于,所述并行解析步驟還包括:對加密壓縮格式的電子郵件源數據進行解壓縮和解密,并對提取的電子郵件頭部信息進行檢測。
3.根據權利要求1所述的海量電子郵件分析方法,其特征在于,所述附件存儲檢測步驟中將附件信息的摘要信息以設定的文件存儲結構存儲至電子郵件附件表中,具體包括:根據電子郵件附件表的條目標識生成新的附件文件名,再按照“數據源編號/年/月/日/時”的文件存儲結構存儲至電子郵件附件表;
所述附件存儲檢測步驟中對存儲的附件信息的摘要信息進行檢測,具體包括:通過惡意附件識別引擎檢測附件信息的摘要信息是否可疑。
4.根據權利要求1所述的海量電子郵件分析方法,其特征在于,所述關系圖生成步驟還包括:對生成的關系圖進行多級顯示模式的處理。
5.根據權利要求1所述的海量電子郵件分析方法,其特征在于,所述關聯分析步驟具體包括:
步驟A,獲取待分析的電子郵件表,若電子郵件表為單點,則從電子郵件關系表中獲取與該單點相關的條目,提取關聯節點,形成新的電子郵件表;
步驟B,結合電子郵件用戶身份信息數據庫,使用步驟A形成的新的電子郵件表,生成帶有屬性特征的關系圖點集合;
步驟C,根據電子郵件關系表,獲取步驟B的關系圖點集合中的每個元素關聯的邊集合,合并這些邊集合,并結合IP地址地理信息數據庫,生成帶有屬性特征的邊集合,且所述屬性特征包括權值;
步驟D,將步驟B與步驟C生成的關系圖點集合與邊集合,轉化為對應的圖形化描述語言,再調用圖形化展示接口生成新的關系圖。
6.一種基于關系圖的海量電子郵件分析系統,其特征在于,包括通過海量電子郵件數據庫進行數據交互的并行解析模塊、附件存儲檢測模塊、關系圖生成模塊和關聯分析模塊:
所述并行解析模塊,其用于通過并行處理方式解析電子郵件源數據,并提取出電子郵件頭部信息、正文信息和附件信息,并將電子郵件頭部信息和正文信息保存到海量電子郵件數據庫的電子郵件表中;
所述附件存儲檢測模塊,其用于將并行解析模塊中得到的附件信息的摘要信息以設定的文件存儲結構存儲至海量電子郵件數據庫的電子郵件附件表中,并對其進行檢測;
所述關系圖生成模塊,其用于根據并行解析模塊與附件存儲檢測模塊得到的電子郵件相關數據,構建實時更新的電子郵件關系表,并根據用戶需求和電子郵件關系表生成單點關系圖或多點關系圖;
所述關聯分析模塊,其用于引入IP地址地理信息數據庫和電子郵件用戶身份信息數據庫,并將這兩個數據庫與電子郵件表進行關聯,并基于所述關系圖生成模塊生成的關系圖進行關聯分析,再把關聯分析過程與結果在關系圖中展示。
7.根據權利要求6所述的海量電子郵件分析系統,其特征在于,所述并行解析模塊包括多數據源導入子模塊、解析任務調度分配子模塊和電子郵件源碼解析子模塊;
所述多數據源導入子模塊,用于自動化輪詢與拷貝多源電子郵件數據,對不同數據源進行編號,并對壓縮或加密的原始數據進行解壓縮和解密處理,生成統一的帶有數據源編號的電子郵件源碼;
所述解析任務調度分配子模塊,用于評估電子郵件源碼數據解析任務量,并將其基于負載均衡的原則分配給所述電子郵件源碼解析子模塊;
所述電子郵件源碼解析子模塊,用于并行化解析電子郵件源碼,提取電子郵件頭部信息、正文信息與附件信息,存儲到海量電子郵件數據庫的電子郵件表中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院信息工程研究所,未經中國科學院信息工程研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310054990.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種復合型高壓直流輸電系統
- 下一篇:一種輪葉復合式行走輪
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





