[發明專利]一種面向通信網絡的用戶行為模式挖掘方法及系統有效
| 申請號: | 201410030664.2 | 申請日: | 2014-01-22 |
| 公開(公告)號: | CN103744994B | 公開(公告)日: | 2016-11-16 |
| 發明(設計)人: | 時金橋;柳廳文;李全剛 | 申請(專利權)人: | 中國科學院信息工程研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京輕創知識產權代理有限公司 11212 | 代理人: | 楊立 |
| 地址: | 100093 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 通信 網絡 用戶 行為 模式 挖掘 方法 系統 | ||
技術領域
本發明涉及通信網絡、復雜網絡和異常檢測等領域,尤其涉及一種面向通信網絡的用戶行為模式挖掘方法及系統。?
背景技術
通信網絡是指人們之間的信息交流而形成的網絡的統稱,郵件通信網絡、短信通信網絡、電話通信網絡等都是典型的通信網絡。在現代社會中,通信網絡已全面滲透到人們的日常生活中,通信網絡中包含了人們日常作息時間、工作生活習慣、社交關系、工作性質等諸多十分有價值信息。?
以郵件網絡為例,挖掘郵件用戶通信行為模式并分析其演變過程對檢測郵件數據泄漏等郵件網絡事件具有重要意義。通常由于郵件已加密或者隱私問題而無法獲得完整的郵件內容,在此考慮僅利用郵件網絡的日志信息如何來挖掘用戶的通信行為模式。郵件通信日志記錄了人們的通信關系、通信頻率、通信時間等許多有價值的信息。利用郵件日志來學習用戶在郵件通信中的行為模式,繼而可以挖掘出用戶的社交關系網、生活習慣、工作性質等社會屬性。通過對用戶行為模式的分析可為組織機構的信息安全防護工作提供重要依據。例如通過對不同個體的通信行為模式進行橫向對比能夠發現那些“特立獨行”的人;對個體行為模式的縱向分析可以發現個體行為的異常變動。利用這些異常可以幫助相關人員縮小排查范圍,有利于快速發現并定位內部人員的不軌行為,對于組織內部威脅的檢測及計算機取證等工作都有著重要的指導意義。?
郵件通信行為模式是指人們在郵件通信過程中所體現出的個體或群體間重復出現的通信特征集合。組織機構的郵件日志中隱含了許多與內部員工?的工作性質、日常行為習慣、生活作息時間等有關的信息。如何挖掘這類信息并有效地利用這些信息是人們十分關注的問題。?
人們通常將某組織機構的郵件網絡視為一個完整的社交網絡,然后提取一些網絡結構特征,利用社交網絡分析的方法來挖掘用戶行為模式,但是該方法忽略了組織機構郵件網絡外部通信信息的缺失問題,這會影響到某些特征的準確性。并且以往的研究大多數直接用相關特征來表示將用戶的行為模式,但如果提取的相關特征較多時這種“相關特征-行為模式”二元對應關系往往導致用戶模式形式多樣,用戶量大的情況下不利于用戶間的模式對比。?
發明內容
本發明所要解決的技術問題是針對現有技術的不足,提供一種面向通信網絡的用戶行為模式挖掘方法及系統,以提高用戶行為模式分析的準確性并統一用戶行為模式的表示。?
本發明解決上述技術問題的技術方案如下:一種面向通信網絡的用戶行為模式挖掘方法,包括如下步驟:?
步驟1:按照不同時期對通信網絡數據進行劃分,得到一系列網絡快照G={G1,G2,…,GT};?
步驟2:確定在網絡快照中的活躍度高于預定閾值的用戶為研究對象,記錄研究對象個數為N;?
步驟3:確定M個與研究對象相關的相關特征,并根據相關特征計算每個網絡快照的特征矩陣
步驟4:根據所有網絡快照的特征矩陣(t=1,2,...T)計算基準特征矩陣
步驟5:對基準特征矩陣和每個網絡快照的特征矩陣做標準化處理,得到標準化基準特征矩陣A和相應的每個網絡快照的標準化特征矩陣At;?
步驟6:利用非負矩陣分解算法分解標準化基準特征矩陣A得到模元矩陣W和系數矩陣H;?
步驟7:利用每個網絡快照的標準化特征矩陣At和模元矩陣W計算每個網絡快照中所有研究對象的行為模式矩陣Ht(t=1,2,...T)。?
本發明的有益效果是:本發明采用“相關特征-模元-行為模式”的三元對應關系表示用戶行為模式,為用戶的通信行為模式提供統一的表示方法,在用戶量大的情況下用戶間的模式對比清晰明了,有助于方便正確地檢測數據集中用戶行為模式的變化情況;用戶的行為模式可以表示為模元空間中的向量,這樣就為用戶的行為模式提供了統一的描述準則,降低了模式表述的復雜性。?
在上述技術方案的基礎上,本發明還可以做如下改進。?
進一步,所述用戶的行為模式以“相關特征-模元-行為模式”的三元對應關系表示,其中所述模元為基本行為模式單元,代表通信網絡中基本行為。?
進一步,步驟2中活躍度等級為通信網絡中通信節點作為發信者在各快照中出現的頻度,進而確定研究對象的具體實現為:按照用戶的活躍度進行排序,選擇活躍度前θ%的用戶作為研究對象,其中θ為預定值。?
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院信息工程研究所,未經中國科學院信息工程研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410030664.2/2.html,轉載請聲明來源鉆瓜專利網。





