[發(fā)明專利]消息異常度值的獲取方法和裝置有效
| 申請?zhí)枺?/td> | 201510702448.2 | 申請日: | 2015-10-26 |
| 公開(公告)號: | CN105320765B | 公開(公告)日: | 2019-02-05 |
| 發(fā)明(設計)人: | 胡仲義;彭貴平;邢玉輝 | 申請(專利權)人: | 華為技術有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33 |
| 代理公司: | 北京億騰知識產權代理事務所 11309 | 代理人: | 陳霽 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 消息 異常 獲取 方法 裝置 | ||
本發(fā)明實施例公開了一種消息異常度值的獲取方法和裝置。所述方法包括:從非結構化文本消息中提取消息的主題和所述主題對應的概率;獲取消息的發(fā)送方信息;將相同發(fā)送方信息的主題組成主題集合;按照消息的發(fā)送時刻將主題集合中主題進行排序,以得到主題有序集合;從主題有序集合中提取主題序列;利用主題對應的概率計算主題序列的概率支持度;利用概率支持度計算全局背景值;利用概率支持度和全局背景值,獲取消息異常度值。本發(fā)明實施例提供的消息異常度值的獲取方法和裝置,通過從時序文本消息中抽取主題序列,獲取序列的概率支持度和用戶行為的異常度,從而實現(xiàn)了從大量非結構化文本消息中進行消息異常度值的挖掘。
技術領域
本發(fā)明涉及數(shù)據(jù)處理技術領域,尤其涉及一種消息異常度值的獲取方法和裝置。
背景技術
數(shù)據(jù)庫是組織、存儲和管理數(shù)據(jù)的倉庫,其中存儲著大量的數(shù)據(jù),隱藏著許多重要信息。從數(shù)據(jù)庫的海量數(shù)據(jù)中挖掘有用信息的技術,稱為數(shù)據(jù)挖掘。在數(shù)據(jù)庫中,數(shù)據(jù)表中可能包含一些數(shù)據(jù)對象,它們反映著與一般用戶行為不一致的行為模型,這些行為被稱為異常行為,從數(shù)據(jù)庫中發(fā)現(xiàn)這些行為的過程稱為異常行為數(shù)據(jù)挖掘,它是一種重要的數(shù)據(jù)挖掘技術。
在實際應用中,大多數(shù)信息是以文本形式存儲在數(shù)據(jù)庫中的,如電子郵件、Web頁面、即時消息等。數(shù)據(jù)庫中存儲的文本數(shù)據(jù)既包括結構化內容,例如電子郵件文檔,這些文檔包含結構字段,如標題、發(fā)送人、接收人、發(fā)送時間等,也包含大量非結構化文本成分,如郵件正文內容。這些文本數(shù)據(jù)具有時序性的特點,不同時間的文本消息之間可能存在一定的關聯(lián),其中可能隱藏著一些具有重要影響的異常行為。因此,需要面向時序文本消息進行異常行為數(shù)據(jù)挖掘。
常用的異常數(shù)據(jù)挖掘方法包括:(1)基于統(tǒng)計的方法,對給定的數(shù)據(jù)集合假設了一個分布或者概率模型(例如正態(tài)分布),然后根據(jù)模型采用不一致性檢驗來確定異常點數(shù)據(jù)。(2)基于距離的方法,根據(jù)數(shù)據(jù)對象間的距離確定對象的近鄰個數(shù),將近鄰個數(shù)小于閾值的對象確定為異常對象。(3)基于偏差的方法,通過觀察一個連續(xù)序列后,發(fā)現(xiàn)其中某些與其它數(shù)據(jù)明顯不同的異常數(shù)據(jù)對象。(4)基于密度的方法,基于密度聚類算法,通過獲取對象局部異常因子來確定異常數(shù)據(jù),異常因子的值反映了數(shù)據(jù)的異常程度。
基于統(tǒng)計的方法要求數(shù)據(jù)符合假設的分布模型,基于距離、偏差,以及密度的方法主要針對屬性為數(shù)值型的對象,而且它們都面向結構化數(shù)據(jù),不適用于非結構化文本數(shù)據(jù)的挖掘。而且,傳統(tǒng)文本挖掘的研究主要集中于對文本表示、分詞、特征選擇等算法,沒有考慮在時序文本的應用場景中,不同文本數(shù)據(jù)之間的關聯(lián),即文本上下文的語義信息,因而不能滿足從時序文本中挖掘異常行為的需求。
發(fā)明內容
本發(fā)明提供了一種消息異常度值的獲取方法和裝置,通過從時序文本消息中抽取主題序列,獲取序列的概率支持度和用戶行為的異常度,從而實現(xiàn)了從大量非結構化文本消息中挖掘出異常行為消息。
第一方面,本發(fā)明提供了一種消息異常度值的獲取方法,所述方法包括:
從非結構化文本消息中提取消息的主題和所述主題對應的概率;
獲取所述消息的發(fā)送方信息;
將相同發(fā)送方信息的主題組成主題集合;
按照消息的發(fā)送時刻將所述主題集合中主題進行排序,以得到主題有序集合;
從所述主題有序集合中提取主題序列;
利用主題對應的概率計算所述主題序列的概率支持度,其中,所述概率支持度為所述主題序列發(fā)生的概率的最大值;
利用所述概率支持度計算全局背景值;
利用所述概率支持度和所述全局背景值,獲取消息異常度值。
結合第一方面,在第一方面的第一種可能的實現(xiàn)方式中,所述按照消息的發(fā)送時刻將所述主題集合中主題進行排序,以得到主題有序集合具體包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司,未經華為技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510702448.2/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





