[發明專利]一種面向微博的異常用戶和消息同時檢測方法有效
| 申請號: | 201510012386.2 | 申請日: | 2015-01-09 |
| 公開(公告)號: | CN104518930B | 公開(公告)日: | 2017-11-21 |
| 發明(設計)人: | 楊武;申國偉;王巍;苘大鵬;玄世昌 | 申請(專利權)人: | 哈爾濱工程大學 |
| 主分類號: | H04L12/26 | 分類號: | H04L12/26;H04L29/06 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 150001 黑龍江省哈爾濱市南崗區*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 異常 用戶 消息 同時 檢測 方法 | ||
技術領域
本發明屬于互聯網信息安全管理領域,具體涉及一種面向微博的異常用戶和消息同時檢測方法。
背景技術
隨著Twitter的快速流行,我國的新浪微博、騰訊微博等快速崛起。我國的微博用戶超過3個億,每天發布的大量的微博消息。微博已經深入融入到人民的生活當中。
微博具有快速的消息推送機制,使得消息在微博平臺中快速傳播,產生巨大的影響力。國內外有大量的研究針對Twitter進行,而新浪微博作為國內最流行的微博平臺,其發布的內容主題、用戶行為等與Twitter差別較大,因此國內需要進一步對其進行深入研究。
新浪微博平臺中每天有大量的活躍用戶和消息內容。然而,微博成為日常的社交平臺的同時,平臺本身、政府等對安全管理的難度逐漸增大。一些用戶為了特定的目的,發布大量的異常消息。例如微博中包含大量的營銷賬號、僵尸粉絲等,他們經常發布大量的廣告消息、促銷活動消息等。一些用戶為了特定的目的,通過水軍、營銷賬號等集體推動某些消息快速廣泛傳播,獲取巨大利益等。如何檢測異常的用戶和消息是微博安全管理急需解決的問題之一。
目前針對異常用戶的檢測,提出了一些檢測算法。主要從用戶的特征屬性、用戶發布消息的內容屬性和行為屬性方面進行研究,很少涉及異常單條消息的檢測。傳統的異常檢測方法在檢測異常用戶和消息時,通常單獨進行處理。但是,隨著異常用戶的智能性越來越高,很多異常的用戶很難檢測,異常消息就更難檢測。針對異常消息檢測時,大多數都是基于以下假設進行研究:異常用戶發布的消息為異常消息,正常用戶發布的消息為正常消息。顯然該假設針對智能異常用戶已經失效。例如異常用戶為了逃避新浪微博本身的檢測,通常情況下發布大量的正常消息,而只有在特定的情況下才發布異常消息。
在異常用戶的智能性越來越高的背景下,我們抓住微博中用戶和消息兩類最重要的實體,從交互行為分析出發,提出了一種面向微博的異常用戶和消息同時檢測方法。
發明內容
本發明的目的在于提供一種提高異常檢測準確率的面向微博的異常用戶和消息同時檢測方法。
本發明的目的是這樣實現的:
面向微博的異常用戶和消息同時檢測方法,包括以下步驟:
(1)數據預處理;
(2)交互提取及建模;
(3)基于同質交互的異質交互矩陣度量學習;
(4)異質交互矩陣三分解;
(5)基于先驗知識的異常用戶和消息識別。
數據預處理的步驟為:
(1.1)用戶消息排序及數據選擇,根據用戶發布消息時間對消息進行排序,選擇用戶最新的消息作為實驗數據集;
(1.2)用戶特征形式化和消息內容形式化:將用戶的粉絲數和關注數形式化為一個特征向量,將消息內容中的鏈接、圖片、標簽、提及等形式化為消息內容屬性向量。
交互提取及建模的步驟為:
(2.1)交互提取,分別提取同質交互:關注和轉發,異質交互:評論、發布、提及;
(2.2)交互關系建模,將提取的交互關系采用二部圖進行建模。
基于同質交互的異構交互矩陣度量學習的步驟為:
(3.1)用戶相似性和相異性關系度量,根據用戶特征向量計算用戶的異常值,在此基礎上,計算任意兩個用戶之間的相似性和相異性值,構建用戶的相似性和相異性矩陣;
(3.2)消息相似性和相異性關系度量,根據消息屬性向量計算消息的異常值,并結合用戶的異常值,計算任意兩條消息之間的相似性和相異性值,構建消息的相似性和相異性矩陣;
(3.3)關系距離度量學習,在距離度量學習的基礎上,通過用戶和消息的相似性和相異性矩陣學習新的異質交互矩陣。
異質交互矩陣三分解為非負矩陣三分解,采用乘法更新迭代求解。
基于先驗知識的異常用戶和消息識別的步驟為:
(5.1)基于先驗知識的異常用戶識別,根據用戶的異常值是否超過閾值作為先驗知識指導,結合用戶劃分指示矩陣得到最終的異常用戶檢測;
(5.2)基于先驗知識的異常消息識別,根據消息的異常值是否超過閾值作為先驗知識指導,結合消息劃分指示矩陣得到最終的異常消息檢測。
本發明的有益效果在于:
1)本發明從用戶和消息兩類實體出發,對兩類實體產生的同質交互和異質交互進行建模,提出了面向微博的異常用戶和消息的同時檢測方法。在該方法中,針對異質交互矩陣,采用非負矩陣三分解的方法能夠同時給出用戶和消息的劃分指示矩陣,提高了檢測的效率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工程大學,未經哈爾濱工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510012386.2/2.html,轉載請聲明來源鉆瓜專利網。





