[發(fā)明專利]基于用戶的關注關系的垃圾用戶發(fā)現(xiàn)方法有效
| 申請?zhí)枺?/td> | 201310268949.5 | 申請日: | 2013-06-28 |
| 公開(公告)號: | CN103294833A | 公開(公告)日: | 2013-09-11 |
| 發(fā)明(設計)人: | 丁兆云;賈焰;楊樹強;周斌;韓偉紅;李愛平;韓毅;李莎莎 | 申請(專利權)人: | 中國人民解放軍國防科學技術大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京泛華偉業(yè)知識產(chǎn)權代理有限公司 11280 | 代理人: | 王勇 |
| 地址: | 410073 湖南省長沙*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 用戶 關注 關系 垃圾 發(fā)現(xiàn) 方法 | ||
技術領域
本發(fā)明涉及web挖掘領域,尤其涉及基于用戶的關注關系的垃圾用戶或垃圾賬戶發(fā)現(xiàn)方法。
背景技術
類Twitter的微博服務最近作為一個新的通信媒介得到迅速發(fā)展,據(jù)第29次中國互聯(lián)網(wǎng)報告統(tǒng)計:截至2011年12月底,我國微博實際用戶數(shù)達到2.5億,較上一年底增長了296.0%,網(wǎng)民使用率為48.7%。區(qū)別于其他類Facebook的社交網(wǎng)絡服務,微博服務的社會網(wǎng)絡關系為單向的,用戶不需要其他用戶對其賦予權限就可以“關注”他們。例如,Twitter中社會網(wǎng)絡由關注關系形成,用戶關注的人稱為該用戶的好友或關注好友;關注某用戶的人稱為該用戶的粉絲,用戶發(fā)布的所有博文將出現(xiàn)在公共時間線上,該用戶所有粉絲的時間線上將顯示該用戶的所有消息。
隨著微博服務的普及,存在大量以刺探隱私情報、商業(yè)推銷、推高用戶人氣等為目的的人工垃圾用戶。這些大量的垃圾用戶使得微博服務提供商的賬戶資源受到了沖擊,加大了管理賬戶的難度,提高了賬戶資源開發(fā)和管理成本。例如,大量的垃圾用戶使得微博服務提供商不得不花費更多的硬件資源或人力成本來進行賬戶管理。同時,這些垃圾用戶的大量存在也對正常用戶的使用帶來了干擾。因此,一直以來,人們期望能夠發(fā)現(xiàn)微博中的垃圾用戶以便對其進行合適的處理。
傳統(tǒng)的微博中垃圾用戶發(fā)現(xiàn)方法主要基于用戶的顯式統(tǒng)計特征來進行判斷,比如發(fā)帖規(guī)律、關注的好友數(shù)量與其粉絲數(shù)量比例、博文中提及(@userScreenName)其他用戶比例等。這些方法例如:
在參考文獻1“Chu?Z,Gianvecchio?S,Wang?H,et?al.Who?is?tweeting?on?Twitter:human,bot,or?cyborg?[C].Proc?of?the26th?Annual?Computer?Security?Applications?Conference.ACM,2010:21-30.”中依靠Twitter中用戶發(fā)布博文的顯式統(tǒng)計特性區(qū)分垃圾機器人、類人機器人和正常用戶,利用發(fā)帖規(guī)律、關注的好友數(shù)量與其粉絲數(shù)量比例、博文中提及(@userScreenName)其他用戶比例等識別垃圾用戶。
在參考文獻2“McCord?M,Chuah?M.Spam?Detection?on?Twitter?Using?Traditional?Classifiers[C].Proc?of?the8th?International?Conference?on?Autonomic?and?Trusted?Computing.NJ:IEEE,2011:175-186.”中,利用用戶特征與博文特征設計分類器區(qū)分正常用戶與垃圾用戶,分類器采用貝葉斯分類方法。
在參考文獻3“Stringhini?G,Kruegel?C,Vigna?G.Detecting?spammers?on?social?networks[C].Proc?of?the26th?Annual?Computer?Security?Applications?Conference.ACM,2010:1-9.”中分析了垃圾用戶的發(fā)帖行為,依靠顯式統(tǒng)計特性識別垃圾用戶和大規(guī)模垃圾用戶整體活動。
在參考文獻4“Thomas,K,Grier,C,Paxson,V,et?al.Suspended?Accounts?in?Retrospect:An?Analysis?of?Twitter?Spam[C].Proc?of?the2011ACM?SIGCOMM?conference?on?Internet?measurement?conference.New?York:ACM,2011:243-258.”中利用Twitter中暫停的賬號分析垃圾用戶特性。
本文將使用上述傳統(tǒng)方法基于用戶的顯式統(tǒng)計特征所發(fā)現(xiàn)的垃圾用戶稱為顯式垃圾用戶。上述傳統(tǒng)方法確實能夠在一定程度上發(fā)現(xiàn)垃圾用戶,但是由于其算法較為粗糙(例如,僅考慮一些顯式統(tǒng)計特征),因此并不能提供概率上的高可靠性,例如,其可能遺漏大量垃圾用戶,或者,其可能將大量正常用戶誤判為垃圾用戶。特別是,隨著上述這些傳統(tǒng)垃圾用戶發(fā)現(xiàn)方法的使用,一些惡意制造垃圾用戶的人也相應地采取了對策,使得垃圾用戶在顯式統(tǒng)計特征方面更加類似于正常用戶,例如,使得垃圾用戶同樣具有大量好友和粉絲,這導致了垃圾用戶特征的更加復雜化,也更加難于準確地區(qū)分垃圾用戶和正常用戶。在本文中可以將此類在顯式統(tǒng)計特征方面比較類似于正常用戶的垃圾用戶稱為隱式垃圾用戶。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍國防科學技術大學,未經(jīng)中國人民解放軍國防科學技術大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310268949.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





