[發明專利]一種“網絡馬甲”的檢測方法有效
| 申請號: | 201310746568.3 | 申請日: | 2013-12-31 |
| 公開(公告)號: | CN103778186A | 公開(公告)日: | 2014-05-07 |
| 發明(設計)人: | 卜湛;伍之昂;曹杰;李秀怡;方昌健;劉英卓 | 申請(專利權)人: | 南京財經大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 南京匯盛專利商標事務所(普通合伙) 32238 | 代理人: | 陳揚 |
| 地址: | 210023 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網絡 馬甲 檢測 方法 | ||
技術領域
本發明屬于Web挖掘領域,涉及一種虛擬空間“網絡馬甲”智能探測技術,具體的說是一種基于“相似觀點”網絡和文章作者鑒定技術的“網絡馬甲”的檢測方法。
背景技術
網絡社區中,一些用戶使用多個用戶名或將自己偽裝成其他用戶(通常被稱為“網絡馬甲”)與其他用戶溝通。一些網絡社區的成員,為了迷惑大眾,利用一些人造的“網絡馬甲”,偽裝成不同的用戶,對某個產品或某個人的工作大肆贊揚或否定。更有甚者,制造某個網絡謠言,然后利用不同的網絡“馬甲”大肆傳播。
長期以來,“網絡馬甲”檢測技術的相關文獻少之甚少,一些相關工作可以被應用于檢測“網絡馬甲”。這些相關大多集中于文章作者身份鑒定技術和社會網絡分析方法。
在傳統的文章作者鑒定模型中,很多分析方法被采納。其中兩種最普遍的技術是基于統計學分析和基于機器學習方法。在20世紀,文章鑒定技術被應用于區別莎士比亞、馬克.吐溫以及培根文學大師的作品。在這些領域中,Mostteller和Wallace做出了最基本的研究工作。他們使用文章作者鑒定技術準確的將12篇有爭議的聯邦黨文集進行了分類。最近幾年,這一方法也被頻繁應用于在線文集的作者鑒定。De?Vel等人基于網絡郵件作者的身份鑒定進行了大量實驗分析。他們的研究為基于互聯網媒體的文章作者身份鑒定提供了重要研究基礎。Zheng等人將De?Vel等人的工作進一步擴展,他們對英文和中文網絡論壇消息的研究中,加入了多位空間的考量。
這些工作在某些應用中取得了一定的成果,但是它們主要集中于對一定數量文章的鑒定?,F實的網絡社區中充斥的著大量的網絡用戶和文本信息。基于一定數量的文章的傳統的文章作者鑒定技術在這樣的虛擬空間中可能不夠適用。一些學者提出了采用社區劃分算法來解決虛擬空間下的“網絡馬甲”檢測。由于網絡中同一個社區中的用戶可能具備相同的興趣、職業和愛好;因此他們的“網絡馬甲”應該出現在同一個網絡“社區”中。Zeng等人的工作為這一領域的研究開辟了研究基礎。Du等人提出了ComTector技術來發現大規模社交網絡的網絡社區。為了發現社交網絡的討論話題,McCallum等人提出了Author–Recipient-Topic模型。Tian等人提出了基于OLAP的歸類策略來根據屬性相似性對網絡用戶進行分類,這樣處于統一社區的用戶具備形似的屬性。Zhao等人提出了一種基于話題的社區發現算法,其結合了社會對象聚類和邊界分析技術。
上述基于社區發現算法的技術不能夠被直接應用戶“網絡馬甲”檢測,這是因為他們混淆了“網絡馬甲”社區的實際含義。實際人,某個人的多個“網絡馬甲”彼此之間很少有交互,而是經?;貜推渌嗤腎D。此外,相同個人的“網絡馬甲”應該具有相似的寫作風格,并且對同一個話題應該具備相似的觀點。為了更加直觀的說明之一問題,首先看一個簡單的網絡社區用戶交互實例(見圖1(a))。圖1(a)展示了一個深度為4的討論主線的樹形結構。方形區域的標識展示了發出有效評論的網絡用戶與其他用戶的交互情況??梢?,該帖子P首先吸引了三個用戶(A、C和D)對其直接回復;在第二層,五個用戶(A、B、D、E和G)一共發出了8條評論;在三層,又有五個用戶(A、B、D、E和F)一共發出了7條評論;在最后一層,用戶C給予了用戶G最后一個條評論。在每個用戶回復上,用+?or?–分別表示支持/反對的態度。圖1(b)表示基于傳統用戶交互模型(無向稠密網絡)生成的交互網絡,其包含7個節點和9條邊。每條邊界上的權值表示用戶之間的交互次數。圖1(c)表示基于次交互網絡進行社區發現后的社區結構。盡管社區內的用戶在論壇中交互頻繁,但是他們的觀點并不一致。在圖1(c)左邊的社區中,用戶B同用戶A的觀點極為相左,這兩個ID不太可能為來自同一個用戶的“網絡馬甲”。圖1.4(d)展示我們期望得到的社區劃分結果。其中同一個社區中的ID對對待同一個話題具有相似的觀點。在此基礎上,再分析不同ID的寫作風格,假設相同社區中的ID具有相似的寫作風格,那么處于同一個社區的ID可被看為某個人的“網絡馬甲”。
圖1中的簡單例子,為準確發現“網絡馬甲”提供了一個很好的思路,在進一步討論之前,需要首先回答下述幾個問題:
1)??網絡模型。由于某個人的多個“網絡馬甲”彼此之間不會交流頻繁,傳統的網絡模型(無向稠密網絡)采用用戶間的交互次數來衡量網絡連接邊的權值對于“網絡馬甲”檢測算法可能并不適用,因此,我們需要提出一種更加準確的用戶交互模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京財經大學,未經南京財經大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310746568.3/2.html,轉載請聲明來源鉆瓜專利網。





