[發明專利]基于最大頻繁項集挖掘的微博炒作群體發現方法有效
| 申請號: | 201410188004.7 | 申請日: | 2014-05-07 |
| 公開(公告)號: | CN103927398A | 公開(公告)日: | 2014-07-16 |
| 發明(設計)人: | 劉琰;張進;羅軍勇;羅向陽;董雨辰;陳靜;常斌 | 申請(專利權)人: | 中國人民解放軍信息工程大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 鄭州天陽專利事務所(普通合伙) 41113 | 代理人: | 聶孟民 |
| 地址: | 450052 *** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 最大 頻繁 挖掘 炒作 群體 發現 方法 | ||
技術領域
本發明涉及微博輿情監控領域,特別是一種基于最大頻繁項集挖掘的微博炒作群體發現方法。
背景技術
微博作為一種新興的社會媒體形式,兼具博客、媒體、即時通訊功能于一身。微博自身的即時性、草根性、移動性、互動性等特點使其成為網絡輿情傳播的天然載體。在網絡輿情中,微博不僅成為輿論傳播的中心和渠道,同時也參與輿論的形成、發展與引導過程。
微博傳播是一把雙刃劍:一方面,微博為一些社會事件中的信息公開提供了一個快速響應的平臺,它在一定程度上彌補了傳統媒體和其他網絡工具的不足;另一方面,微博不同于傳統新聞媒體,其新聞的發布存在重復性,且真實性無法保證,可能會被利用成為謠言傳播的載體、不滿情緒的導火索,甚至給國家安全和社會穩定造成極壞的后果。網絡不實信息始于其制造者,擴散于其傳播者。
惠普公司旗下的社交計算研究團隊在最新報告中稱,新浪微博存在異常嚴重的話題炒作問題,圍繞熱門話題轉發的微博中有半數都是由炒作用戶發送的。研究發現,熱門話題傳播中人為操縱的虛假轉發數量極大,1%的垃圾消息發送者創造了49%的轉發量。自2013年8月以來,政府部門加大了對網絡輿論引導的力度,根據對“秦火火”、“立二拆四”等所在網絡推手公司的調查結果來看,網絡中存在著大量有組織的推手團隊,他們伙同少數“意見領袖”組織網絡“水軍”,長期在網上炮制虛假新聞、故意歪曲事實,制造事端,混淆是非,嚴重擾亂了網絡輿論秩序,其行為已經受到國家輿情管控的高度關注,相關人等也因涉嫌犯罪被依法刑事拘留。
因此,面向新興媒體,針對各種隱藏的輿論煽動行為,開展對炒作微博的識別,分析其傳播群體特征,收集虛假推送行為的識別證據,甄別人為制造的炒作熱點,對于發現、預測、引導網絡輿論,提高政府輿論監管能力,維護社會和諧穩定具有重要的理論價值和現實意義。
隨著微博的爆炸式發展,針對微博賬戶的研究吸引了國內外學者的廣泛興趣,一些研究成果近年來在WWW、KDD等重要會議上發表。目前對微博賬戶的研究可以大致分為以下三類:1)特征分析,包括賬戶屬性特征和行為特征等;2)影響力分析,包括影響力評價體系構建及度量方法等;3)賬戶間關系網絡分析,包括賬戶關系網絡的基本屬性、生成與演進等。
然而,目前國內外對炒作群體研究的文獻相對較少,主要相關文獻有對垃圾賬戶(spammer)、馬甲賬戶(sockpuppet)、僵尸賬戶的識別。垃圾賬戶是指經常發布垃圾信息的賬戶,Z.Yi等人從多個角度分析了垃圾賬戶的特征,并采用機器學習的方式自動識別垃圾賬戶。Chao?Yang等人深入分析了垃圾賬戶間的社會關系,提出了一種根據賬戶間親密度來發現垃圾賬戶的方法。馬甲賬戶是指通過注冊多個賬號進行發帖、轉發、評論等行為的虛假賬戶,Xueling?Zheng等人提出了一種利用文本內容、相似度匹配來識別馬甲賬戶的方法。僵尸賬戶是指為了進行粉絲買賣而惡意注冊的賬戶,方明等提出了一種基于微博注冊賬戶名特征提取的智能分類方法,具有較高的準確率。但這些方法并未解決如何發現微博炒作群體,防止虛假炒作,炒作賬戶與以上幾類賬戶之間最大的區別是,炒作賬戶側重于其“炒作”行為,參與炒作的賬戶較為分散且直接關系不明顯,隱蔽性和組織性更強,也更加難以發現。
群體炒作與普通微博類似,傳播人群的發帖、轉發、評論等行為表面上是孤立的,但是非常規的惡意傳播往往不是單個人的行為,而是有組織的群體行為,但是這種群體行為是隱蔽的,難以察覺。因此,如何發現微博炒作群體,防止虛假惡意炒作給社會造成的不良影響和不必要的經濟損失,是必需認真解決的技術問題。
發明內容
針對上述情況,為克服現有技術之缺陷,本發明之目的就是提供一種基于最大頻繁項集挖掘的微博炒作群體發現方法,可有效解決微博炒作群體的發現,防止虛假惡意炒作的問題。
本發明解決的技術方案是,基于最大頻繁項集挖掘的微博炒作賬戶發現方法包括如下步驟:
(1)炒作微博樣本搜集:以炒作微博的相關性為線索,基于爬蟲技術或微博公共開放平臺獲取參與炒作微博傳播的賬戶集合;
(2)事務數據庫構建:以單個微博為事務,參與微博傳播的賬戶為項,構建炒作微博事務數據庫;
(3)最大頻繁項集挖掘:對待檢測微博組所對應的事務數據庫中的每個事務,利用迭代交集法找出所有事務中包含的最大頻繁項集,得到若干最大頻繁項集集合;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍信息工程大學,未經中國人民解放軍信息工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410188004.7/2.html,轉載請聲明來源鉆瓜專利網。





