[發明專利]一種基于LDA和隨機森林的微博謠言識別方法有效
| 申請號: | 201711483228.0 | 申請日: | 2017-12-29 |
| 公開(公告)號: | CN108090046B | 公開(公告)日: | 2021-05-04 |
| 發明(設計)人: | 曾子明;王婧 | 申請(專利權)人: | 武漢大學 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/30;G06F16/35 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 薛玲 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 lda 隨機 森林 謠言 識別 方法 | ||
本發明公開了一種基于LDA和隨機森林的微博謠言識別方法,使用爬蟲方法從微博官方平臺上收集微博數據并進行人工標注;通過文本內容數據處理以及z?score標準化微博數據以計算用戶可信度特征和微博影響力特征;通過LDA優化文本內容與主題分布概率以及LDA主題與優化文本內容詞語分布概率計算困惑度;進一步構建構建微博特征向量;通過用戶可信度特征、微博影響力特征、LDA優化文本內容與主題分布概率作為隨機森林模型的輸入特征以建立微博謠言分類器。本發明深入挖掘了微博文本語義信息且謠言分類精度高。
技術領域
本發明涉及社交網絡、文本分析等領域,特別涉及一種基于LDA和隨機森林的社交網絡謠言識別方法。
背景技術
隨著互聯網和移動通訊設備的飛速發展,在線社交平臺成為人們發布和獲取信息、發展和維系社會關系的重要渠道。微博憑借其便捷的交互方式、友好的互動體驗和入駐名人的影響力吸引了大量用戶。根據2017年8月聯通沃指數顯示,微博月活躍用戶達3.3億。作為我國活躍的社交平臺之一,微博匯集了大量碎片式用戶生成信息。由于社交平臺的信息呈現嚴重混沌狀態,個體認知的不確定性提升,網絡謠言因而滋生。研究發現造成較大社會影響的謠言大部分源自微博平臺。在官方渠道缺失的情境下,謠言能夠在一定程度緩解人們的認知焦慮。然而,謠言的肆虐往往引發負面消極的網絡輿論風波,對社會穩定和公民安全構成潛在的威脅,網絡謠言的識別工作尤為關鍵。
目前有關謠言識別的研究主要圍繞謠言文本特征研究、謠言發布用戶特征研究以及傳播網絡特征研究分析網絡謠言生成及傳播機制。
在上述方法中,謠言內容的深層語義特征、傳播用戶可信度以及行為特征尚未得到很好的運用。
發明內容
為了解決現有技術中的不足,本發明的技術方案為一種基于LDA和隨機森林的微博謠言識別方法。包括以下步驟:
步驟1,使用爬蟲方法從微博官方平臺上收集微博數據,所述微博數據包括文本內容、點贊數、轉發數、評論數、微博數、關注數、粉絲數、認證狀態、謠言狀態,根據微博官方平臺和國家部門發布的謠言信息對微博數據進行人工標注;
步驟2,根據步驟1中所述文本內容進行無關字符過濾、文本分詞、去停用詞、數據變換處理,從而獲得優化文本內容以及優化文本內容詞組,并統計優化文本內容詞語的數量,通過優化文本內容、優化文本內容詞語、優化文本內容詞語的數量以及z-score標準化處理步驟1中所述的點贊數、轉發數、評論數、微博數、關注數、粉絲數從而得到z-score標準化微博數據,并根據z-score標準化微博數據計算用戶可信度特征和微博影響力特征;
步驟3,通過LDA主題模型對步驟2所述優化文本內容以及優化文本內容詞語進行建模計算,從而獲得LDA主題分布概率、LDA優化文本內容與主題分布概率以及LDA優化文本內容詞語與主題分布概率,將LDA優化文本內容與主題分布概率作為謠言識別的文本深層語義特征,并根據LDA優化文本內容與主題分布概率以及LDA主題與優化文本內容詞語分布概率計算困惑度;
步驟4,根據步驟2中所述用戶可信度特征、步驟2中所述微博影響力特征、步驟3中所述LDA主題分布概率,構建微博特征向量;
步驟5,根據步驟2中所述用戶可信度特征、步驟2中所述微博影響力特征、步驟3中所述LDA優化文本內容與主題分布概率作為隨機森林模型的輸入特征,使用10折交叉驗證的網格搜索算法計算基于CART決策樹的隨機森林模型的最優參數,所述最優參數結合步驟4中所述微博特征向量設計微博謠言分類器,并根據步驟1中所述人工標注的微博數據進行訓練得到最終微博謠言分類器,應用于謠言甄別工作。
作為優選,步驟1中所述微博數據為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢大學,未經武漢大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711483228.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種分詞方法、裝置及可讀存儲介質
- 下一篇:一種文本相似度的確定方法及設備





