[發明專利]一種基于LDA和隨機森林的微博謠言識別方法有效
| 申請號: | 201711483228.0 | 申請日: | 2017-12-29 |
| 公開(公告)號: | CN108090046B | 公開(公告)日: | 2021-05-04 |
| 發明(設計)人: | 曾子明;王婧 | 申請(專利權)人: | 武漢大學 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/30;G06F16/35 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 薛玲 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 lda 隨機 森林 謠言 識別 方法 | ||
1.一種基于LDA和隨機森林的微博謠言識別方法,其特征在于,包括以下步驟:
步驟1,使用爬蟲方法從微博官方平臺上收集微博數據,所述微博數據包括文本內容、點贊數、轉發數、評論數、微博數、關注數、粉絲數、認證狀態、謠言狀態,根據微博官方平臺和國家部門發布的謠言信息對微博數據進行人工標注;
步驟2,根據步驟1中所述文本內容進行無關字符過濾、文本分詞、去停用詞、數據變換處理,從而獲得優化文本內容以及優化文本內容詞語,并統計優化文本內容詞語的數量,通過優化文本內容、優化文本內容詞語、優化文本內容詞語的數量以及z-score標準化處理步驟1中所述的點贊數、轉發數、評論數、微博數、關注數、粉絲數從而得到z-score標準化微博數據,并根據z-score標準化微博數據計算用戶可信度特征和微博影響力特征;
步驟3,通過LDA主題模型對步驟2所述優化文本內容以及優化文本內容詞語進行建模計算,從而獲得LDA主題分布概率、LDA優化文本內容與主題分布概率以及LDA優化文本內容詞語與主題分布概率,將LDA優化文本內容與主題分布概率作為謠言識別的文本深層語義特征,并根據LDA優化文本內容與主題分布概率以及LDA優化文本內容詞語與主題分布概率計算困惑度;
步驟4,根據步驟2中所述用戶可信度特征、步驟2中所述微博影響力特征、步驟3中所述LDA主題分布概率,構建微博特征向量;
步驟5,根據步驟2中所述用戶可信度特征、步驟2中所述微博影響力特征、步驟3中所述LDA優化文本內容與主題分布概率作為隨機森林模型的輸入特征,使用10折交叉驗證的網格搜索算法計算基于CART決策樹的隨機森林模型的最優參數,所述最優參數結合步驟4中所述微博特征向量設計微博謠言分類器,并根據步驟1中所述人工標注的微博數據進行訓練得到最終微博謠言分類器,應用于謠言甄別工作;
步驟1中所述微博數據為:
weiboi={doci,likei,reposti,commenti,numi,followingi,followeri,verifyi,fakei},1≤i≤M;
其中,M為微博數據的條數,i為微博數據的序號,doci為文本內容,likei為點贊數,reposti為轉發數,commenti為評論數,numi為微博數,followingi為關注數,followeri為粉絲數,verifyi為認證狀態,fakei為謠言狀態;
步驟1中所述人工標注為:
通過微博官方平臺來對用戶狀態進行認證,verifyi表示發布weiboi的用戶是否通過新浪微博個人認證,若通過,則verifyi為1,否則verifyi為0,通過國家部門發布的謠言信息對微博數據進行謠言標記,若微博weiboi為謠言微博,則fakei為1,否則fakei為0;
步驟2中所述z-score標準化微博數據為:
z_weiboi={op_doci,op_wordi,op_ni,z_likei,z_reposti,z_commenti,z_numi,z_followingi,z_followeri,verifyi,fakei},1≤i≤M;
其中,op_doci為優化文本內容,op_wordi為優化文本內容詞語,op_ni為優化文本內容詞語的數量,z_likei為z-score標準化點贊數,z_reposti為z-score標準化轉發數,z_commenti為z-score標準化評論數,z_numi為z-score標準化微博數,z_followingi為z-score標準化關注數,z_followeri為z-score標準化粉絲數;
步驟2中所述用戶可信度特征為:
步驟2中所述微博影響力特征為:
步驟3中所述困惑度為:
D={op_word1,...,op_wordM}
pweiboi=(pi,1,...,pi,K),1≤i≤M;
其中,M為步驟1中所述微博數據的條數,op_ni為步驟2中所述優化文本內容詞語的數量,op_wordi為步驟2中所述優化文本內容詞語,p(op_wordi)為優化文本內容中優化文本內容詞語的概率,D表示全部優化文本內容詞語的集合,p(zj|op_doci)為步驟2中第i條z-score標準化微博數據的優化文本內容中第j個主題出現的概率,p(op_wordi|zj)是第j個主題中步驟2中第i條z-score標準化微博數據的優化文本內容詞語出現的概率,K為困惑度perplexity最小時的主題個數,pweiboi為步驟2中第i條z-score標準化微博數據的LDA主題分布概率,pi,1~pi,K分別為z1~zK主題的概率;
步驟4中所述微博特征向量為:
cweiboi=(pi,1,...,pi,K,Reliabilityi,Influencei),1≤i≤M;
其中,M為步驟1中所述微博數據的條數,Reliabilityi為步驟2中所述用戶可信度特征,Influencei為步驟2中所述微博影響力特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢大學,未經武漢大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711483228.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種分詞方法、裝置及可讀存儲介質
- 下一篇:一種文本相似度的確定方法及設備





