[發明專利]一種基于地域與情感特征的微博謠言集成識別方法及裝置有效

申請號：	201911197212.2	申請日：	2019-11-29
公開（公告）號：	CN110990683B	公開（公告）日：	2022-08-23
發明（設計）人：	吳渝;曾艷;李紅波	申請（專利權）人：	重慶郵電大學
主分類號：	G06F16/9532	分類號：	G06F16/9532;G06F16/35;G06K9/62
代理公司：	重慶市恒信知識產權代理有限公司 50102	代理人：	劉小紅;陳棟梁
地址：	400065 重***	國省代碼：	重慶;50
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于地域情感特征謠言集成識別方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明請求保護一種基于地域與情感特征的微博謠言集成識別方法及裝置，屬于網絡輿情領域，該裝置包括以下模塊：預處理裝置：用于計算機對采集到的互聯網微博數據進行清洗、打標；特征篩選模塊：用于對已經完成打標操作的數據進行特征工程操作，在常用特征的基礎上構造出地域相關性、情感一致性和用戶可信度三個新特征，使用卡方檢驗對所有特征的有效性進行驗證并進行有效性排序，通過特征工程進行特征篩選；謠言識別模型構造模塊：用于采用Stacking方法作為集成學習的組合策略，構造謠言識別模型；判斷模塊：用于輸入待檢測數據，得到每條信息為謠言的可能性大小。

技術領域

本發明屬于網絡輿情領域，具體涉及一種基于地域與情感特征的微博謠言集成識別方法。

背景技術

互聯網技術的飛速發展，為人與人之間的交流提供了更加快捷的方式。一方面，網絡空間中的信息量不斷增長；另一方面，信息的傳播也隨著各種網絡平臺的興起而加速。在這個以網絡為主要信息傳播媒介的時代下，魚龍混雜的信息充斥著網絡空間，而謠言信息的傳播可能帶來的影響小到對個人名譽、隱私等的侵犯，大到對公共秩序造成混亂，引發群體性事件，導致國家的繁榮穩定受到危害。因此，對網絡謠言的管控不僅關乎網民個人的利益，也與營造清朗的網絡空間密不可分。

目前，國內外在網絡謠言識別方面的研究工作，一部分聚焦于提取謠言與非謠言信息之間具有顯著差異的特征集上，另一部分則側重于分類模型的構建。基于模型構建的謠言識別方法不需要提取各種復雜的特征，但是需要大量數據支撐，而在數據量較少的情況下，著重于特征選擇的研究方法更適用于謠言的識別。

通過結合傳播學中的5W模式，構造出地域相關性、情感一致性和用戶可信度三個新特征，并利用卡方檢驗可以檢測到所構造特征的顯著性，且相較于適用于小數據規模識別的簡單統計特征，新構造的特征能更好的適應大規模數據；其次，采用集成學習的微博謠言識別方法根據“好而不同”的原則組合多個不同算法，利用不同算法所擁有的不同的分類速度、準確率和泛化能力，從而得到更好的識別結果，相較于目前單一的識別算法而言，能夠大幅提升檢測的精確度。

發明內容

本發明旨在解決以上現有技術的問題。提出了一種基于地域與情感特征的微博謠言集成識別方法及裝置。本發明的技術方案如下：

一種基于地域與情感特征的微博謠言集成識別方法，其包括以下步驟：

(A)計算機對采集到的互聯網微博數據進行清洗、打標；

(B)對已經完成打標操作的數據進行特征工程操作，在常用特征的基礎上構造出地域相關性、情感一致性和用戶可信度三個新特征，使用卡方檢驗對所有特征的有效性進行驗證并進行有效性排序，通過特征工程進行特征篩選；

(C)采用堆疊(Stacking)方法作為集成學習的組合策略，構造謠言識別模型；

(D)輸入待檢測數據，得到每條信息為謠言的可能性大小。

進一步的，所述用戶可信度特征的具體構造步驟包括：

根據用戶是否認證f_verified、基本信息是否完整f_{InfoIntegrity}以及用戶影響力f_influence(u_i)計算得到用戶可信度，其計算公式如下：

f_credibility(u_i)＝f_verified+f_influence+f_{InfoIntegrity}；

f_verified表示用戶是否認證，取值為0或1；f_{InfoIntegrity}表示用戶的基本信息是否完整，基本信息包括用戶昵稱、用戶注冊地、個人描述、性別和頭像信息，取值為0或1；f_influence表示用戶影響力。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。