[發明專利]一種基于地域與情感特征的微博謠言集成識別方法及裝置有效
| 申請號: | 201911197212.2 | 申請日: | 2019-11-29 |
| 公開(公告)號: | CN110990683B | 公開(公告)日: | 2022-08-23 |
| 發明(設計)人: | 吳渝;曾艷;李紅波 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G06F16/9532 | 分類號: | G06F16/9532;G06F16/35;G06K9/62 |
| 代理公司: | 重慶市恒信知識產權代理有限公司 50102 | 代理人: | 劉小紅;陳棟梁 |
| 地址: | 400065 重*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 地域 情感 特征 謠言 集成 識別 方法 裝置 | ||
1.一種基于地域與情感特征的微博謠言集成識別方法,其特征在于,包括以下步驟:
(A)計算機對采集到的互聯網微博數據進行清洗、打標;
(B)對已經完成打標操作的數據進行特征工程操作,在常用特征的基礎上構造出地域相關性、情感一致性和用戶可信度三個新特征,使用卡方檢驗對所有特征的有效性進行驗證并進行有效性排序,通過特征工程進行特征篩選;
(C)采用堆疊方法作為集成學習的組合策略,構造謠言識別模型;
(D)輸入待檢測數據,得到每條信息為謠言的可能性大小;
所述用戶可信度特征的具體構造步驟包括:
根據用戶是否認證fverified、基本信息是否完整fInfoIntegrity以及用戶影響力finfluence(ui)計算得到用戶可信度,其計算公式如下:
fcredibility(ui)=fverified+finfluence+fInfoIntegrity;
fverified表示用戶是否認證,取值為0或1;fInfoIntegrity表示用戶的基本信息是否完整,基本信息包括用戶昵稱、用戶注冊地、個人描述、性別和頭像信息,取值為0或1;finfluence表示用戶影響力;
所述步驟(B)的情感一致性特征的具體構造步驟包括:
分別對每條微博內容及其相關評論進行分詞處理,去停用詞,得到微博內容的詞向量集合mi表示第i條微博的詞向量集合,表示該微博所分得的詞語;
相對應的微博下每條評論的詞向量集合表示第i條微博下的第j條評論的詞向量集合,表示該條評論所分得的詞語;
分別將微博內容的詞向量集合mi和相對應的微博下每條評論的詞向量集合與大連理工大學的情感詞匯本體庫中的情感詞進行詞語匹配以得到每條信息中積極情感詞與消極情感詞的個數,得到該條消息或評論的情感傾向公式如下:
S=Cpos-Cneg
S表示當前詞集合的情感傾向,Cpos表示積極情感詞數,Cneg表示消極情感詞數,由此可得:
SO表示該詞向量集合最終的情感傾向,1表示積極情感傾向,-1表示消極情感傾向,0表示中立;計算微博mi下每條評論的情感傾向后利用如下公式計算評論的總體傾向:
最后,對比微博及其對應的評論的情感傾向,得到情感一致性特征;
所述地域相關性特征的具體構造步驟包括:
采用歐氏距離計算全國各地級市之間的距離,得到距離矩陣,歐氏距離計算公式如下:
dist(x,y)表示城市x與城市y之間的距離,而城市x的坐標為(x1,x2),城市y的坐標為(y1,y2);
針對用戶注冊地域與所發布的微博內容中地域的不同,設置距離閾值。
2.根據權利要求1所述的一種基于地域與情感特征的微博謠言集成識別方法,其特征在于,所述用戶影響力的計算步驟包括:
根據用戶的粉絲數、互相關注數計算得到用戶影響力finfluence(ui),公式如下:
其中,ui表示發布微博i的用戶,Cbifolowers表示用戶ui的互相關注數,Cfollowers表示用戶ui的粉絲數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911197212.2/1.html,轉載請聲明來源鉆瓜專利網。





