[發明專利]一種基于深度學習和多模態的謠言檢測方法在審
| 申請號: | 202011249729.4 | 申請日: | 2020-11-10 |
| 公開(公告)號: | CN112200197A | 公開(公告)日: | 2021-01-08 |
| 發明(設計)人: | 于永新;杜亮;張晴 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06K9/34 | 分類號: | G06K9/34;G06K9/62;G06F40/30;G06F40/284;G06N3/04;G06N3/08 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 杜文茹 |
| 地址: | 300350 天津市津南區海*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 多模態 謠言 檢測 方法 | ||
一種基于深度學習和多模態的謠言檢測方法:對微博原始數據進行預處理;將預處理得到的數據輸入到ALBERT預訓練模型中進行詞訓練,生成詞向量;將詞向量輸入到雙向長短期記憶網絡模型中,得到微博文本的上下文語義特征向量;將詞向量輸入到卷積神經網絡模型中,得到微博文本的局部語義特征向量;將微博文本的上下文語義特征向量與局部語義特征向量進行特征拼接,得到微博文本的深層語義特征向量;提取基于微博社交平臺特點的基本特征,進行歸一化得到微博的基本特征向量;將微博文本的深層語義特征向量和微博的基本特征向量進行拼接得到的特征向量輸入到softmax中,得到分類結果。本發明可以實現社交網絡平臺中謠言的精確檢測。
技術領域
本發明涉及一種謠言檢測方法。特別是涉及一種基于深度學習和多模態的謠言檢測方法。
背景技術
隨著互聯網技術的飛速發展和終端設備的興起,微博這類在線社交平臺的用戶量不斷增加,每個人都可以在微博上查閱新聞或自由的發表言論,而這種自由引發了許多不正確信息的傳播。目前,微博已經成為謠言擴散的一個平臺,它的便利性很容易導致謠言信息的爆發式傳播,從而引起社會恐慌,擾亂社會秩序,也會影響我們對事件的正確認知。所以為了保證用戶獲得正確可靠的信息,對微博這類社交媒體中的謠言進行檢測成為一項重要的任務。
目前謠言檢測模型主要可以基于兩種方法,一種是基于機器學習的技術,比如通過樸素貝葉斯、支持向量機、決策樹等方法來識別謠言,這種傳統的機器學習方法需要人工的提取特征,所以容易受到人為主觀性的影響,而且費時費力,也難以挖掘謠言文本的深層語義特征。另一種是基于深度學習的技術,它具有很強的特征學習能力,可以通過構建多層神經網絡來學習潛在特征,在自然語言處理領域取得了優良的表現。其中主流的神經網絡模型都是基于CNN和RNN進行的構建,CNN具有關注局部信息的特點,能更有效的提取文本的局部信息。而RNN在隱含層中加入了自連和互連的機制,能夠更好的讀取上下文信息,并進行記憶,所以能更有效的提取文本的上下文信息。但RNN模型存在梯度消失或梯度爆炸的缺點,所以提出了長短時記憶網絡模型LSTM。
傳統的謠言檢測模型普遍采用的機器學習的技術,主要提取謠言信息中的文本特征、用戶特征和傳播特征,然后基于機器學習的分類算法來構建分類器進行謠言的識別。近年來,神經網絡和深度學習的相關研究飛速發展,相應的謠言檢測技術也應運而生,它們通過神經網絡模型來挖掘謠言信息中的深層次語義,與傳統的機器學習方法相比,顯著提升了謠言識別精度。但隨著互聯網的發展,帶圖片的新聞數量占比越來越大,如果不作考慮,則會遺漏其他模態的重要信息,識別精度也難以達到預期。
發明內容
本發明所要解決的技術問題是,提供一種可以實現社交網絡平臺中謠言的精確檢測的基于深度學習和多模態的謠言檢測方法。
本發明所采用的技術方案是:一種基于深度學習和多模態的謠言檢測方法,包括如下步驟:
1)對微博原始數據進行預處理;
2)將預處理得到的數據輸入到ALBERT預訓練模型中進行詞訓練,生成詞向量;
3)將詞向量輸入到雙向長短期記憶網絡模型中,得到微博文本的上下文語義特征向量;
4)將詞向量輸入到卷積神經網絡模型中,得到微博文本的局部語義特征向量;
5)將微博文本的上下文語義特征向量與局部語義特征向量進行特征拼接,得到微博文本的深層語義特征向量;
6)提取基于微博社交平臺特點的基本特征:用戶特征、傳播特征和圖片特征,其中,用戶特征包括關注數、粉絲數、互關數、注冊天數、是否認證、被@次數;傳播特征包括轉發數、評論數、是否原創;圖片特征通過VGG16網絡模型進行提取;對提取出的用戶特征、傳播特征和圖片特征進行歸一化,得到微博的基本特征向量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011249729.4/2.html,轉載請聲明來源鉆瓜專利網。





