[發明專利]基于偽孿生網絡的虛假新聞檢測方法有效
| 申請號: | 202210838961.4 | 申請日: | 2022-07-18 |
| 公開(公告)號: | CN115309860B | 公開(公告)日: | 2023-04-18 |
| 發明(設計)人: | 劉勇;姜凱育;玄萍;黎玲利 | 申請(專利權)人: | 黑龍江大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F16/55;G06F16/583;G06F16/9536;G06F18/25;G06F18/241;G06N3/0442;G06N3/048;G06N3/08;G06Q50/00;G06V10/44;G06V10/764;G06 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 150000 黑龍江省哈爾*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 孿生 網絡 虛假 新聞 檢測 方法 | ||
1.基于偽孿生網絡的虛假新聞檢測方法,其特征在于,該方法的模型主要包括特征提取器和匹配網絡,該方法具體步驟如下:
1)對于輸入的新聞數據,分別將文本數據和圖像數據輸入對應的特征提取器,獲取文本和圖像兩個層次的特征;
2)將學習到的文本和圖像特征作為匹配網絡的輸入,匹配網絡把它們映射到一個新的目標空間中,使用一個匹配度量函數進一步衡量兩個特征在語義上的匹配程度;
3)根據匹配網絡的輸出,進而預測新聞內容的真實性;
將同一篇新聞中兩種模態的數據作為匹配網絡的兩個輸入,對于第i條新聞數據xi,其文本特征和圖像特征分別用Ti和Pi來表示;用X={x1,x2,x3...xn}代表一個新聞集合,其中n是新聞的數量,每一條新聞數據xi由文本內容ti和圖像內容pi構成,yi表示xi對應的新聞真實性標簽,匹配網絡根據新聞數據xi的文本內容ti和圖像內容pi分析出xi是真實新聞或是虛假新聞的概率;
特征提取器中的文本特征表示:每條新聞數據的文本內容ti是由m個詞語構成的:t1={W1,W2,W3...Wm},每個詞語wi∈W使用詞嵌入向量表示,每個詞嵌入向量是由一個在大型語料庫數據集上進行無監督預訓練的深度神經網絡獲得,使用Glove獲取詞語的詞嵌入表示;
使用BiLSTM來獲取文本特征表示;BiLSTM在是LSTM的基礎上結合了輸入序列在前向和后向兩個方向上的信息;對于t時刻的輸出,前向LSTM層具有輸入序列中t時刻以及之前時刻的信息,而后向LSTM層中具有輸入序列中t時刻以及之后時刻的信息;在第t時間BiLSTM執行的操作表達式如下:
it=σ(Wi·xt+Ui·ht-1)
ft=σ(Wf·xt+Uf·ht-1)
ot=σ(Wo·xt+Uo·ht-1)
其中,Wi,Wf,Wo,Wc,Ui,Uf,Uo,Uc是權重矩陣;xt,ht是在t時間的輸入狀態和隱狀態;σ是sigmoid函數,表示按元素乘積;
最終的文本特征向量T,表示為t時刻隱狀態的平均值:
其中,m是微博文本的長度;
特征提取器中的圖像特征表示:在特征提取器中使用預訓練的ResNet50來獲取圖像的特征;將預訓練模型全連接層的最后一層替換,然后將輸入圖像Pi的大小調整為448×448,并劃分為14×14個區域;對于每一個區域Ij=(j=1,2,...,196),都通過ResNet50模型來獲取區域的特征向量Vj=ResNet(Ij);
將區域的特征向量進行平均得到圖像的特征向量P:
其中,Nr代表區域的數量;
匹配網絡:匹配網絡的目標是從數據中學習兩個映射函數和這兩個映射函數能夠將輸入的特征映射到一個新的目標空間,使目標空間中特征之間的歐氏距離與原空間中特征之間的語義距離相近,將其表示為:
如果在目標空間中特征之間的距離小于設定的閾值ε,說明xi的文本內容與圖像內容在語義上是高度匹配的,即說明xi的真實性較高,反之亦然;上述過程用公式表示為:
其中,ε為超參數;
在模型訓練過程中,通過對比損失函數來優化匹配網絡,對比損失函數的表達式如下:
其中,n表示數據量,yi為新聞的標簽。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于黑龍江大學,未經黑龍江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210838961.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種動力轉向器噪音模擬測試裝置
- 下一篇:一種3-羥基吡啶的合成工藝





