[發明專利]一種基于原文和評論信息分析算法的虛假信息檢測方法有效
| 申請號: | 202011626342.6 | 申請日: | 2020-12-31 |
| 公開(公告)號: | CN112765313B | 公開(公告)日: | 2022-06-28 |
| 發明(設計)人: | 王莉;楊延杰;王宇航 | 申請(專利權)人: | 太原理工大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/216;G06F40/284;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 太原高欣科創專利代理事務所(普通合伙) 14109 | 代理人: | 崔浩;冷錦超 |
| 地址: | 030024 *** | 國省代碼: | 山西;14 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 原文 評論 信息 分析 算法 虛假 檢測 方法 | ||
1.一種基于原文和評論信息分析算法的虛假信息檢測方法,其特征在于:包括如下檢測步驟:
步驟一:對評論與原文的全局結構進行信息捕獲,基于信息原文與評論以及評論與評論之間的回復關系構建回復結構圖,在原文和評論的全局角度,深入挖掘評論的回復結構信息和評論與原文的相互選擇;
步驟1.1:捕獲回復結構信息;對依據回復關系構建的回復結構圖,通過圖卷積神經網絡來依據結構聚合信息,得到每個節點包含結構信息的全局表示;
定義待檢測信息Pi的回復結構圖表示為Gi={Vi,Ei},其中Vi為節點集合,Ei為邊集合;定義節點集合表示原文節點和對應的m個評論,原文節點與評論兩兩之間依據是否具有回復關系相連,然后將該回復結構圖的鄰接矩陣和特征矩陣用于計算和學習結構表示,其中鄰接矩陣描述節點之間的拓撲結構,特征矩陣描述節點的特征表示;
所述捕獲回復結構信息的具體過程為:
定義鄰接矩陣A∈R(m+1)×(m+1),其中元素為:
定義特征矩陣X∈R(m+1)×n,n為特征表示的維度,m+1為節點個數;
采用圖卷積神經網絡GCN依據結構信息進行信息聚合,使得每個節點能夠依據結構聚合周圍節點的信息以得到更好的表示,通過兩次的GCN,得到包含結構信息的節點表示為:
H1=tanh(AXW0);
H2=tanh(AH1W1);
其中H1,H2∈R(m+1)×l表示通過兩次GCN聚合之后的特征表示;W0∈Rn×l,W1∈Rl×l為GCN中可學習的參數;
得到聚合結構信息的特征表示之后,顯式的加入自注意力機制來考慮任意評論之間的影響而不僅僅局限于具有回復結構的信息之間,自注意力機制通過以下公式得到結果:
式中輸入的Q=K=V=H2[1:],即將除原文節點之外的評論節點的表征矩陣輸入以考慮所有評論之間的影響,d為輸入維度數;
步驟1.2:評論與原文的相互選擇,定義原文單詞與評論之間的互注意力機制來考慮相互選擇;
所述評論與原文的相互選擇的具體過程為:
定義原文單詞與所有評論的親和力矩陣F,矩陣F為原文單詞與評論的公共子空間,矩陣F的計算公式為:
F=tanh(CTWcsS);
式中C為通過步驟1.1得到的評論特征矩陣,S為原文每個單詞表征構成的特征矩陣,Wcs為可學習的參數;
基于親和力矩陣F,可以得到原文每個單詞以及每個評論各自的注意力值,計算公式為:
Hc=tanh(WsS+(WcCF));
Hs=tanh(WcC+(WsSFT));
其中Hc,Hs為中間結果矩陣,as,ac為各自的權重矩陣,Wc,Ws,Whs,Whc為可學習的參數,然后采用加權的方式得到原文的全局特征表示:
其中k為原文中的單詞個數,m為對應的評論個數,和為經過相互選擇之后聚合得到的向量,由此可以得到原文和評論的全局特征表示為
步驟二:捕獲評論內部的局部時序信息;將信息的評論按照時間順序排列,利用TextCNN得到基于評論內部局部特征的評論表示;
利用固定大小的滑動窗口建模局部時序內的評論以捕獲動態變化;
所述捕獲評論內部局部時序信息的具體過程為:
對所有評論依據發布時間表示為…ct,t…,即用戶在t時刻發布了評論ct,依據t進行排序得到按時間排序的評論序列,記為C′=c1,…,cm,并通過滑動窗口W在連續評論之間卷積的方式捕捉其局部特征;
捕捉局部特征的過程為:
設TextCNN有濾波器W∈RT×n,窗口大小為T,表示一次同時有T個評論在同一個窗口中,同時疊加k個濾波器W,并且設置填充操作padding防止卷積過程中丟失數據,默認為padding=1;然后將濾波器應用到窗口上,依次從第一個評論滑動到最后一個評論,得到最終的特征矩陣Xt∈Rm×k;
為提取高頻信息,將最大池化操作作用于Xt,得到最終捕獲信息的輸出為:
hlocal=max(Xt);
步驟三:檢測虛假信息;將上述通過捕獲的回復結構信息和相互選擇信息后的全局特征表示與局部特征表示拼接后輸入全連接層,得到該信息屬于虛假信息的概率值。
2.根據權利要求1所述的一種基于原文和評論信息分析算法的虛假信息檢測方法,其特征在于:所述步驟三中檢測虛假信息的具體過程為:
使用帶有softmax激活函數的全連接層將待測信息表示映射為屬于虛假信息的概率值,概率值的計算公式為:
式中表示新聞為真或假的預測標簽概率值,Wh是權重,bh是偏置項;
定義交叉熵損失函數為:
其中θ是整個算法網絡的參數,y=[y0,y1]是真實標簽取值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于太原理工大學,未經太原理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011626342.6/1.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





