[發明專利]基于多級交互和圖重構的異構圖卷積謠言檢測方法在審
| 申請號: | 202210665703.0 | 申請日: | 2022-06-14 |
| 公開(公告)號: | CN114880479A | 公開(公告)日: | 2022-08-09 |
| 發明(設計)人: | 郭軍軍;王繁;相艷;余正濤 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/33;G06F16/36;G06F16/9536;G06F40/216;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 昆明隆合知識產權代理事務所(普通合伙) 53220 | 代理人: | 何嬌 |
| 地址: | 650500 云南*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 多級 交互 圖重構 構圖 卷積 謠言 檢測 方法 | ||
1.基于多級交互和圖重構的異構圖卷積謠言檢測方法,其特征在于:所述方法的具體步驟如下:
Step1、對謠言數據集進行預處理,通過詞頻-逆文檔頻率TF-IDF構建文本與詞之間的關系Epw,互信息PMI來計算詞與詞節點之間邊的權重Eww,用戶轉發或回復源推文的時間倒數構建文本與用戶之間的關系權重Epu;將構建的文本-詞-用戶圖分解為文本-詞子圖和文本-用戶子圖;
Step2、通過雙通道卷積層分別使用圖卷積GCN和圖注意力網絡GAT學習子圖節點特征,將圖卷積層獲得的節點特征利用變分圖自編碼VGAE實現圖重構為節點尋找更好的嵌入向量,再對文本-詞子圖中的全局語義關系和文本-用戶子圖的用戶傳播信息嵌入向量利用決策級全局特征策略和自適應門控融合策略進行有效地過濾篩選,采用聯合訓練同時學習和更新各子圖之間的參數。
2.根據權利要求1所述的基于多級交互和圖重構的異構圖卷積謠言檢測方法,其特征在于:所述Step1的具體步驟為:
Step1.1、通過詞頻-逆文檔頻率TF-IDF、互信息PMI、用戶轉發或回復源推文的時間的倒數來計算邊的權重,分別構建文本-詞關聯圖和文本-用戶子圖:
G=(V,E) (1)
V=(P,W,U) (2)
E=(Epw,Eww,Epu) (3)
其中,V=(P,W,U)和E=(Epw,Eww,Epu)分別表示圖中節點和邊的集合,由三部分組成:句子集合P、詞集合W和用戶集合U,P={p1,p2,...,pm}是網絡輿情下的多條文本信息,m表示文本數量,W={w1,w2,...,wn}是所有文本經過分詞后的單詞,U={u1,u2,...,uo}表示社交媒體中的用戶集合;Epw,Eww,Epu分別代表文本與詞、詞與詞、文本與用戶之間的關系;
Step1.2、對于文本與詞的關系Epw,使用詞頻-逆文檔頻率TF-IDF的方法來計算句子節點i和詞節點j之間邊的權重,具體如下:
TF-IDFij=TFij×IDFJ (4)
Step1.3、為了利用詞的全局共現信息,使用互信息PMI來計算詞與詞節點之間邊的權重Eww;
Step1.4、文本與用戶之間的關系權重Epu是用戶轉發或回復與源推文相關的文本的時間倒數。
3.根據權利要求1所述的基于多級交互和圖重構的異構圖卷積謠言檢測方法,其特征在于:所述Step2的具體步驟如下:
Step2.1、經過分解后的文本-詞子圖節點表示為文本-用戶子圖節點表示為X’P和X’U是通過變換矩陣變換后的節點表示;利用GCN對子圖進行編碼,首先采用GCN學習高斯分布,然后從該分布中采樣z,高斯分布由均值μ和標準差σ分別唯一地確定,最后通過圖重構生成一個新的鄰接矩陣;
Apw和Apu分別表示文本-詞子圖和文本-用戶子圖之間關系的鄰接矩陣,通過GCN分別學習均值μ和標準偏差σ,采用重新參數化方法構造z及更新梯度,公式如下:
H1=GCN(X,Apw)=Apwσ(ApwXW0)W1, (6)
μ=GCNμ(H1,Apw) (7)
logσ=GCNσ(H1,Apw) (8)
zpw=μ+∈σ (9)
其中表示第一層GCN的隱藏向量,是Apw鄰接矩陣的特征向量,∈是從標準高斯分布中取樣的參數,W0,W1是GCN的可訓練參數,GCNμ(H1,Apw)和GCNσ(H1,Apw)共享第一層GCN參數,采用相同的計算方法學習文本-用戶子圖的高斯分布zpu;
為了獲得足夠的表達能力,使用GAT學習子圖中節點之間的權重,圖注意力層的設計如下:
eij=LeakyReLU(Waxi,Wqxj),xi,xj∈Xpw(pu) (10)
其中Wa,Wq,Wk為可訓練的參數,aij為節點xi和其鄰居節點xj的注意力權重;
最后,將自注意力機制擴展到多頭自注意力以學習更穩定的嵌入;
其中||表示串聯運算,是由第k個注意力機制ak計算的歸一化注意力系數,Wk是經過線性變換的權重矩陣;
給定文本-詞子圖和文本-用戶子圖節點表示Xpw和Xpu,將節點表示輸入子圖注意力網絡后,得到文本-詞子圖的節點嵌入和具有全局關系信息的文本-用戶子圖嵌入
Step2.2、變分圖自編碼VGAE為圖中的節點尋找合適的嵌入向量,實現圖的重構;解碼模塊使用內積和sigmoid函數重建原始圖,重建的鄰接矩陣通過以下公式獲得:
其中σ1為sigmoid函數,分別代表zpw和zpu的矩陣形式,目標是希望重構后的鄰接矩陣盡可能的與原始矩陣Apw(pu)相似;
由于Zpw和Zpu是通過采樣獲得,在重建鄰接矩陣的過程中,噪聲會增加重建的難度,應用分類交叉熵損失重建鄰接矩陣,該過程表示為:
其中m和分別是Apw(pu)和中的元素;
除了重建損失外,為了防止噪聲為0并確保模型具有生成能力,還在損失函數中加入KL散度,最小化意味著優化概率分布參數μ和σ,使其盡可能接近目標分布,即高斯分布;
其中是隱藏變量Zpw(pu)的維數,分別表示子圖中所有節點的數量;
Step2.3、文本-詞子圖包含文本內容的全局語義關系信息,而文本-用戶子圖包含源文傳播所涉及的信息;然而,當融合包含兩個子圖的信息時,全局語義特征和用戶傳播特征之間的巨大差異會導致無用的特征影響檢測性能,在此基礎上,設計一種決策級檢測的子圖特征融合方法,包括決策級全局特征融合策略和自適應門控融合策略;給定節點嵌入X’pw和X’pu,從高斯分布采樣后的潛在表示Zpw和Zpu作為全局特征融合網絡的輸入,文本-詞和文本-用戶子圖的權重計算為如下:
其中是文本-詞子圖的全局語義特征,是文本-用戶子圖的全局用戶傳播特征,attglo表示執行全局特征融合策略的前饋神經網絡;
為了學習兩個子圖的權重,首先通過非線性變換單層MLP變換子圖中節點的表示,然后將節點表示的重要性衡量為轉換后的嵌入與全局特征注意向量q的相似性;此外,將子圖中所有節點的重要性平均為子圖的重要性,文本-詞、文本-用戶子圖的重要性記為Wpw(pu),如下所示:
其中W是權重矩陣,b是偏置向量,q是全局注意力向量,以上所有參數由文本-詞子圖和文本-用戶子圖共享,在得到每個子圖的重要性后,通過softmax函數進行歸一化,表示子圖的權重,計算公式如下所示:
最后,通過學習子圖的權重系數,融合子圖中的文本節點表示,得到事件源文表示Pm,計算公式如下:
Pm={p1,p2,...,pm} (23)
其中m是事件文本的數量,P’Φ為Φ子圖中具有全局關系信息的文本句子節點表示;
通過將兩個子圖中的潛在表示連接起來作為自適應門控融合策略的輸入,設計門單元來促進神經元之間的競爭或協作,從每個子圖特征中選擇更有利于謠言檢測的特征,自適應門融合網絡表示為:
S=[S’pw;S’pu] (25)
g=σ1(Wgat·S+b) (26)
Ggat=tanh(g⊙S) (27)
其中S表示文本-詞子圖和文本-用戶子圖的節點特征的連接,包括全局語義特征和用戶傳播特征,g是自適應門控融合單元的狀態,Ggat表示共享特征S經過自適應門控融合單元后的特征,Wgat是權重矩陣,b是偏置向量,σ1是sigmoid激活函數;
作為最后一層,全局注意力特征pi和局部門特征Ggat然后分別經過softmax層進行分類,公式如下:
使用交叉熵損失和正則化項作為模型的目標優化函數來訓練模型的參數,計算如下:
其中yi表示第i個源文的真實標簽,為防止過擬合的L2正則項,η為平衡損失參數;
Step2.4、通過多圖卷積編碼模塊對文本語義信息和用戶傳播信息進行編碼,圖重構解碼模塊的目的是重構數據以學習結構信息,而多特征決策檢測模塊是為了更好的對事件進行分類,通過最小化所有事件的損失來共同訓練模塊;
其中κ也是平衡損失參數,由于圖重構解碼模塊的損失遠大于事件源文分類的損失,通過設計平衡損失參數來優化損失函數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210665703.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:自清潔型抗紫外防霧膜及生產方法
- 下一篇:一種燃氣電子烤爐控制系統





