[發(fā)明專利]基于多級交互和圖重構的異構圖卷積謠言檢測方法在審
| 申請?zhí)枺?/td> | 202210665703.0 | 申請日: | 2022-06-14 |
| 公開(公告)號: | CN114880479A | 公開(公告)日: | 2022-08-09 |
| 發(fā)明(設計)人: | 郭軍軍;王繁;相艷;余正濤 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/33;G06F16/36;G06F16/9536;G06F40/216;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 昆明隆合知識產(chǎn)權代理事務所(普通合伙) 53220 | 代理人: | 何嬌 |
| 地址: | 650500 云南*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 多級 交互 圖重構 構圖 卷積 謠言 檢測 方法 | ||
本發(fā)明涉及多級交互和圖重構的異構圖卷積謠言檢測方法,屬自然語言處理領域。本發(fā)明包括:預處理謠言數(shù)據(jù)集,使用詞頻?逆文檔頻率(TF?IDF)、互信息(PMI)等方法構建文本?詞子圖和文本?用戶子圖;利用多圖卷積編碼模塊和多圖重構解碼模塊探索文本語義信息和用戶傳播模式,然后建立決策級檢測模塊通過多任務學習來平衡全局和局部特征融合過程;最后輸出層使用線性變換和softmax函數(shù)去預測當前序列中的事件標簽。本發(fā)明采用多任務學習的方式,通過圖卷積和圖注意力機制對文本語義和用戶信息進行編碼,圖重構解碼學習結(jié)構信息并利用選擇過濾機制促進謠言檢測。本發(fā)明在公共數(shù)據(jù)集上有更高的準確性并優(yōu)于當前最先進模型。
技術領域
本發(fā)明涉及基于多級交互和圖重構的異構圖卷積謠言檢測方法,屬于自然語言處理領域。
背景技術
社交媒體中的謠言的早期檢測需要考慮動態(tài)傳播的語義信息,這是文本挖掘領域中一個重要而富有挑戰(zhàn)性的任務。大多數(shù)的謠言檢測方法只關注上下文信息、用戶配置文件或傳播模式的一部分,并且只有很少的人考慮在社交媒體上傳播線索的全局級語義信息,然而,語義信息和傳播模式對于社交媒體上的謠言檢測都很重要。
隨著NLP的快速發(fā)展,最近的許多研究已經(jīng)融合多個特征來更好地實現(xiàn)檢測。例如,Shu開發(fā)文本評論結(jié)合注意網(wǎng)絡來學習句子和評論的可解釋性;Wu提出一種自適應融合網(wǎng)絡,實現(xiàn)文本與評論之間情感關聯(lián)和語義沖突的交互融合,并建立特征關聯(lián),提高了謠言檢測的性能。此外,圖卷積網(wǎng)絡(GCN)作為最近幾年來很受歡迎的神經(jīng)網(wǎng)絡結(jié)構。一些研究探索了社交媒體信息的拓撲結(jié)構,以便從傳播結(jié)構中獲得有效的特征。Bian等人創(chuàng)建雙向圖卷積網(wǎng)絡,通過自上而下和自下而上的模式研究謠言傳播和擴散;Liu等人為了增強全局結(jié)構信息,首次將變分圖自編碼器(Variational graph auto-encoders,VGAE)應用于謠言檢測研究,并取得了有效的結(jié)果,設計了一個捕獲文本、傳播和結(jié)構信息的模型。然而當前的檢測方法過于關注一些上下文語義信息,很少考慮用戶傳播對社交媒體的影響;其次,一些更先進的模型旨在使用用戶社交活動作為輔助信息,例如用戶評論、回復和用戶個人信息,這些信息通常為識別謠言提供有力的證據(jù),但是大多數(shù)融合策略都基于級聯(lián)、加法或簡單的神經(jīng)網(wǎng)絡,并且沒有充分考慮特征之間的差異;最后,盡管豐富的用戶評論信息對于檢測非常重要,但社交媒體上的大多數(shù)用戶傾向于簡單地重新分享源故事,而不留下任何評論。如何更好地表示和融合文本語義特征與用戶傳播模式是謠言檢測的一大挑戰(zhàn)。
發(fā)明內(nèi)容
本發(fā)明提供了基于多級交互和圖重構的異構圖卷積謠言檢測方法,充分利用異構圖中文本語義特征與用戶傳播結(jié)構特征之間的差異并很好的學習到圖中的全局結(jié)構信息以提升謠言檢測任務的性能。
本發(fā)明技術方案:基于多級交互和圖重構的異構圖卷積謠言檢測方法,所述方法的具體步驟如下:
Step1、對Twitter15、Twitter16的謠言數(shù)據(jù)集進行預處理,通過詞頻-逆文檔頻率(TF-IDF)構建文本與詞之間的關系Epw,互信息(PMI)來計算詞與詞節(jié)點之間邊的權重Eww,用戶轉(zhuǎn)發(fā)或回復源推文的時間倒數(shù)構建文本與用戶之間的關系權重Epu;將構建的文本-詞-用戶圖分解為文本-詞子圖和文本-用戶子圖。
Step2、通過雙通道卷積層分別使用圖卷積(GCN)和圖注意力網(wǎng)絡(GAT)學習子圖節(jié)點特征,將圖卷積層獲得的節(jié)點特征利用變分圖自編碼(VGAE)實現(xiàn)圖重構為節(jié)點尋找更好的嵌入向量,再對文本-詞子圖中的全局語義關系和文本-用戶子圖的用戶傳播信息嵌入向量利用決策級全局特征策略和自適應門控融合策略進行有效地過濾篩選,采用聯(lián)合訓練同時學習和更新各子圖之間的參數(shù)。
作為本發(fā)明的進一步方案,所述Step1的具體步驟為:
Step1.1、通過詞頻-逆文檔頻率(TF-IDF)、互信息(PMI)、用戶轉(zhuǎn)發(fā)或回復時間的倒數(shù)來計算邊的權重,分別構建文本-詞關聯(lián)圖和文本-用戶子圖:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經(jīng)昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210665703.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





