[發(fā)明專利]一種基于雙向傳播圖的多任務(wù)謠言檢測方法在審
| 申請(qǐng)?zhí)枺?/td> | 202110454550.0 | 申請(qǐng)日: | 2021-04-26 |
| 公開(公告)號(hào): | CN113094596A | 公開(公告)日: | 2021-07-09 |
| 發(fā)明(設(shè)計(jì))人: | 楊鵬;匡晨;田楊靜;于曉潭 | 申請(qǐng)(專利權(quán))人: | 東南大學(xué) |
| 主分類號(hào): | G06F16/9536 | 分類號(hào): | G06F16/9536;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 南京眾聯(lián)專利代理有限公司 32206 | 代理人: | 杜靜靜 |
| 地址: | 210096 *** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 雙向 傳播 任務(wù) 謠言 檢測 方法 | ||
1.一種基于雙向傳播圖的多任務(wù)謠言檢測方法,其特征在于,所述方法包括以下步驟:
步驟1,構(gòu)筑謠言和立場樣本數(shù)據(jù)集,
步驟2,多任務(wù)分類模型訓(xùn)練,
步驟3,對(duì)待檢測帖子進(jìn)行分類預(yù)測。
2.根據(jù)權(quán)利要求1所述的基于雙向傳播圖的多任務(wù)謠言檢測方法,其特征在于,步驟1,構(gòu)筑謠言和立場樣本數(shù)據(jù)集,具體如下,首先使用Twitter15和Twitter16數(shù)據(jù)集中的用戶uid,通過推特開放API獲取用戶信息,用于謠言檢測的任務(wù)訓(xùn)練,同時(shí),將PHEME數(shù)據(jù)集用于用戶評(píng)論立場檢測任務(wù)的訓(xùn)練,二者共同構(gòu)成多任務(wù)模型的訓(xùn)練數(shù)據(jù)集。
3.根據(jù)權(quán)利要求1所述的基于雙向傳播圖的多任務(wù)謠言檢測方法,其特征在于,步驟2,多任務(wù)分類模型訓(xùn)練,具體如下,對(duì)于數(shù)據(jù)集中的每一個(gè)謠言帖子,首先使用TF-IDF算法抽取其文本特征Xs,并生成用戶特征Xm=1和文本統(tǒng)計(jì)特征Xm=2,之后構(gòu)建謠言的雙向傳播圖,接著將文本特征Xs、用戶特征Xm=1和文本統(tǒng)計(jì)特征Xm=2作為輸入,通過計(jì)算雙向圖卷積并進(jìn)行根節(jié)點(diǎn)特征增強(qiáng)抽取謠言的傳播特征S,最后對(duì)傳播特征S進(jìn)行平均池化和特征整合后,訓(xùn)練softmax分類器。
4.根據(jù)權(quán)利要求1所述的基于雙向傳播圖的多任務(wù)謠言檢測方法,其特征在于,步驟2,多任務(wù)分類模型訓(xùn)練,該步驟實(shí)施過程分為7個(gè)子步驟:
子步驟2-1,使用TF-IDF算法生成文本特征矩陣Xs,針對(duì)每一個(gè)謠言帖子,對(duì)其包含的每一條推文使用TF-IDF算法生成文本特征向量并逐條拼接生成文本特征矩陣Xs,TF-IDF的計(jì)算公式如下:
TF-IDF(i,wj)=TF(i,wj)·IDF(wj) (3)
其中,TF(i,wj)表示推文i中單詞wj的詞頻,推文i中單詞wj出現(xiàn)的次數(shù)由Count(i,wj)表示,Count(i)表示推文i的單詞總數(shù);IDF(wj)表示單詞wj的逆向頻率,|T|表示推文總數(shù),CountTweets(wj)表示包含單詞wj的推文總數(shù);
子步驟2-2,生成用戶特征矩陣Xm=1,對(duì)于每一個(gè)謠言帖子,從其包含的每一條推文中抽取其對(duì)應(yīng)用戶的特征信息,生成用戶特征的向量表示,并逐條拼接生成用戶特征矩陣Xm=1,用戶特征信息的具體內(nèi)容如如表1所示:
表1 用戶特征
子步驟2-3,生成文本統(tǒng)計(jì)特征矩陣Xm=2,對(duì)于每一個(gè)謠言帖子,從其包含的每一條推文中抽取其對(duì)應(yīng)推文的統(tǒng)計(jì)特征信息,生成文本統(tǒng)計(jì)特征的向量表示,并逐條拼接生成文本統(tǒng)計(jì)特征矩陣Xm=2,文本統(tǒng)計(jì)特征信息的具體內(nèi)容如表2所示,
表2 文本統(tǒng)計(jì)特征
子步驟2-4,構(gòu)建雙向傳播圖,對(duì)于謠言帖子,根據(jù)其包含的所有推文間的轉(zhuǎn)發(fā)/回復(fù)關(guān)系,構(gòu)建鄰接矩陣A,若Ats=1,則說明存在節(jié)點(diǎn)t指向節(jié)點(diǎn)s的有向邊,之后使用DropEdge策略從A中隨機(jī)提出一些邊:
A′=A-Adrop (4)
其中Adrop為以概率p隨機(jī)從A中挑選的邊集合對(duì)應(yīng)的鄰接矩陣,于是,對(duì)于自頂向下傳播圖,其鄰接矩陣為ATD=A′,而對(duì)于自底向上傳播圖,其鄰接矩陣為ABU=A′T,
子步驟2-5,抽取謠言傳播特征,將子步驟2-1、2-2和2-3生成的文本特征矩陣Xs、用戶特征矩陣Xm=1和文本統(tǒng)計(jì)特征矩陣Xm=2輸入改進(jìn)Bi-GCN網(wǎng)絡(luò)中,通過計(jì)算雙向圖卷積,抽取謠言的傳播特征,以自頂向下圖卷積神經(jīng)網(wǎng)絡(luò)(TD-GCN)為例,參數(shù)共享層的第一層TD-GCN對(duì)應(yīng)的隱藏矩陣定義為:
其中為可訓(xùn)練的參數(shù)矩陣;
而特定任務(wù)層的第一層TD-GCN對(duì)應(yīng)的隱藏特征矩陣定義為:
其中,為歸一化鄰接矩陣,定義為:
由鄰接矩陣和對(duì)角矩陣IN計(jì)算得出,定義為:
為鄰接矩陣對(duì)應(yīng)的度矩陣,定義為:
σ(·)為非線性的ReLU激活函數(shù);
之后再用同樣的方法計(jì)算特定任務(wù)層的第二層TD-GCN的隱藏特征矩陣
使用相同的方法計(jì)算出自底向上圖卷積神經(jīng)網(wǎng)絡(luò)(BU-GCN)的隱藏特征矩陣和
子步驟2-6,根節(jié)點(diǎn)特征增強(qiáng),對(duì)于TD-GCN,計(jì)算隱藏特征矩陣對(duì)節(jié)點(diǎn)i的特征向量進(jìn)行線性變換將其轉(zhuǎn)換為高維表示,其中U為一個(gè)可訓(xùn)練的參數(shù)矩陣;
接著,使用注意力機(jī)制計(jì)算根節(jié)點(diǎn)root對(duì)于節(jié)點(diǎn)i的Attention Score:
其中,為節(jié)點(diǎn)root對(duì)應(yīng)的特征向量,為可訓(xùn)練的參數(shù)向量,
之后計(jì)算節(jié)點(diǎn)i對(duì)應(yīng)的根節(jié)點(diǎn)特征增強(qiáng)向量,定義為:
其中σ(·)為非線性的sigmoid激活函數(shù),
因此,TD-GCN在根節(jié)點(diǎn)增強(qiáng)后生成的特征矩陣為:
結(jié)合公式(5)和公式(6)后得到隱藏矩陣
通過將公式(10)中的特征矩陣和替換為和得到隱藏特征矩陣的計(jì)算公式更新為:
結(jié)合公式(13)后得到隱藏矩陣
對(duì)于自底向上的圖卷積網(wǎng)絡(luò)BU-GCN,計(jì)算隱藏特征矩陣參照TD-GCN根節(jié)點(diǎn)增強(qiáng)特征計(jì)算過程中的公式(11)計(jì)算BU-GCN中節(jié)點(diǎn)i對(duì)根節(jié)點(diǎn)root的Attention Score:
根節(jié)點(diǎn)root的特征增強(qiáng)向量定義:
于是,BU-GCN在根節(jié)點(diǎn)增強(qiáng)后生成的特征矩陣為:
其中,為的拷貝,參照公式(14)、公式(15)和公式(16),BU-GCN的隱藏矩陣分別為和
子步驟2-7,特征融合及分類結(jié)果輸出。對(duì)于謠言檢測任務(wù),用平均池化操作整合TD-GCN的順序傳播特征STD和BU-GCN提取出的廣度散布特征SBU:
使用拼接操作后獲得整合特征S,定義為:
S=concat(STD,SBU) (25)
將整合特征S依次經(jīng)過一個(gè)全連接層和一個(gè)softmax分類器后,獲得謠言檢測結(jié)果定義為:
其中,為歸一化概率,為謠言事件屬于標(biāo)簽i的概率,謠言檢測任務(wù)的最終結(jié)果為概率最大的標(biāo)簽定義為:
對(duì)于立場檢測任務(wù),將TD-GCN和BU-GCN提取出的隱藏層特征進(jìn)行拼接,獲得一個(gè)整合特征矩陣Z:
定義向量為事件中第i條推文在特征矩陣Z對(duì)應(yīng)的特征向量,將其依次送入一個(gè)全連接層和一個(gè)softmax分類器后,即可獲得第i條推文的立場檢測結(jié)果定義為:
其中,為歸一化概率,為推文立場屬于標(biāo)簽j的概率,立場檢測任務(wù)的最終結(jié)果為概率最大的標(biāo)簽定義為:
5.根據(jù)權(quán)利要求1所述的基于雙向傳播圖的多任務(wù)謠言檢測方法,其特征在于,步驟3,對(duì)待檢測帖子進(jìn)行分類預(yù)測,對(duì)于待檢測帖子,首先使用TF-IDF算法抽取其文本特征Xs,并生成用戶特征Xm=1和文本統(tǒng)計(jì)特征Xm=2,之后構(gòu)建謠言的雙向傳播圖,接著將文本特征Xs、用戶特征Xm=1和文本統(tǒng)計(jì)特征Xm=2作為輸入,通過計(jì)算雙向圖卷積并進(jìn)行根節(jié)點(diǎn)特征增強(qiáng)抽取謠言的傳播特征,最后對(duì)傳播特征進(jìn)行平均池化和特征整合后,輸入步驟2中訓(xùn)練好的softmax分類器獲取謠言檢測和立場檢測結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于東南大學(xué),未經(jīng)東南大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110454550.0/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種管接頭組件
- 下一篇:一種機(jī)器人視覺裝置及機(jī)器人
- 雙向無線電能監(jiān)控系統(tǒng)
- 雙向無線電能監(jiān)控系統(tǒng)
- 電動(dòng)車電機(jī)自動(dòng)變速器雙向驅(qū)動(dòng)盤
- 電動(dòng)車電機(jī)自動(dòng)變速器雙向驅(qū)動(dòng)盤
- 一種沖床離合制動(dòng)器機(jī)構(gòu)
- 一種沖床離合制動(dòng)器機(jī)構(gòu)
- 雙向多步DeBruijn圖的自環(huán)雙向邊識(shí)別與去除方法
- 雙向調(diào)節(jié)機(jī)構(gòu)
- 基于HVDC網(wǎng)絡(luò)與AC環(huán)網(wǎng)的分布式發(fā)電系統(tǒng)
- 一種矩形板回彈曲率的建模方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 任務(wù)協(xié)作裝置及方法
- 用于量化任務(wù)價(jià)值的任務(wù)管理方法及裝置
- 用于運(yùn)行任務(wù)的系統(tǒng)、方法和裝置
- 一種分布式任務(wù)調(diào)度系統(tǒng)及方法
- 任務(wù)信息處理方法
- 一種同步任務(wù)異步執(zhí)行的方法和調(diào)度系統(tǒng)
- 數(shù)據(jù)處理方法、裝置、電子設(shè)備及計(jì)算機(jī)可讀介質(zhì)
- 一種自動(dòng)分配和推送的任務(wù)管理平臺(tái)及方法
- 程序執(zhí)行控制的裝置及方法、終端和存儲(chǔ)介質(zhì)
- 基于會(huì)話的任務(wù)待辦方法、系統(tǒng)、電子設(shè)備及存儲(chǔ)介質(zhì)





