[發明專利]融合評論的多任務聯合謠言檢測方法在審
| 申請號: | 202110337896.2 | 申請日: | 2021-03-30 |
| 公開(公告)號: | CN113158075A | 公開(公告)日: | 2021-07-23 |
| 發明(設計)人: | 余正濤;王繁;郭軍軍;相艷;黃于欣;線巖團 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F16/9536 | 分類號: | G06F16/9536;G06F16/33;G06N3/04 |
| 代理公司: | 昆明人從眾知識產權代理有限公司 53204 | 代理人: | 何嬌 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 融合 評論 任務 聯合 謠言 檢測 方法 | ||
1.一種融合評論的多任務聯合謠言檢測方法其特征在于:
所述方法的具體步驟如下:
Step1、構建微博謠言數據集;
Step2、通過詞嵌入和位置嵌入分別對微博正文和用戶評論進行特征編碼,利用Transformer編碼器提取特征,將獲得的正文特征和評論特征進行融合提取共享特征,再對共享特征采用門控機制和注意力機制對用戶評論進行有效地過濾篩選。
2.根據權利要求1所述的融合評論的多任務聯合謠言檢測方法,其特征在于:所述步驟Step1的具體步驟為:
Step1.1、通過爬蟲技術爬取相關的熱門微博;包括爬取謠言微博、真實微博和微博下的用戶評論;
Step1.2、對上述數據集中的微博正文及評論進行過濾篩選,過濾篩選的方式如下所示:(1)、去除文本內容中的多余符號、超鏈接和特殊字符;(2)、去除微博中相同的用戶評論信息;
Step1.3、采用人工標注,獲得謠言數據集:首先對微博事件打上標簽,1為謠言微博,0為真實微博;針對某一個微博事件下的所有評論,同樣給它打上標簽,1表示該條用戶評論與微博描述的事件相關,0為與微博描述的事件不相關。
3.根據權利要求1所述的基于音節切分和詞切分聯合學習的多任務泰語分詞方法,其特征在于:所述步驟Step2包括:
Step2.1、正文微博正文編碼模塊用于提取微博正文的文本特征:設E1為某一事件下的一條微博正文,每條正文長度為l1,C={c1,c2,...,cN}是一組響應E1的用戶評論,每條用戶評論長度為l2;使用transformer編碼模塊對微博正文特征嵌入進行編碼;在編碼模塊中將位置編碼添加到詞嵌入表征中,位置編碼與詞嵌入表征具有相同的維數,編碼模塊核心是自注意力機制,具體如下:
ECon=E(x1,x2,...,xn) (1)
ECon=Q=K=V (2)
其中,ECon為微博正文輸入文本的詞嵌入表征,d表示微博正文和用戶評論每個字(詞)通過預訓練的搜狗新聞語料庫提取的詞向量維度,分別為查詢向量、鍵向量、值向量;為縮放因子;
多頭注意力通過不同的線性投影將Q,K,V進行h次線性投影,然后h次投影并行執行縮放點積注意,最后將注意結果串聯起來再次獲得新的表示;
Step2.2、采用transformer編碼模塊對用戶評論特征嵌入進行編碼;
Step2.3、采用transformer編碼模塊來提取正文-評論交叉注意力特征;
Step2.4、在共享特征層之后設計了一個特征篩選模塊;門控單元采用一個單一的門控單元過濾共享特征中無用的特征,與LSTM的遺忘門機制相似,共享特征通過sigmoid激活函數作為一種門控狀態,再與共享特征做點乘通過tanh激活函數作為當前狀態的輸出;
Step2.5、用戶評論編碼模塊提取的特征與共享特征層特征篩選模塊的輸出特征進行拼接后,應用softmax函數分別實現對不同任務的分類,給出特定任務的概率分布預測。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110337896.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于元強化學習的加工變形控制方法
- 下一篇:數字多波束校正與合成方法





