[發明專利]融合評論的多任務聯合謠言檢測方法在審
| 申請號: | 202110337896.2 | 申請日: | 2021-03-30 |
| 公開(公告)號: | CN113158075A | 公開(公告)日: | 2021-07-23 |
| 發明(設計)人: | 余正濤;王繁;郭軍軍;相艷;黃于欣;線巖團 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F16/9536 | 分類號: | G06F16/9536;G06F16/33;G06N3/04 |
| 代理公司: | 昆明人從眾知識產權代理有限公司 53204 | 代理人: | 何嬌 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 融合 評論 任務 聯合 謠言 檢測 方法 | ||
本發明涉及融合評論的多任務聯合謠言檢測方法,屬于自然語言處理領域。本發明包括:構建微博謠言數據集;使用自注意力機制分別獲取微博正文和用戶評論豐富的上下文特征,之后將微博正文和用戶評論共享特征通過帶有過濾機制的門控單元和注意力單元對用戶評論進行有效的篩選;最后輸出層使用線性變換和softmax函數去預測當前序列中的用戶評論相關性標簽和微博事件標簽。本發明采用多任務聯合學習的方式,通過用戶評論與微博事件之間的關聯性,采用聯合學習同時學習和更新主任務模型和輔助模型的參數。本發明通過融合用戶評論并進行有效篩選作為背景實現了微博謠言檢測,從獲取的輿情中檢測出謠言,為后續的謠言檢測提供了支撐。
技術領域
本發明涉及融合評論的多任務聯合謠言檢測方法,屬于自然語言處理領域。
背景技術
謠言具有特殊性,是有意誤導讀者而撰寫的,可能摻雜著真實內容而導致文本特征不足,單從新聞內容很難辨別真假,而用戶評論具有來自社交媒體人群的豐富信息,包括觀點、立場和情緒,有助于發現謠言。Natali Ruchansky等人提出混合的深度學習框架來同時對新聞文本、用戶響應和文本源進行建模,為假新聞檢測提供了全新的思路。但是這種方式沒有有效利用社交媒體數據之間的關聯性,用戶社交信息參差不齊,噪聲過多不利于發現謠言。然而微博社交媒體數據是大規模的、大多是用戶生成的,有時是匿名和嘈雜的,微博中一些用戶評論對微博事件判定并沒有影響,有的甚至毫不相關,用戶評論的質量對謠言判定也起不同的作用。雖然社交媒體上的網絡謠言事件檢測已經得到了廣泛的關注并取得了一系列進步,但仍有很大的挑戰有待進一步研究解決。其中,如何選擇有效的用戶評論特征促進微博謠言檢測是關鍵問題。
發明內容
本發明提供了一個帶有過濾機制的多任務聯合學習模型,從微博文本和用戶評論的角度進行謠言檢測,通過引入共享特征過濾選擇層用于丟棄無效特征和選擇有利特征提升謠言檢測任務的性能。
發明技術方案:融合評論的多任務聯合謠言檢測方法,所述方法的具體步驟如下:
Step1、通過爬蟲技術爬取微博評論和微博正文,通過人工對數據集進行標注得到謠言數據集,謠言微博主要以新浪微博上的微博小助手官方辟謠平臺為依據,挑選轉發數超過 50,評論數超過20條的熱門微博,經過篩選與預處理形成的json格式文件。
Step2、通過詞嵌入和位置嵌入分別對微博正文和用戶評論進行特征編碼,利用Transformer編碼器提取特征,將獲得的正文特征和評論特征進行融合提取共享特征,再對共享特征采用門控機制和注意力機制對用戶評論進行有效地過濾篩選,采用聯合學習同時學習和更新主任務模型和輔助模型的參數。
所述步驟Step1的具體步驟為:
Step1.1、通過爬蟲技術爬取某年相關的熱門微博,共爬取201條謠言微博與378條真實微博和微博下的用戶評論;
Step1.2、對上述數據集中的微博正文及評論進行過濾篩選,過濾篩選的方式如下所示: (1)、去除文本內容中的多余符號、超鏈接和特殊字符;(2)、去除微博中相同的用戶評論信息;
Step1.3、采用人工標注,獲得謠言數據集;首先對微博事件打上標簽,1為謠言微博, 0為真實微博;針對某一個微博事件下的所有評論,同樣給它打上標簽,1表示該條用戶評論與微博描述的事件相關,0為與微博描述的事件不相關;
作為本發明的優選方案,所述步驟Step2的具體步驟如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110337896.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于元強化學習的加工變形控制方法
- 下一篇:數字多波束校正與合成方法





