[發明專利]自監督學習的謠言檢測方法、系統、設備及存儲介質有效
| 申請號: | 202110744485.5 | 申請日: | 2021-07-01 |
| 公開(公告)號: | CN113434684B | 公開(公告)日: | 2022-03-08 |
| 發明(設計)人: | 何向南;高遠;王翔;封化民;張勇東 | 申請(專利權)人: | 北京中科研究院 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/31;G06F40/284;G06N3/04;G06N3/08 |
| 代理公司: | 北京凱特來知識產權代理有限公司 11260 | 代理人: | 鄭立明;韓珂 |
| 地址: | 100193 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 監督 學習 謠言 檢測 方法 系統 設備 存儲 介質 | ||
本發明公開了一種自監督學習的謠言檢測方法、系統、設備及存儲介質,相關方法包括:將消息的傳播過程建模為傳播樹,采用圖編碼器編碼傳播樹的圖結構信息,獲得傳播表征;采用文本編碼器編碼消息的文本內容信息,獲得文本表征;基于自監督學習的方式,提升相同消息的傳播表征與文本表征之間的相似度,并降低不同消息的傳播表征與文本表征之間的相似度;利用基于自監督學習的方式得到的消息表征進行謠言檢測。上述方案利用自監督學習綜合多個來源的信息,得到消息的更加全面的表達,從而提高下游的自動謠言檢測任務的準確度和穩定性。
技術領域
本發明涉及謠言檢測技術領域,尤其涉及一種自監督學習的謠言檢測方法、系統、設備及存儲介質。
背景技術
隨著互聯網的發展,社交媒體平臺已經成為當今用戶獲得信息的主要來源之一。在帶來方便的同時,也為謠言提供了傳播的沃土,對社會和公共安全造成嚴重威脅。在信息爆炸的時代,網絡消息鋪天蓋地,人工篩查謠言會耗費大量人力物力,在此背景下,自動謠言檢測應運而生。
針對社交平臺上的謠言檢測問題,目前存在以下幾類方法:
基于內容的方法(Content-based)。這類方法直接從消息文本中抽取詞性、詞義、情感、觀點等信息。這類方法比較直觀,并且由于自然語言處理領域的蓬勃發展,很多成熟的工具都可以用來抽取信息。然而,由于謠言與正常消息的寫作風格越來越相像,語義的描述性正在逐漸降低。另外,社交平臺的文字相對較短,因此僅僅考慮內容的方法的模型有效性和穩定性都有限。
基于上下文的方法(Context-based)。這類方法把社交網絡建模成圖結構,獲取消息周圍的相關信息從而判斷該消息的可信度。這類方法可進一步細分為兩類技術:一類是基于用戶的方法,通過分析用戶評論、點贊、轉發的消息性質判斷用戶的可信度,在此基礎上根據用戶與消息之間的交互記錄給消息的可信度打分。另一類是基于網絡的方法,從更宏觀的角度考慮網絡中消息的傳播結構、擴散模式、圖密度、聚類系數等指標來檢測可疑消息。這類方法的數據會涉及到用戶隱私,很難獲取;并且模型性能在稀疏的網絡中表現會大打折扣,很大程度上依賴于圖數據的數量和質量。
基于時間序列的方法(Sequence-based)。這類方法將消息的傳播過程建模為一個時間序列。在消息的傳播周期中,每一個時刻都對應著不同用戶的交互。這類方法希望通過捕捉消息交互的爆發期及衰減期的不同行為特征來篩選可疑消息。然而,當消息的傳播周期較長時,時序模型在后期的學習過程會遺忘先前學到的知識。另外,對時序特征的依賴使得序列模型很難做到在消息發布的早期就做出判斷。
總而言之,這些方法都在自動謠言檢測任務上取得了較好的效果,但單薄的特征很難在所有的場景中都得到很好的性能,因此,檢測性能還有待提升。
發明內容
本發明的目的是提供一種自監督學習的謠言檢測方法、系統、設備及存儲介質,利用自監督學習綜合多個來源的信息,得到消息的更加全面的表達,從而提高下游的自動謠言檢測任務的準確度和穩定性。
本發明的目的是通過以下技術方案實現的:
一種自監督學習的謠言檢測方法,包括:
將消息的傳播過程建模為傳播樹,采用圖編碼器編碼傳播樹的圖結構信息,獲得傳播表征;采用文本編碼器編碼消息的文本內容信息,獲得文本表征;將傳播表征與文本表征拼接結果、傳播表征、或者文本表征輸入至分類模型進行謠言檢測;同時,對于傳播表征與文本表征,基于自監督學習的方式,提升相同消息的傳播表征與文本表征之間的一致性,以及不同消息的傳播表征與文本表征之間的差異;綜合分類模型的損失函數與基于自監督學習目標函數訓練所述分類模型、圖編碼器與文本編碼器;
通過訓練后的圖編碼器得到待檢測消息的傳播表征、或者通過訓練后的文本編碼器得到待檢測消息的文本表征、或者通過訓練后的圖編碼器與文本編碼器得到待檢測消息的傳播表征與文本表征后進行拼接,再輸入至訓練得到的分類模型進行謠言檢測。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京中科研究院,未經北京中科研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110744485.5/2.html,轉載請聲明來源鉆瓜專利網。





