[發明專利]一種基于圖注意力網絡的社交媒體謠言檢測方法和系統有效
| 申請號: | 202110542802.5 | 申請日: | 2021-05-19 |
| 公開(公告)號: | CN113268675B | 公開(公告)日: | 2022-07-08 |
| 發明(設計)人: | 陳宇;肖正;聶振宇;王夢圓;郭修遠 | 申請(專利權)人: | 湖南大學 |
| 主分類號: | G06F16/9536 | 分類號: | G06F16/9536;G06F16/35;G06F16/33;G06F40/284;G06K9/62;G06N3/04;G06N3/08;G06Q50/00 |
| 代理公司: | 武漢臻誠專利代理事務所(普通合伙) 42233 | 代理人: | 宋業斌 |
| 地址: | 410082 湖*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 注意力 網絡 社交 媒體 謠言 檢測 方法 系統 | ||
本發明公開了一種基于圖注意力網絡的社交媒體謠言檢測方法,其首先獲取待檢測的謠言事件,對待檢測的謠言事件對應的文本進行預處理,以得到預處理后的文本,并使用BERT?Large?Cased預訓練詞向量模型將預處理后的文本轉換成文本向量矩陣,然后根據待檢測的謠言事件對應的用戶之間的轉發、評論或回復關系構建用戶關系結構圖表示為G=(V,E),并根據該用戶關系結構圖構建鄰接矩陣,最后將文本向量矩陣、以及鄰接矩陣,輸入預先訓練好的謠言檢測模型中,以得到最終的謠言檢測結果。本發明能夠解決現有基于深度學習的謠言檢測方法由于不能高效的提取謠言傳播結構特征和聚合鄰接節點特征,導致影響謠言檢測準確度的技術問題。
技術領域
本發明屬于人工智能中的深度學習和自然語言處理技術領域,更具體地,涉及一種基于圖注意力網絡(Graph Attention Network,簡稱GAT)的社交媒體謠言檢測方法和系統。
背景技術
如今,越來越多的人在社交平臺上分享自己的意見、經驗和觀點;以Twitter為例,其每天發送的新推文超過5億條,即每秒近5787條。
然而,如今的許多社交平臺已經逐漸成為滋生虛假消息和散布謠言的理想場所。因此,如何快速、準確的識別社交平臺上的謠言是當務之急。目前的謠言檢測方法主要分為基于機器學習和基于深度學習兩類。
針對基于機器學習的謠言檢測方法而言,其集中于謠言的淺層特征,其中有三個特征效果突出,一是文本特征,如用戶的評論和回復等;二是用戶特征,如用戶的關注數,用戶的粉絲數,用戶的星座,生日,興趣等;三是傳播特征,如傳播的時間序列,轉發的帖子數等。利用這些特征訓練機器學習算法,如支持向量機、決策樹、隨機森林等來實現謠言檢測。然而,基于機器學習的這些謠言檢測方法主要依賴于特征工程,提取特征的效率較低,從而導致檢測過程非常費時費力。
針對基于深度學習的謠言檢測方法而言,雖然通過卷積神經網絡、循環神經網絡、長短期記憶網絡等深度學習模型,能自動化的從謠言事件中提取特征,從而解決了現有基于機器學習的謠言檢測方法提取特征效率低的問題。但是,現有基于深度學習的謠言檢測方法仍然存在一些不可忽略的缺陷:第一、卷積神經網絡設計的初衷是用于捕獲結構化數據的特征,比如圖像數據等,循環神經網絡,長短期記憶網絡等模型主要是用于處理固定長度的數據,而在謠言事件級別檢測中,每個謠言事件的帖子數不是固定的,因此該基于深度學習的謠言檢測方法不能高效地提取謠言傳播結構特征和聚合鄰接節點特征,進而導致謠言檢測準確率偏低;第二、在謠言事件中,原貼子往往包含著更多有利于謠言檢測的特征,隨著謠言的傳播,越遠離原貼子的節點包含的利于謠言檢測的特征越少,這也會導致謠言檢測準確率偏低;第三,基于深度學習的謠言檢測方法大部分都是基于傳統的詞向量模型(例如one-hot、Word2Vec、Tf-idf等)來表示文本,該詞向量模型表示文本的能力有限,不能根據語境動態調整詞語對詞向量表示,進而會導致謠言檢測準確率偏低。
發明內容
針對現有技術的以上缺陷或改進需求,本發明提供了一種基于圖注意力網絡的社交媒體謠言檢測方法和系統。其目的在于,解決現有基于深度學習的謠言檢測方法由于不能高效的提取謠言傳播結構特征和聚合鄰接節點特征,導致影響謠言檢測準確度的技術問題;以及由于遠離原貼子的節點包含的有利于謠言檢測的特征較少,導致影響謠言檢測準確度的技術問題;以及由于使用傳統詞向量對文本進行編碼并不能根據語境動態調整詞向量,導致影響謠言檢測準確度的技術問題。
為實現上述目的,按照本發明的一個方面,提供了一種基于圖注意力網絡的社交媒體謠言檢測方法,包括如下步驟:
(1)獲取待檢測的謠言事件,對待檢測的謠言事件對應的文本進行預處理,以得到預處理后的文本,并使用BERT-Large-Cased預訓練詞向量模型將預處理后的文本轉換成文本向量矩陣。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖南大學,未經湖南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110542802.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種穿戴固定結構及可穿戴設備
- 下一篇:一種多功能變形衣柜





