[發明專利]一種基于預訓練語言模型的網絡謠言檢測方法有效
| 申請號: | 201911379298.0 | 申請日: | 2019-12-27 |
| 公開(公告)號: | CN111144131B | 公開(公告)日: | 2021-04-30 |
| 發明(設計)人: | 張勇東;毛震東;鄧旭冉;付哲仁 | 申請(專利權)人: | 北京中科研究院;中國科學技術大學 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/289;G06F16/215;G06F16/9536;G06Q50/00;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京凱特來知識產權代理有限公司 11260 | 代理人: | 鄭立明;鄭哲 |
| 地址: | 100193 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 訓練 語言 模型 網絡 謠言 檢測 方法 | ||
本發明公開了一種基于預訓練語言模型的網絡謠言檢測方法,包括:獲取待檢測的源文本以及多個其他用戶的轉發文本;對源文本以及多個其他用戶的轉發文本各自進行預處理,將預處理后的轉發文本連接,得到轉發文本的集合;將預處理后的源文本與轉發文本的集合看作一對句子,構造成線性序列并輸入至預訓練語言模型中,通過預訓練語言模型的挖掘出源文本與轉發文本的語義關系,并經過全連接層與softmax函數得到源文本為謠言與非謠言的概率。該方法能自動學習并獲取有幫助的高層次語義特征,不依賴特定的先驗知識,因此具有很好的泛化性。該方法不需要依賴于源文本相關的大量轉發/評論信息,可以做到早期檢測。
技術領域
本發明涉及謠言檢測技術領域,尤其涉及一種基于預訓練語言模型的網絡謠言檢測方法。
背景技術
隨著互聯網技術的發展以及智能終端設備的興起,社交媒體平臺為人們分享多種多樣的消息提供便捷的通道,人們經過簡單的操作便能快速上傳海量的多媒體數據。然而,網絡謠言也能借此廣泛地傳播,誤導大眾。惡劣的謠言能引導社會輿論,造成人民恐慌,影響政府公信力。因此,為了確保用戶能獲得可靠的消息,維護社會秩序,檢測社交媒體上的謠言是一項重要的任務。
傳統的網絡謠言檢測辦法依賴于特征工程,如從用戶發表的消息與用戶的個人信息中手工地提取特征,再應用統計學習的分類策略。由于社交媒體數據量龐大,漢語的信息量豐富等特點,這類方法不僅耗費大量勞動力資源,而且不能獲取到潛在的語義信息,因此檢測效果較差。
為了更好地,更早地檢測出謠言,基于人工神經網絡或深度學習的檢測模型應運而生,并取得了巨大成功。這些技術大多引入循環神經網絡(RNN),卷積神經網絡(CNN),詞向量嵌入(word2vec)等模型去學習文本內容的潛在表示,獲得高層次的關鍵特征。
然而這些方法有很大的缺點。第一,社交媒體上的文本信息短小精悍,語法不規范,書寫格式復雜,語義信息很難獲取;第二,網絡謠言在早期傳播時用戶習慣不帶任何文本內容的轉發評論消息,并且喜歡直接在源事件上轉發,而不是間接的,因此時間域上的語義特征不充分,結構特征不可用。
發明內容
本發明的目的是提供一種基于預訓練語言模型的網絡謠言檢測方法,可以實現謠言在發布后短時間內的高正確率檢測。
本發明的目的是通過以下技術方案實現的:
一種基于預訓練語言模型的網絡謠言檢測方法,包括:
獲取待檢測的源文本以及多個其他用戶的轉發文本;
對源文本以及多個其他用戶的轉發文本各自進行預處理,將預處理后的轉發文本連接,得到轉發文本的集合;
將預處理后的源文本與轉發文本的集合看作一對句子,構造成線性序列并輸入至預訓練語言模型中,通過預訓練語言模型挖掘出源文本與轉發文本的語義關系,并經過全連接層與softmax函數得到源文本為謠言與非謠言的概率。
由上述本發明提供的技術方案可以看出,對文本的預處理簡單,不需要人工提取特征,需要作為輸入的信息少,因此模型可被端到端的訓練。該方法能自動學習并獲取有幫助的高層次語義特征,不依賴特定的先驗知識,因此具有很好的泛化性。該方法不需要依賴于源文本相關的大量轉發/評論信息,可以做到早期檢測。
附圖說明
為了更清楚地說明本發明實施例的技術方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對于本領域的普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他附圖。
圖1為本發明實施例提供的一種基于預訓練語言模型的網絡謠言檢測方法的流程圖;
圖2為本發明實施例提供的雙向Transformer語言模型結構示意圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京中科研究院;中國科學技術大學,未經北京中科研究院;中國科學技術大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911379298.0/2.html,轉載請聲明來源鉆瓜專利網。





