[發明專利]一種基于BERT-LSTM的謠言檢測模型在審
| 申請號: | 202011220175.5 | 申請日: | 2020-11-05 |
| 公開(公告)號: | CN112270187A | 公開(公告)日: | 2021-01-26 |
| 發明(設計)人: | 況麗娟;戴憲華 | 申請(專利權)人: | 中山大學 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/216;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 510275 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 bert lstm 謠言 檢測 模型 | ||
本發明提出了一種基于BERT?LSTM的謠言檢測模型,使用BERT預訓練模型對文本進行句子層面的特征向量表示,再輸入LSTM進一步獲取高層語義特征,更加準確地理解語義。在微博謠言數據集的實驗結果表明檢測的準確率和召回率更高。具體步驟如下:首先,對輸入的的原始數據做預處理,下載Google提供的BERT?Base模型用來獲取文本的詞向量;再將BERT模型得到的向量輸入LSTM模型。將bert_model.get_sequence_output()函數即BERT模型輸出的token向量作LSTM網絡的輸入,將兩者結合起來形成端到端的神經網絡結構。經過LSTM的遺忘門、輸入門、輸出門提取到更高維、有效的特征再輸入到softmax層進行分類。根據loss,accuracy,recall和precision的數值進行調整、優化模型參數,直到得到最優解,模型訓練成功并保存。
技術領域
本發明涉及自然語言處理領域,尤其是一種基于BERT-LSTM的謠言檢測模型。
背景技術
謠言檢測是指針對微博等網絡社交平臺上廣泛傳播的虛假內容的帖子或者新聞,應用互聯網信息采集技術和自然語言處理技術對謠言進行自動檢測,同時克服謠言舉報或核查平臺如新浪的謠言報告中心、互聯網公司的辟謠平臺所存在的人工辟謠費時費力、信息不全、時延等問題,實現在謠言傳播早期阻斷謠言的傳播,減小謠言產生的危害。
謠言檢測主要有基于統計特征的機器學習和基于深度學習的兩類檢測方法。其中基于統計特征的機器學習有三個統計特征方面效果突出:一是用戶特征,如用戶是否為VIP,用戶的粉絲數,用戶的關注數等等;二是內容特征,如文本中包含特殊符號的數量,是否包含鏈接等內容;三是傳播統計特征,如帖子的轉發量、評論數等。但這種方法以謠言傳播的所有信息為前提,依賴于聚合特性,能夠收集到的信息有限。
基于深度學習的謠言檢測避免了繁瑣的特征提取過程,通過采用CNN、RNN進行高維抽象特征提取,最后經Softmax進行分類預測。但CNN只能抽取文本局部特征,更適合檢測短文本,而RNN在實際應用中存在梯度消失的問題。隨著Word2Vec、GloVe等詞向量模型的發展,人們開始利用詞向量模型訓練文本庫生成詞向量獲得詞匯語義關系,BERT模型被認為是自然語言處理領域新時代的開始。這個強大的、預訓練好的模型可以作為一個隨時可用的部件使用,節省了從頭開始訓練模型所需花費的時間、精力和資源。
發明內容
針對上述問題及技術需求,提出了一種基于BERT-LSTM的謠言檢測方法,使用BERT預訓練語言模型對文本進行句子層面的特征向量表示,將獲得的特征向量輸入LSTM模型進一步獲取高層語義特征,并且防止梯度消失或者梯度爆炸,使得模型能更加準確地理解語義,提高檢測的準確率。本發明在微博謠言數據集上進行了實驗,結果表明本發明提出的謠言檢測模型的準確率和召回率都有較大提升。
本發明的技術方案如下:
一種基于BERT-LSTM的謠言檢測方法,該方法包括BERT預訓練模型提取文本特征、獲取詞向量和LSTM神經網絡獲取文本的高層語義特征以及softmax層進行謠言分類,方法包括:
BERT的輸入相較其它模型,采用了三個Embedding相加的方式,包括TokenEmbeddings,Segment Embeddings,Position Embeddings三個向量,以此達到預訓練和預測下一句的目的。BERT采用self-attention機制克服了RNN無法并行、運行慢的缺點,同時通過MaskLM來達到訓練深度雙向預訓練模型,較之前使用單向語言模型訓練更準確,信息量更大,且語義理解更準確。
輸入的embedding會加入位置編碼,即在詞向量中加入了單詞的位置信息,便于區分不同位置的單詞。
BERT自注意力機制將句子中的某個詞對句子中的所有詞做一次Attention,算出每個詞對于這個詞的權重,再用所有詞的加權和來表示這個詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中山大學,未經中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011220175.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種無載體耐候PP阻燃母粒及其制備方法和應用
- 下一篇:一種腳用無線鼠標





