[發(fā)明專利]改進的TextCNN與TextRNN謠言識別方法有效
| 申請?zhí)枺?/td> | 202110033537.8 | 申請日: | 2021-01-12 |
| 公開(公告)號: | CN112818011B | 公開(公告)日: | 2022-03-08 |
| 發(fā)明(設(shè)計)人: | 宋玉蓉;耿唯佳 | 申請(專利權(quán))人: | 南京郵電大學(xué) |
| 主分類號: | G06F16/2453 | 分類號: | G06F16/2453;G06N3/08 |
| 代理公司: | 南京瑞弘專利商標(biāo)事務(wù)所(普通合伙) 32249 | 代理人: | 任志艷 |
| 地址: | 210003 江蘇*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 改進 textcnn textrnn 謠言 識別 方法 | ||
本發(fā)明涉及深度學(xué)習(xí)和謠言識別領(lǐng)域,特別涉及改進的TextCNN與TextRNN謠言識別方法,步驟1,通過BERT預(yù)訓(xùn)練模型將言論文本及其評論轉(zhuǎn)化為句向量;步驟2,構(gòu)建改進的TextCNN模型;步驟3,構(gòu)建改進的TextRNN模型;步驟4,對步驟2和步驟3中兩種模型的輸出進行加權(quán)融合,最后判斷是否謠言;TextCNN更利于深度挖掘消息文本的語義特征,而TextRNN在挖掘消息文本的時序特征上更好,將CNN模型與RNN模型相結(jié)合并且改進可實現(xiàn)更高效識別。
技術(shù)領(lǐng)域
本發(fā)明涉及深度學(xué)習(xí)和謠言識別領(lǐng)域,特別涉及改進的TextCNN與TextRNN謠言識別方法。
背景技術(shù)
鑒于網(wǎng)絡(luò)謠言已經(jīng)嚴(yán)重影響人們的生活以及社會穩(wěn)定,政府和社交網(wǎng)絡(luò)平臺越來越關(guān)注如何通過相關(guān)技術(shù)手段,及時、快速、準(zhǔn)確地識別謠言。現(xiàn)有的謠言檢測主要分為人工謠言識別方法、基于機器學(xué)習(xí)的謠言識別方法和基于深度學(xué)習(xí)的謠言識別方法。人工謠言識別,是當(dāng)前社交網(wǎng)絡(luò)平臺上主流的謠言檢測方式,平臺將用戶發(fā)布的可疑言論交給專業(yè)人士,利用他們的知識和經(jīng)驗來判定這些言論是否真實。基于機器學(xué)習(xí)的謠言識別,將謠言識別抽象成一個分類問題,主要從消息數(shù)據(jù)中提取有效的特征,并用分類模型對這些特征進行訓(xùn)練學(xué)習(xí),得到謠言分類模型。這些傳統(tǒng)機器學(xué)習(xí)方法非常依賴特征工程,需要耗費大量人力物力和時間來構(gòu)建合適的特征向量,所以目前研究者們嘗試把特征學(xué)習(xí)能力很強的深度學(xué)習(xí)應(yīng)用在謠言識別上。Kwon提出了一個新的周期性時間序列模型來表明謠言可能會隨時間波動。Ma提出的模型基于遞歸神經(jīng)網(wǎng)絡(luò)(RNN),用于捕捉時序性的上下文信息。劉政等人提出使用卷積神經(jīng)網(wǎng)絡(luò)(CNN),通過CNN隱含層的學(xué)習(xí)訓(xùn)練來挖掘表示文本深層的特征。Zhou等人提出GRU加上DQN強化學(xué)習(xí)來盡早識別謠言。
目前很多學(xué)者使用CNN模型或是RNN模型來研究謠言識別,這兩種模型在謠言識別上各有側(cè)重點,比如TextCNN更利于深度挖掘消息文本的語義特征,而TextRNN在挖掘消息文本的時序特征上更勝一籌,因此考慮將CNN模型與RNN模型相結(jié)合以實現(xiàn)更高效識別。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是使用CNN模型和RNN模型相結(jié)合,實現(xiàn)對謠言的更高效識別。
本發(fā)明結(jié)合現(xiàn)有的深度學(xué)習(xí)方法,特別使用率最為廣泛的CNN與RNN模型,提供了改進的TextCNN與TextRNN謠言識別方法。
本發(fā)明的改進的TextCNN與TextRNN謠言識別方法,包括以下步驟:
步驟1,通過BERT預(yù)訓(xùn)練模型將言論文本及其評論轉(zhuǎn)化為句向量。
使用經(jīng)過預(yù)先訓(xùn)練的BERT-WWM(Whole Word Masking)模型,使用的語料為中文維基,訓(xùn)練基于字而不是詞;將網(wǎng)絡(luò)社交平臺的言論文本及其評論作為輸入,所述BERT-WWM模型中包含12層的Transformer,理論上每一層Transformer都可以作為預(yù)訓(xùn)練最后的結(jié)果,本發(fā)明取倒數(shù)第二層作為所述言論文本及其評論的句向量輸出。
言論文本及其評論經(jīng)過Bert預(yù)訓(xùn)練模型得到的句向量矩陣有N行、V列,N為輸入Bert預(yù)訓(xùn)練模型中的言論文本及其評論的句子的個數(shù),V列對應(yīng)Bert預(yù)訓(xùn)練模型輸出的句向量維度。
步驟2,構(gòu)建改進的TextCNN模型。
步驟1中的句向量做為TextCNN模型的輸入,采用3個不同大小的卷積核對句向量進行卷積,分別為(Fi,V,1,Channel)(i=1,2,3),其中Fi表示卷積核的行數(shù)、V表示卷積核的列數(shù),與句向量矩陣的列數(shù)相同,“1”表示輸入向量的通道數(shù),Channel表示卷積核通道個數(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京郵電大學(xué),未經(jīng)南京郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110033537.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種基于改進textCNN模型的文本分類方法、裝置及存儲介質(zhì)
- 一種跨項目軟件缺陷預(yù)測方法
- 一種基于TextCNN網(wǎng)絡(luò)的信道編碼識別方法
- 基于樸素貝葉斯優(yōu)化下的卷積神經(jīng)網(wǎng)絡(luò)詐騙短信分類方法和系統(tǒng)
- 一種基于行業(yè)規(guī)則和TextCNN模型的通用工程信息提取的方法
- 一種鐵路安監(jiān)數(shù)據(jù)處理方法、系統(tǒng)、裝置和存儲介質(zhì)
- 基于TextCNN的藥物小分子靶點活性預(yù)測方法和裝置
- 改進的TextCNN與TextRNN謠言識別方法
- 基于長文本標(biāo)簽化的內(nèi)容召回方法及系統(tǒng)
- 基于語義特征強化的深度學(xué)習(xí)預(yù)警方法、系統(tǒng)及電子設(shè)備





