[發明專利]改進的TextCNN與TextRNN謠言識別方法有效
| 申請號: | 202110033537.8 | 申請日: | 2021-01-12 |
| 公開(公告)號: | CN112818011B | 公開(公告)日: | 2022-03-08 |
| 發明(設計)人: | 宋玉蓉;耿唯佳 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G06F16/2453 | 分類號: | G06F16/2453;G06N3/08 |
| 代理公司: | 南京瑞弘專利商標事務所(普通合伙) 32249 | 代理人: | 任志艷 |
| 地址: | 210003 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 改進 textcnn textrnn 謠言 識別 方法 | ||
1.基于改進的TextCNN與TextRNN謠言識別方法,其特征在于,包括如下步驟:
步驟1,通過BERT預訓練模型將言論文本及其評論轉化為句向量;
使用經過預先訓練的BERT-WWM模型,將網絡社交平臺的言論文本及其評論作為輸入,所述BERT-WWM模型中包含12層的Transformer,取倒數第二層作為所述言論文本及其評論的句向量輸出;
言論文本及其評論經過Bert預訓練模型得到的句向量矩陣有N行、V列,N為輸入Bert預訓練模型中的言論文本及其評論的句子的個數,V列對應Bert預訓練模型輸出的句向量維度;
步驟2,構建改進的TextCNN模型;
步驟1中的句向量做為TextCNN模型的輸入,采用3個不同大小的卷積核對句向量進行卷積,分別為(Fi,V,1,Channel)(i=1,2,3),其中Fi表示卷積核的行數、V表示卷積核的列數,與句向量矩陣的列數相同,“1”表示輸入向量的通道數,Channel表示卷積核通道個數;
句向量與卷積核采用Valid模式卷積,卷積后的尺寸為(N-Fi+1,1,Channel)(i=1,2,3);再分別經過不同的池化層(1,N-Fi+1,1,1)(i=1,2,3)進行特征過濾,再拼接成長度為3*Channel的特征向量,
改進的TextCNN模型中增加了一個池化層,對輸入到TextCNN模型中的句向量進行池化,并將池化結果與卷積池化后的輸出拼接在一起;
最后通過一個全連接層轉化為二分類問題;由歸一化指數函數Softmax函數計算言論為謠言的概率,記為pm-CNN(rumor),由歸一化指數函數Softmax函數計算言論為非謠言的概率,記為pm-CNN(norumor);
步驟3,構建改進的TextRNN模型;
步驟1中的句向量做為TextRNN 模型的輸入,所述句向量的維度為V,TextRNN模型中每個RNN單元的維度為V,隱狀態取值也為V;
TextRNN模型中將最后一層的所有時刻的隱狀態拼接后一起作為全連接層的輸入,通過全連接層轉化為二分類問題;最后使用Softmax函數計算言論為謠言的概率,記為pm-RNN(rumor),Softmax函數計算言論為非謠言的概率,記為:pm-RNN(norumor);
步驟4,對步驟2和步驟3中兩種模型的輸出進行加權融合,最后判斷是否謠言。
2.根據權利要求1所述基于改進的TextCNN與TextRNN謠言識別方法,其特征在于,步驟2中卷積核的行數Fi的取值為Fi={1,3,5}(i=1,2,3)。
3.根據權利要求1所述基于改進的TextCNN與TextRNN謠言識別方法,其特征在于,步驟4中所述的加權融合是指將改進的TextCNN與改進的TextRNN模型的Softmax函數結果按照1:1的比重相加,使用argmax函數得出分類結果如下式:
Result=argmax([pm-CNN(rumor)+pm-RNN(rumor),pm-CNN(norumor)+pm-RNN(norumor)])。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110033537.8/1.html,轉載請聲明來源鉆瓜專利網。





