[發明專利]一種基于BERT和字詞特征融合的文本分類方法有效
| 申請號: | 202110473890.8 | 申請日: | 2021-04-29 |
| 公開(公告)號: | CN113297374B | 公開(公告)日: | 2023-09-12 |
| 發明(設計)人: | 楊雄軍;寧希;劉昆鵬;陶妍丹;方遠;賈云海 | 申請(專利權)人: | 軍事科學院系統工程研究院網絡信息研究所;電科云(北京)科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/289;G06F18/2415;G06F18/25;G06N3/0464;G06N3/08 |
| 代理公司: | 北京眾元弘策知識產權代理事務所(普通合伙) 11462 | 代理人: | 宋磊 |
| 地址: | 100141 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 bert 字詞 特征 融合 文本 分類 方法 | ||
1.一種基于BERT和字詞特征融合的文本分類方法,其特征在于包括:
對待分類文本進行預處理,獲得長度和字符歸一化的第一文本的步驟,
在該步驟中,先是去除文本中不能進行后續處理的特殊字符;然后進行全半角轉換,將文本的全角字符轉換為相應的半角字符;最后統一文本長度,將待分類文本的長度與文本長度閾值LT比較,如果超過了,則去掉待分類文本超過文本長度閾值的部分,如果不足,則在待分類文本的末尾添加占位字符補齊;
基于BERT預訓練語言模型對所述第一文本進行字符向量編碼的步驟,
在該步驟中,將所述第一文本按字符切分,然后將長度為LT的字符序列輸入到BERT預訓練語言模型中進行維度為NBERT的BERT編碼,為每個字符生成一個1×NBERT維的字符向量,LT個字符經過BERT編碼后得到LT個1×NBERT維的字符向量,它們組成的LT×NBERT維的矩陣,記為第一矩陣;
基于jieba分詞庫對所述第一文本進行分詞的步驟,
在該步驟中,使用jieba分詞庫對所述第一文本進行分詞,得到所述第一文本的詞序列Ci,i=1,2,…,m,m為詞序列中詞的個數;
根據得到的字符向量和分詞結果拼接得到詞向量編碼的步驟,
設詞Ci中有ni個字符,將詞Ci的ni個字符對應的字符向量按字符在詞中的順序進行拼接,得到每個詞Ci的ni×NBERT維的第一詞向量編碼Ccode1-i;
基于雙向GRU網絡對第一詞向量編碼Ccode1-i進行詞向量再編碼的步驟,
在該步驟中,將詞Ci的ni×NBERT維的第一詞向量編碼Ccode1-i輸入到雙向GRU網絡中,針對每個詞Ci的ni×NBERT維的第一詞向量編碼Ccode1-i,使用雙向GRU網絡進行再編碼,雙向GRU網絡中隱藏NGRU個節點,再編碼后雙向GRU網絡輸出該詞Ci的1×2NGRU維的第二詞向量編碼Ccode2-i,所述第一文本的個數為m的詞序列Ci,經雙向GRU網絡再編碼后得到所述第一文本對應的m個1×2NGRU維第二詞向量編碼Ccode2-i,它們組成的m×2NGRU維矩陣,記為第二矩陣;
對第二詞向量編碼Ccode2-i進行池化的步驟,
在該步驟中,對第二矩陣中的每個1×2NGRU維的第二詞向量編碼Ccode2-i按行分別進行最大池化和平均池化,得到m×1維的最大池化矩陣和m×1維的平均池化矩陣;
將最大池化矩陣和平均池化矩陣全連接得到待分類文本的全連接特征向量的步驟,
在該步驟中,將m×1維的最大池化矩陣和m×1維的平均池化矩陣進行拼接,得到2m×1維向量,即為待分類文本的特征向量,然后將該特征向量進行全連接,得到待分類文本的全連接特征向量,使待分類文本的全連接特征向量的維度和文本類別數量相同;
根據待分類文本的全連接特征向量進行softmax分類的步驟,
在該步驟中,用softmax函數對待分類文本的全連接特征向量進行數值處理,計算對待分類文本的全連接特征向量每一個元素Vi的Softmax函數值Si,其中,
Vi是第i個元素的輸出值,其中1≤i≤C;總的文本類別個數是C;Si表示的是第i個元素的指數與所有元素指數之和的比值,{Si,1≤i≤C}中最大值對應的文本類別,即為待分類文本的文本類別。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于軍事科學院系統工程研究院網絡信息研究所;電科云(北京)科技有限公司,未經軍事科學院系統工程研究院網絡信息研究所;電科云(北京)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110473890.8/1.html,轉載請聲明來源鉆瓜專利網。





