[發明專利]一種基于BERT和字詞特征融合的文本分類方法有效
| 申請號: | 202110473890.8 | 申請日: | 2021-04-29 |
| 公開(公告)號: | CN113297374B | 公開(公告)日: | 2023-09-12 |
| 發明(設計)人: | 楊雄軍;寧希;劉昆鵬;陶妍丹;方遠;賈云海 | 申請(專利權)人: | 軍事科學院系統工程研究院網絡信息研究所;電科云(北京)科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/289;G06F18/2415;G06F18/25;G06N3/0464;G06N3/08 |
| 代理公司: | 北京眾元弘策知識產權代理事務所(普通合伙) 11462 | 代理人: | 宋磊 |
| 地址: | 100141 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 bert 字詞 特征 融合 文本 分類 方法 | ||
本發明公開了一種基于BERT和字詞特征融合的文本分類方法、文本分類平臺及計算機可讀存儲介質。本發明的文本分類方法的步驟主要包括預處理、字符向量編碼、分詞、詞向量編碼、詞向量再編碼、池化、全連接和分類。本發明通過BERT獲取了每個字符對應的向量,該向量中包含了文本全局的字符信息;通過GRU對每個詞中包含的字符進行再編碼,在字向量的基礎上融入局部的詞匯特征,最終每個詞的詞向量中既包含了全局的字符信息,又包含了局部的詞匯信息,具有更豐富的表達能力。本發明的方法基于BERT將字符特征和詞匯特征結合,豐富了文本的語義表示,進一步提升文本分類的準確率。
技術領域
本發明屬于自然語言處理技術領域,特別是一種基于BERT和字詞特征融合的文本分類方法、文本分類平臺及計算機可讀存儲介質。
背景技術
目前文本分類通常采用基于深度學習的方法,通過神經網絡自動捕獲文本特征,避免傳統機器學習中繁瑣的特征工程。隨著BERT的出現,越來越多的人將BERT替代word2vec應用于文本分類中。
BERT是一個預訓練語言模型,基礎版的BERT包含12層,每一層包括多頭自注意力和前饋計算兩個子塊,其整體結構如圖1所示。BERT通過預訓練,提前獲取各個下游任務中低層的、共性的部分特征,然后再利用下游任務中各自的樣本數據來訓練各自的模型,可以極大地加快收斂速度。如圖2所示,?BERT的輸入是由三個向量相加得到的,分別為每個字符對應的字符編碼、位置編碼和段編碼,字符編碼通過單詞表來實現,表示字符對應的語義信息,位置編碼則代表句子中各個單詞的相對位置。由于BERT使用自注意力機制,沒有像RNN那樣對文本進行序列建模,因此需要使用位置編碼來獲取他們之間的相對位置。
經過嵌入編碼(embedding),每個字符得到了一個初始向量,然后進行多頭自注意力計算。在計算多頭注意力時,每個字符都會計算該字符和其他字符之間的聯系,得到該字符在所有字符上的注意力分布,并加權求和。注意力計算公式如下:
經過12層的計算,BERT最終為每個字符生成了一個768維的向量。
對于特定領域,詞匯往往包含了比字符更豐富的語義信息。然而BERT的輸入以字符為最小單位,忽略了文本中的詞匯特征。
發明內容
本發明的目的在于基于BERT將字符特征和詞匯特征結合,豐富文本的語義表示,進一步提升文本分類的準確率。
為實現上述目的,本發明提供了一種基于BERT和字詞特征融合的文本分類方法,包括:
對待分類文本進行預處理,獲得長度和字符歸一化的第一文本的步驟,在該步驟中,先是去除文本中不能進行后續處理的特殊字符;然后進行全半角轉換,將文本的全角字符轉換為相應的半角字符;最后統一文本長度,將待分類文本的長度與文本長度閾值LT比較,如果超過了,則去掉待分類文本超過文本長度閾值的部分,如果不足,則在待分類文本的末尾添加占位字符補齊;
基于BERT預訓練語言模型對所述第一文本進行字符向量編碼的步驟,在該步驟中,將所述第一文本按字符切分,然后將長度為LT的字符序列輸入到?BERT預訓練語言模型中進行維度為NBERT的BERT編碼,為每個字符生成一個?1×NBERT維的字符向量,LT個字符經過BERT編碼后得到LT個1×NBERT維的字符向量,它們組成的LT×NBERT維的矩陣,記為第一矩陣;
基于jieba分詞庫對所述第一文本進行分詞的步驟,在該步驟中,使用?jieba分詞庫對所述第一文本進行分詞,得到所述第一文本的詞序列Ci,?i=1,2,…,m,m為詞序列中詞的個數;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于軍事科學院系統工程研究院網絡信息研究所;電科云(北京)科技有限公司,未經軍事科學院系統工程研究院網絡信息研究所;電科云(北京)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110473890.8/2.html,轉載請聲明來源鉆瓜專利網。





