[發明專利]一種基于BERT與CNN層級連接的中文文本分類方法有效
| 申請號: | 201911302047.2 | 申請日: | 2019-12-17 |
| 公開(公告)號: | CN111177376B | 公開(公告)日: | 2023-08-15 |
| 發明(設計)人: | 馬強;趙鳴博;孔維健;王曉峰;孫嘉瞳;鄧開連 | 申請(專利權)人: | 東華大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/30;G06N3/045 |
| 代理公司: | 上海申匯專利代理有限公司 31001 | 代理人: | 徐俊 |
| 地址: | 201600 上*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 bert cnn 層級 連接 中文 文本 分類 方法 | ||
1.一種基于BERT與CNN層級連接的中文文本分類方法,其特征在于,包括以下步驟:
步驟1、通過大量公開的中文文本數據集對BERT模型進行預訓練,得到BERT模型中的所有的參數并保存,BERT模型由12層transformer編碼器構成,其中,對BERT模型進行預訓練的中文文本數據集包括句子內部預測訓練集以及句子對是否連續訓練集,其中:
句子內部預測訓練集的構造過程包括以下步驟:
將數據按句子切分后,隨機將句子中的15%的詞遮?。贿@15%的詞中80%用[mask]代替,10%的詞仍用原來的詞,剩余的10%的詞用隨機一個詞代替,并在句子的起始位置拼接[CLS]字符,通過這種方式構成的新句子作為BERT模型輸入去預測被遮住的15%的詞;
句子對是否連續訓練集的過程包括以下步驟:
將數據按句子切分后,將任意兩個句子通過[sep]連接成一個句子,并在句子的起始位置拼接[CLS]字符,使用構成的新句子作為BERT模型的輸入預測這兩個句子在文章中是否連續,BERT模型的輸出是一個概率值,概率值表示的是這兩個句子連續的概率;
步驟2、使用CNN模型與BERT模型進行層級連接,進行層級連接時,將BERT模型12層結構中每一層的第一個位置的輸出作為CNN模型的輸入,輸入的寬度為12,得到BERT-CNN模型,在BERT-CNN模型中,寬度為12的輸入矩陣經過CNN模型進行卷積和最大池化操作得到新的更加有效的句子語義特征向量,然后將這個句子語義特征向量輸入一個全連接層,最后再經過分類器;
步驟3、對BERT模型部分的參數進行初始化,初始化的參數值即之前預訓練得到的參數,而CNN模型部分的參數初始化采用滿足正態分布隨機產生;
步驟4、對分類訓練集進行數據預處理;
步驟5、通過預處理過的數據集再訓練BERT-CNN模型。
2.如權利要求1所述的一種基于BERT與CNN層級連接的中文文本分類方法,其特征在于,步驟2中,所述transformer編碼器中核心部件為一個多頭注意力機制,多頭注意力機制由8個self-attention機制構成,transformer編碼器的輸出是8個self-attention機制的輸出拼接而成。
3.如權利要求1所述的一種基于BERT與CNN層級連接的中文文本分類方法,
其特征在于,步驟4中,所述數據預處理包括將句子中的部分無效字符串去除,
然后將句子按字符切分。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東華大學,未經東華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911302047.2/1.html,轉載請聲明來源鉆瓜專利網。





