[發(fā)明專(zhuān)利]一種基于BERT和字詞特征融合的文本分類(lèi)方法有效
| 申請(qǐng)?zhí)枺?/td> | 202110473890.8 | 申請(qǐng)日: | 2021-04-29 |
| 公開(kāi)(公告)號(hào): | CN113297374B | 公開(kāi)(公告)日: | 2023-09-12 |
| 發(fā)明(設(shè)計(jì))人: | 楊雄軍;寧希;劉昆鵬;陶妍丹;方遠(yuǎn);賈云海 | 申請(qǐng)(專(zhuān)利權(quán))人: | 軍事科學(xué)院系統(tǒng)工程研究院網(wǎng)絡(luò)信息研究所;電科云(北京)科技有限公司 |
| 主分類(lèi)號(hào): | G06F16/35 | 分類(lèi)號(hào): | G06F16/35;G06F40/289;G06F18/2415;G06F18/25;G06N3/0464;G06N3/08 |
| 代理公司: | 北京眾元弘策知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11462 | 代理人: | 宋磊 |
| 地址: | 100141 *** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 bert 字詞 特征 融合 文本 分類(lèi) 方法 | ||
1.一種基于BERT和字詞特征融合的文本分類(lèi)方法,其特征在于包括:
對(duì)待分類(lèi)文本進(jìn)行預(yù)處理,獲得長(zhǎng)度和字符歸一化的第一文本的步驟,
在該步驟中,先是去除文本中不能進(jìn)行后續(xù)處理的特殊字符;然后進(jìn)行全半角轉(zhuǎn)換,將文本的全角字符轉(zhuǎn)換為相應(yīng)的半角字符;最后統(tǒng)一文本長(zhǎng)度,將待分類(lèi)文本的長(zhǎng)度與文本長(zhǎng)度閾值LT比較,如果超過(guò)了,則去掉待分類(lèi)文本超過(guò)文本長(zhǎng)度閾值的部分,如果不足,則在待分類(lèi)文本的末尾添加占位字符補(bǔ)齊;
基于BERT預(yù)訓(xùn)練語(yǔ)言模型對(duì)所述第一文本進(jìn)行字符向量編碼的步驟,
在該步驟中,將所述第一文本按字符切分,然后將長(zhǎng)度為L(zhǎng)T的字符序列輸入到BERT預(yù)訓(xùn)練語(yǔ)言模型中進(jìn)行維度為NBERT的BERT編碼,為每個(gè)字符生成一個(gè)1×NBERT維的字符向量,LT個(gè)字符經(jīng)過(guò)BERT編碼后得到LT個(gè)1×NBERT維的字符向量,它們組成的LT×NBERT維的矩陣,記為第一矩陣;
基于jieba分詞庫(kù)對(duì)所述第一文本進(jìn)行分詞的步驟,
在該步驟中,使用jieba分詞庫(kù)對(duì)所述第一文本進(jìn)行分詞,得到所述第一文本的詞序列Ci,i=1,2,…,m,m為詞序列中詞的個(gè)數(shù);
根據(jù)得到的字符向量和分詞結(jié)果拼接得到詞向量編碼的步驟,
設(shè)詞Ci中有ni個(gè)字符,將詞Ci的ni個(gè)字符對(duì)應(yīng)的字符向量按字符在詞中的順序進(jìn)行拼接,得到每個(gè)詞Ci的ni×NBERT維的第一詞向量編碼Ccode1-i;
基于雙向GRU網(wǎng)絡(luò)對(duì)第一詞向量編碼Ccode1-i進(jìn)行詞向量再編碼的步驟,
在該步驟中,將詞Ci的ni×NBERT維的第一詞向量編碼Ccode1-i輸入到雙向GRU網(wǎng)絡(luò)中,針對(duì)每個(gè)詞Ci的ni×NBERT維的第一詞向量編碼Ccode1-i,使用雙向GRU網(wǎng)絡(luò)進(jìn)行再編碼,雙向GRU網(wǎng)絡(luò)中隱藏NGRU個(gè)節(jié)點(diǎn),再編碼后雙向GRU網(wǎng)絡(luò)輸出該詞Ci的1×2NGRU維的第二詞向量編碼Ccode2-i,所述第一文本的個(gè)數(shù)為m的詞序列Ci,經(jīng)雙向GRU網(wǎng)絡(luò)再編碼后得到所述第一文本對(duì)應(yīng)的m個(gè)1×2NGRU維第二詞向量編碼Ccode2-i,它們組成的m×2NGRU維矩陣,記為第二矩陣;
對(duì)第二詞向量編碼Ccode2-i進(jìn)行池化的步驟,
在該步驟中,對(duì)第二矩陣中的每個(gè)1×2NGRU維的第二詞向量編碼Ccode2-i按行分別進(jìn)行最大池化和平均池化,得到m×1維的最大池化矩陣和m×1維的平均池化矩陣;
將最大池化矩陣和平均池化矩陣全連接得到待分類(lèi)文本的全連接特征向量的步驟,
在該步驟中,將m×1維的最大池化矩陣和m×1維的平均池化矩陣進(jìn)行拼接,得到2m×1維向量,即為待分類(lèi)文本的特征向量,然后將該特征向量進(jìn)行全連接,得到待分類(lèi)文本的全連接特征向量,使待分類(lèi)文本的全連接特征向量的維度和文本類(lèi)別數(shù)量相同;
根據(jù)待分類(lèi)文本的全連接特征向量進(jìn)行softmax分類(lèi)的步驟,
在該步驟中,用softmax函數(shù)對(duì)待分類(lèi)文本的全連接特征向量進(jìn)行數(shù)值處理,計(jì)算對(duì)待分類(lèi)文本的全連接特征向量每一個(gè)元素Vi的Softmax函數(shù)值Si,其中,
Vi是第i個(gè)元素的輸出值,其中1≤i≤C;總的文本類(lèi)別個(gè)數(shù)是C;Si表示的是第i個(gè)元素的指數(shù)與所有元素指數(shù)之和的比值,{Si,1≤i≤C}中最大值對(duì)應(yīng)的文本類(lèi)別,即為待分類(lèi)文本的文本類(lèi)別。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于軍事科學(xué)院系統(tǒng)工程研究院網(wǎng)絡(luò)信息研究所;電科云(北京)科技有限公司,未經(jīng)軍事科學(xué)院系統(tǒng)工程研究院網(wǎng)絡(luò)信息研究所;電科云(北京)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110473890.8/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 一種基于Bert的意圖確定方法及裝置
- 語(yǔ)言模型的訓(xùn)練方法、裝置和計(jì)算機(jī)設(shè)備
- 融合外部知識(shí)的BERT模型的微調(diào)方法、裝置及計(jì)算機(jī)設(shè)備
- 基于BERT-BTM網(wǎng)絡(luò)的微博突發(fā)事件檢測(cè)方法
- 生成文本數(shù)據(jù)的方法、裝置和計(jì)算機(jī)設(shè)備
- 基于卷積神經(jīng)網(wǎng)絡(luò)的BERT模型的微調(diào)方法及裝置
- 多語(yǔ)言BERT序列標(biāo)注模型的壓縮方法及系統(tǒng)
- BERT模型的優(yōu)化方法及系統(tǒng)、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種基于BERT的多特征融合模糊文本分類(lèi)系統(tǒng)
- 一種基于Bert+BiLSTM+CRF的知識(shí)元自動(dòng)抽取方法
- 字詞庫(kù)更新系統(tǒng)及其方法
- 具有中文提示的字詞查詢(xún)系統(tǒng)及其方法
- 對(duì)話(huà)式節(jié)目檢索裝置
- 提供擴(kuò)充字詞的輸入系統(tǒng)及其方法
- 提供建立相關(guān)內(nèi)容的字詞資料補(bǔ)充系統(tǒng)及其方法
- 語(yǔ)音輸入的字詞級(jí)糾正
- 聯(lián)想字詞的顯示方法、裝置、終端及存儲(chǔ)介質(zhì)
- 語(yǔ)音輸入的字詞級(jí)糾正
- 錯(cuò)別字詞識(shí)別集的生成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)





