[發(fā)明專(zhuān)利]一種基于BERT與CNN層級(jí)連接的中文文本分類(lèi)方法有效
| 申請(qǐng)?zhí)枺?/td> | 201911302047.2 | 申請(qǐng)日: | 2019-12-17 |
| 公開(kāi)(公告)號(hào): | CN111177376B | 公開(kāi)(公告)日: | 2023-08-15 |
| 發(fā)明(設(shè)計(jì))人: | 馬強(qiáng);趙鳴博;孔維健;王曉峰;孫嘉瞳;鄧開(kāi)連 | 申請(qǐng)(專(zhuān)利權(quán))人: | 東華大學(xué) |
| 主分類(lèi)號(hào): | G06F16/35 | 分類(lèi)號(hào): | G06F16/35;G06F40/30;G06N3/045 |
| 代理公司: | 上海申匯專(zhuān)利代理有限公司 31001 | 代理人: | 徐俊 |
| 地址: | 201600 上*** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 bert cnn 層級(jí) 連接 中文 文本 分類(lèi) 方法 | ||
本發(fā)明涉及一種基于BERT與CNN層級(jí)連接的中文文本分類(lèi)的方法,主要用于解決中文文本的情感分析、核心句子識(shí)別、關(guān)系識(shí)別等文本分類(lèi)問(wèn)題。本發(fā)明中使用CNN模型與BERT模型進(jìn)行層級(jí)連接,得到新的模型BERT?CNN。BERT?CNN模型由于加入CNN模型,可以對(duì)BERT模型提取到的句子特征進(jìn)一步提取,獲得更加有效的句子語(yǔ)義表示。因此,在文本分類(lèi)任務(wù)中,可以獲得更好的分類(lèi)效果。
技術(shù)領(lǐng)域
本發(fā)明屬于自然語(yǔ)言處理技術(shù)領(lǐng)域,特別涉及一種基于深度學(xué)習(xí)模型BERT與CNN層級(jí)連接的中文文本分類(lèi)方法。
背景技術(shù)
隨著經(jīng)濟(jì)和互聯(lián)網(wǎng)的高速發(fā)展,越來(lái)越多的人會(huì)選擇在網(wǎng)上發(fā)表各種言論。面對(duì)網(wǎng)絡(luò)上大量的文本數(shù)據(jù),如何高效的從這些數(shù)據(jù)中獲得有使用價(jià)值的數(shù)據(jù)成為研究熱點(diǎn)。問(wèn)答機(jī)器人、搜索、機(jī)器翻譯以及情感分析這些都是自然語(yǔ)言處理的關(guān)鍵應(yīng)用領(lǐng)域,而這些技術(shù)都離不開(kāi)文本分類(lèi)技術(shù),文本分類(lèi)技術(shù)是這些技術(shù)的基礎(chǔ)。正是因?yàn)槲谋痉诸?lèi)技術(shù)是一項(xiàng)基礎(chǔ),對(duì)它的精確度要求也就較高。因此,這些年來(lái),文本分類(lèi)技術(shù)一直是一項(xiàng)研究熱點(diǎn)也是一個(gè)難點(diǎn)。
隨著機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等領(lǐng)域的高速發(fā)展,文本分類(lèi)再也不用依賴(lài)于耗時(shí)耗力的人工,從而轉(zhuǎn)向自動(dòng)文本分類(lèi)技術(shù)。并且隨著正確率的不斷提升,在情感分析、垃圾文本識(shí)別上已經(jīng)得到了廣泛的應(yīng)用。但是,還存在一些領(lǐng)域效果不佳,比如違法廣告識(shí)別等以及情感分析和垃圾文本識(shí)別領(lǐng)域還迫切需要更高的準(zhǔn)確率。
目前,文本分類(lèi)技術(shù)中深度學(xué)習(xí)技術(shù)取得的效果較好,但是深度學(xué)習(xí)技術(shù)的效果依賴(lài)于對(duì)句子的語(yǔ)義特征提取。傳統(tǒng)的深度學(xué)習(xí)模型依賴(lài)于對(duì)句子中的詞或者字進(jìn)行量化作為模型輸入,但是這種方法有時(shí)候會(huì)受量化結(jié)果影響,因此,對(duì)不同的領(lǐng)域的文本都需要單獨(dú)做量化,這樣相對(duì)來(lái)說(shuō)還是會(huì)費(fèi)時(shí)費(fèi)力。而本文引入的模型不但在效果上更加好,而且不需要再針對(duì)各個(gè)領(lǐng)域?qū)υ~或者字進(jìn)行量化。
發(fā)明內(nèi)容
本發(fā)明的目的是:進(jìn)一步提高中文文本分類(lèi)的效果。
為了達(dá)到上述目的,本發(fā)明的技術(shù)方案是提供了一種基于BERT與CNN層級(jí)連接的中文文本分類(lèi)方法,其特征在于,包括以下步驟:
步驟1、通過(guò)大量公開(kāi)的中文文本數(shù)據(jù)集對(duì)BERT模型進(jìn)行預(yù)訓(xùn)練,得到BERT模型中的所有的參數(shù)并保存,BERT模型由12層transformer編碼器構(gòu)成;
步驟2、使用CNN模型與BERT模型進(jìn)行層級(jí)連接,進(jìn)行層級(jí)連接時(shí),將BERT模型12層結(jié)構(gòu)中每一層的第一個(gè)位置的輸出作為CNN模型的輸入,輸入的寬度為12,得到BERT-CNN模型,在BERT-CNN模型中,寬度為12的輸入矩陣經(jīng)過(guò)CNN模型進(jìn)行卷積和最大池化操作得到新的更加有效的句子語(yǔ)義特征向量,然后將這個(gè)句子語(yǔ)義特征向量輸入一個(gè)全連接層,最后再經(jīng)過(guò)分類(lèi)器;
步驟3、對(duì)BERT模型部分的參數(shù)進(jìn)行初始化,初始化的參數(shù)值即之前預(yù)訓(xùn)練得到的參數(shù),而CNN模型部分的參數(shù)初始化采用滿(mǎn)足正態(tài)分布隨機(jī)產(chǎn)生;
步驟4、對(duì)分類(lèi)訓(xùn)練集進(jìn)行數(shù)據(jù)預(yù)處理;
步驟5、通過(guò)預(yù)處理過(guò)的數(shù)據(jù)集再訓(xùn)練BERT-CNN模型。
優(yōu)選地,步驟1中,對(duì)BERT模型進(jìn)行預(yù)訓(xùn)練的中文文本數(shù)據(jù)集包括句子內(nèi)部預(yù)測(cè)訓(xùn)練集以及句子對(duì)是否連續(xù)訓(xùn)練集,其中:
句子內(nèi)部預(yù)測(cè)訓(xùn)練集的構(gòu)造過(guò)程包括以下步驟:
將數(shù)據(jù)按句子切分后,隨機(jī)將句子中的15%的詞遮住。這15%的詞中80%用[mask]代替,10%的詞仍用原來(lái)的詞,剩余的10%的詞用隨機(jī)一個(gè)詞代替,并在句子的起始位置拼接[CLS]字符,通過(guò)這種方式構(gòu)成的新句子作為BERT模型輸入去預(yù)測(cè)被遮住的15%的詞;
句子對(duì)是否連續(xù)訓(xùn)練集的過(guò)程包括以下步驟:
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于東華大學(xué),未經(jīng)東華大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911302047.2/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 一種基于Bert的意圖確定方法及裝置
- 語(yǔ)言模型的訓(xùn)練方法、裝置和計(jì)算機(jī)設(shè)備
- 融合外部知識(shí)的BERT模型的微調(diào)方法、裝置及計(jì)算機(jī)設(shè)備
- 基于BERT-BTM網(wǎng)絡(luò)的微博突發(fā)事件檢測(cè)方法
- 生成文本數(shù)據(jù)的方法、裝置和計(jì)算機(jī)設(shè)備
- 基于卷積神經(jīng)網(wǎng)絡(luò)的BERT模型的微調(diào)方法及裝置
- 多語(yǔ)言BERT序列標(biāo)注模型的壓縮方法及系統(tǒng)
- BERT模型的優(yōu)化方法及系統(tǒng)、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種基于BERT的多特征融合模糊文本分類(lèi)系統(tǒng)
- 一種基于Bert+BiLSTM+CRF的知識(shí)元自動(dòng)抽取方法
- 圖像語(yǔ)義標(biāo)注的設(shè)備和方法及其模型的生成方法和系統(tǒng)
- 使用卷積神經(jīng)網(wǎng)絡(luò)的數(shù)字圖像處理
- 為數(shù)據(jù)庫(kù)確定卷積神經(jīng)網(wǎng)絡(luò)CNN模型的裝置和方法
- 確定卷積神經(jīng)網(wǎng)絡(luò)CNN模型的裝置和方法
- 采用嵌入式系統(tǒng)中的小規(guī)模卷積神經(jīng)網(wǎng)絡(luò)模塊的人臉檢測(cè)
- 針對(duì)深度通道和卷積神經(jīng)網(wǎng)絡(luò)圖像和格式使用相機(jī)設(shè)備的方法和系統(tǒng)
- 處理卷積神經(jīng)網(wǎng)絡(luò)的方法
- CNN加速器和電子設(shè)備
- 一種基于混合神經(jīng)網(wǎng)絡(luò)的腦電時(shí)空特征學(xué)習(xí)與情感分類(lèi)方法
- 一種基于FPGA的深度學(xué)習(xí)加速方法
- 內(nèi)容檢索裝置及內(nèi)容檢索方法
- 訪問(wèn)控制裝置和訪問(wèn)控制方法
- 一種基于安卓平臺(tái)的多級(jí)樹(shù)形菜單的實(shí)現(xiàn)方法
- 一種視圖層級(jí)優(yōu)化的方法及裝置
- 一種數(shù)據(jù)處理方法及系統(tǒng)
- 車(chē)用微控制器及其信號(hào)控制方法
- 車(chē)用微控制器
- 應(yīng)用程序的用戶(hù)界面UI信息處理方法、裝置及電子設(shè)備
- 評(píng)估指標(biāo)處理方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 數(shù)據(jù)存儲(chǔ)管理方法和裝置以及卷積計(jì)算硬件加速器





