[發(fā)明專利]一種基于BERT的自動(dòng)填補(bǔ)空缺文本方法有效
| 申請(qǐng)?zhí)枺?/td> | 202011291822.1 | 申請(qǐng)日: | 2020-11-18 |
| 公開(公告)號(hào): | CN112395841B | 公開(公告)日: | 2022-05-13 |
| 發(fā)明(設(shè)計(jì))人: | 柯逍;盧愷翔 | 申請(qǐng)(專利權(quán))人: | 福州大學(xué) |
| 主分類號(hào): | G06F40/166 | 分類號(hào): | G06F40/166;G06F40/30;G06K9/62 |
| 代理公司: | 福州元?jiǎng)?chuàng)專利商標(biāo)代理有限公司 35100 | 代理人: | 郭東亮;蔡學(xué)俊 |
| 地址: | 350108 福建省福州市*** | 國(guó)省代碼: | 福建;35 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 bert 自動(dòng) 填補(bǔ) 空缺 文本 方法 | ||
本發(fā)明提出一種基于BERT的自動(dòng)填補(bǔ)空缺文本方法,包括以下步驟;步驟S1:以公開完型填空CLOTH數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù)基礎(chǔ),利用分詞器對(duì)進(jìn)行預(yù)處理,提取出文章的內(nèi)容和填空選項(xiàng);步驟S2:將處理過的數(shù)據(jù)集通過聯(lián)合調(diào)節(jié)所有層中的上下文來(lái)預(yù)先訓(xùn)練深度雙向表示模型;并利用預(yù)訓(xùn)練模型提供語(yǔ)言模型,通過額外的輸出層對(duì)其進(jìn)行微調(diào),最后以加入問題的位置信息和該語(yǔ)言模型共同組成編碼器;步驟S3:用全連接層、gelu激活函數(shù)層、歸一層和全連接層依次堆疊,構(gòu)成解碼器,并將編碼器結(jié)果輸入到解碼器解碼;步驟S4:以解碼器的輸出預(yù)測(cè)出空格處應(yīng)該出現(xiàn)的單詞;本發(fā)明能夠?qū)崿F(xiàn)利用人工智能完成對(duì)有空缺的文本進(jìn)行預(yù)測(cè)和校對(duì),輔助校對(duì)人員進(jìn)行審查出版書本的工作。
技術(shù)領(lǐng)域
本發(fā)明涉及模式識(shí)別與自然語(yǔ)言處理技術(shù)領(lǐng)域,尤其是一種基于BERT的自動(dòng)填補(bǔ)空缺文本方法。
背景技術(shù)
近年來(lái)人工智能技術(shù)飛快發(fā)展,利用深度學(xué)習(xí)來(lái)處理我們生活中的一些對(duì)話理解,即自然語(yǔ)言處理成為了熱門技術(shù)。自然語(yǔ)言處理是計(jì)算機(jī)科學(xué)與技術(shù)和人工智能領(lǐng)域中非常重要的研究領(lǐng)域,它主要研究機(jī)器能否正確地理解人類的語(yǔ)言,從而完成翻譯、問答等功能。
自動(dòng)填補(bǔ)空缺文本的目標(biāo)是希望通過利用深度學(xué)習(xí)的方法將擁有大量語(yǔ)料的未出版書籍,對(duì)其中的空缺內(nèi)容或者有誤內(nèi)容,進(jìn)行自動(dòng)填補(bǔ)或者自動(dòng)校驗(yàn)。利用BERT模型的獲取上下文語(yǔ)義能力和獲取長(zhǎng)距離語(yǔ)義信息程度的能力,使其能夠?qū)ξ恼律舷挛倪M(jìn)行理解,并完成對(duì)空白處的自動(dòng)填補(bǔ)功能和對(duì)有誤內(nèi)容的自動(dòng)校驗(yàn)功能。
發(fā)明內(nèi)容
本發(fā)明提出一種基于BERT的自動(dòng)填補(bǔ)空缺文本方法,能夠?qū)崿F(xiàn)利用人工智能完成對(duì)有空缺的文本進(jìn)行預(yù)測(cè)和校對(duì),輔助校對(duì)人員進(jìn)行審查出版書本的工作。
本發(fā)明采用以下技術(shù)方案。
一種基于BERT的自動(dòng)填補(bǔ)空缺文本方法,所述方法包括以下步驟;
步驟S1:以公開完型填空CLOTH數(shù)據(jù)集內(nèi)的文章作為訓(xùn)練數(shù)據(jù)基礎(chǔ),利用分詞器對(duì)CLOTH數(shù)據(jù)集進(jìn)行預(yù)處理,提取出文章的內(nèi)容和填空選項(xiàng);
步驟S2:將處理過的數(shù)據(jù)集通過聯(lián)合調(diào)節(jié)數(shù)據(jù)集內(nèi)所有層中的上下文來(lái)預(yù)先訓(xùn)練深度雙向表示模型;并利用預(yù)訓(xùn)練模型提供語(yǔ)言模型,通過額外的輸出層對(duì)其進(jìn)行微調(diào),最后以加入問題的位置信息和該語(yǔ)言模型共同組成編碼器;
步驟S3:用一個(gè)全連接層、一個(gè)gelu激活函數(shù)層、一個(gè)歸一層和另一個(gè)全連接層依次堆疊,構(gòu)成解碼器,并將編碼器結(jié)果輸入到解碼器解碼;
步驟S4:利用解碼器的輸出,即得到的詞概率向量預(yù)測(cè)出空格處應(yīng)該出現(xiàn)的單詞。
所述步驟S1具體包括以下步驟;
步驟S11、獲取公開完型填空CLOTH數(shù)據(jù)集;
步驟S12:利用不同預(yù)訓(xùn)練模型對(duì)應(yīng)的分詞器來(lái)對(duì)CLOTH數(shù)據(jù)集中的文章和候選項(xiàng)進(jìn)行分詞處理并轉(zhuǎn)換為在對(duì)應(yīng)詞典中的索引;
步驟S13:記錄下每一個(gè)空格在其所對(duì)應(yīng)文本序列中的位置,同時(shí)將標(biāo)準(zhǔn)答案按順序由字母轉(zhuǎn)換為數(shù)字;
步驟S14:把CLOTH數(shù)據(jù)集的每一篇文章,經(jīng)過數(shù)據(jù)預(yù)處理后,歸結(jié)為sample name,article IDs,options IDs,questions positions,和answer共五類數(shù)據(jù)。
步驟S2具體包括以下步驟;
步驟S21:獲取輸入句子的每一個(gè)單詞的表示向量X,X由單詞的詞嵌入向量和單詞位置的詞嵌入向量相加得到;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于福州大學(xué),未經(jīng)福州大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011291822.1/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種基于Bert的意圖確定方法及裝置
- 語(yǔ)言模型的訓(xùn)練方法、裝置和計(jì)算機(jī)設(shè)備
- 融合外部知識(shí)的BERT模型的微調(diào)方法、裝置及計(jì)算機(jī)設(shè)備
- 基于BERT-BTM網(wǎng)絡(luò)的微博突發(fā)事件檢測(cè)方法
- 生成文本數(shù)據(jù)的方法、裝置和計(jì)算機(jī)設(shè)備
- 基于卷積神經(jīng)網(wǎng)絡(luò)的BERT模型的微調(diào)方法及裝置
- 多語(yǔ)言BERT序列標(biāo)注模型的壓縮方法及系統(tǒng)
- BERT模型的優(yōu)化方法及系統(tǒng)、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種基于BERT的多特征融合模糊文本分類系統(tǒng)
- 一種基于Bert+BiLSTM+CRF的知識(shí)元自動(dòng)抽取方法





