[發(fā)明專利]一種Bert模型預(yù)訓(xùn)練方法、系統(tǒng)及計(jì)算機(jī)設(shè)備在審
| 申請(qǐng)?zhí)枺?/td> | 202011503784.1 | 申請(qǐng)日: | 2020-12-18 | 
| 公開(kāi)(公告)號(hào): | CN112528650A | 公開(kāi)(公告)日: | 2021-03-19 | 
| 發(fā)明(設(shè)計(jì))人: | 佘璇;段少毅 | 申請(qǐng)(專利權(quán))人: | 恩億科(北京)數(shù)據(jù)科技有限公司 | 
| 主分類號(hào): | G06F40/284 | 分類號(hào): | G06F40/284;G06F40/126;G06N20/00 | 
| 代理公司: | 青島清泰聯(lián)信知識(shí)產(chǎn)權(quán)代理有限公司 37256 | 代理人: | 趙燕 | 
| 地址: | 100192 北京市海淀區(qū)西小口路66*** | 國(guó)省代碼: | 北京;11 | 
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 | 
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 bert 模型 訓(xùn)練 方法 系統(tǒng) 計(jì)算機(jī) 設(shè)備 | ||
本申請(qǐng)涉及一種Bert模型預(yù)訓(xùn)練方法、系統(tǒng)及計(jì)算機(jī)設(shè)備,其中,該Bert模型預(yù)訓(xùn)練方法包括:原始數(shù)據(jù)集獲取步驟,用于獲取原始數(shù)據(jù)集;數(shù)據(jù)集預(yù)處理步驟,用于將所述原始數(shù)據(jù)集經(jīng)分詞處理得到分詞數(shù)據(jù)集,將所述分詞數(shù)據(jù)集經(jīng)Word2Vec模型訓(xùn)練得到全部詞匯的詞嵌入矩陣,并將所述詞匯根據(jù)出現(xiàn)頻率進(jìn)行排序、編碼,得到高頻詞匯、低頻詞匯及詞匯編碼;Bert模型預(yù)訓(xùn)練步驟,用于凍結(jié)所述Bert模型的詞嵌入矩陣參數(shù)并基于所述全部詞匯的詞嵌入矩陣訓(xùn)練所述Bert模型后,減小學(xué)習(xí)率并輸入所述詞匯編碼再次訓(xùn)練所述Bert模型。通過(guò)本申請(qǐng),優(yōu)化模型參數(shù)的收斂,有效防止模型震蕩。
技術(shù)領(lǐng)域
本申請(qǐng)涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,特別是涉及一種Bert模型預(yù)訓(xùn)練方法、系統(tǒng)及計(jì)算機(jī)設(shè)備。
背景技術(shù)
隨著深度學(xué)習(xí)技術(shù)的崛起,越來(lái)越多的預(yù)訓(xùn)練模型開(kāi)始應(yīng)用于自然語(yǔ)言處理任務(wù)中,對(duì)模型效果產(chǎn)生了巨大的提升。早期的自然語(yǔ)言預(yù)訓(xùn)練使用的是word2vec等詞向量方法,將高維稀疏詞向量映射到稠密低維向量,以作為后續(xù)模型的輸入。而隨著深度學(xué)習(xí)的發(fā)展,一些更加強(qiáng)大的預(yù)訓(xùn)練模型被提出,Bert可看作其中的代表,借助于Bert的強(qiáng)大預(yù)訓(xùn)練,在很多任務(wù)上都達(dá)到了當(dāng)前最佳效果。
自然語(yǔ)言預(yù)訓(xùn)練模型除了可以應(yīng)用于自然語(yǔ)言處理任務(wù)中,還能將其應(yīng)用于其他的序列數(shù)據(jù)中。如大數(shù)據(jù)互聯(lián)網(wǎng)公司中收集到的用戶觀看點(diǎn)擊過(guò)的廣告或者商品便可以當(dāng)做類似自然語(yǔ)言數(shù)據(jù)集來(lái)進(jìn)行處理建模。但是這種數(shù)據(jù)與自然語(yǔ)言數(shù)據(jù)集也有一些重要的區(qū)別,廣告和商品數(shù)據(jù)的數(shù)量通常是非常大的,如互聯(lián)網(wǎng)上的廣告種類一般有百萬(wàn)以上,而電商商品種類可能會(huì)更多。而在自然語(yǔ)言數(shù)據(jù)集中,詞匯數(shù)量常常只有幾萬(wàn),這導(dǎo)致模型難以處理這種上百萬(wàn)詞表(即上百萬(wàn)的商品或者廣告),因?yàn)檫^(guò)大的詞表需要很大的詞嵌入矩陣來(lái)儲(chǔ)存,也即模型需要學(xué)習(xí)更多的參數(shù),這將導(dǎo)致模型過(guò)大參數(shù)過(guò)多。此外,詞表中詞匯的出現(xiàn)頻率分布通常是長(zhǎng)尾分布的,也即小部分詞匯出現(xiàn)的頻率非常高,而大部分詞匯出現(xiàn)的頻率非常低,這也導(dǎo)致模型學(xué)習(xí)更加困難。
現(xiàn)有的使用Bert模型預(yù)訓(xùn)練大詞表數(shù)據(jù)集的方法一般采用兩步預(yù)訓(xùn)練:(1)預(yù)處理數(shù)據(jù)集,將所有出現(xiàn)的詞匯按頻率排序,僅保留出現(xiàn)頻率最高的n個(gè)詞匯,其余的詞全部采用詞‘“UNK”’(unknown)來(lái)進(jìn)行表示。然后使用word2vec來(lái)進(jìn)行預(yù)訓(xùn)練,以得到所有詞的詞嵌入向量;(2)將word2vec預(yù)訓(xùn)練得到的詞嵌入矩陣代入Bert模型詞嵌入矩陣中進(jìn)行初始化,然后預(yù)訓(xùn)練Bert模型。
基于上述預(yù)訓(xùn)練方法,在訓(xùn)練word2vec之前直接將頻率排名前n之后的詞匯設(shè)置成相同的一個(gè)詞“UNK”會(huì)損失掉很多詞信息,使預(yù)處理過(guò)程中很多表示不同信息的詞均使用了同一個(gè)詞來(lái)進(jìn)行表示了;另一方面,直接使用word2vec預(yù)訓(xùn)練好的詞嵌入矩陣來(lái)初始化Bert模型詞嵌入矩陣并隨著B(niǎo)ert模型一起進(jìn)行訓(xùn)練可能會(huì)導(dǎo)致已經(jīng)訓(xùn)練好詞嵌入矩陣學(xué)習(xí)變差。
發(fā)明內(nèi)容
本申請(qǐng)實(shí)施例提供了一種Bert模型預(yù)訓(xùn)練方法、系統(tǒng)、計(jì)算機(jī)設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),優(yōu)化模型參數(shù)的收斂,有效防止模型震蕩。
第一方面,本申請(qǐng)實(shí)施例提供了一種Bert模型預(yù)訓(xùn)練方法,包括:
原始數(shù)據(jù)集獲取步驟,用于獲取原始數(shù)據(jù)集;
數(shù)據(jù)集預(yù)處理步驟,用于將所述原始數(shù)據(jù)集經(jīng)分詞處理得到分詞數(shù)據(jù)集,將所述分詞數(shù)據(jù)集經(jīng)Word2Vec模型訓(xùn)練得到全部詞匯的詞嵌入矩陣,并將所述詞匯根據(jù)出現(xiàn)頻率進(jìn)行排序、編碼,得到高頻詞匯、低頻詞匯及詞匯編碼;
Bert模型預(yù)訓(xùn)練步驟,用于凍結(jié)所述Bert模型的詞嵌入矩陣參數(shù)并基于所述全部詞匯的詞嵌入矩陣訓(xùn)練所述Bert模型后,減小學(xué)習(xí)率并輸入所述詞匯編碼再次訓(xùn)練所述Bert模型。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于恩億科(北京)數(shù)據(jù)科技有限公司,未經(jīng)恩億科(北京)數(shù)據(jù)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011503784.1/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種基于Bert的意圖確定方法及裝置
 - 語(yǔ)言模型的訓(xùn)練方法、裝置和計(jì)算機(jī)設(shè)備
 - 融合外部知識(shí)的BERT模型的微調(diào)方法、裝置及計(jì)算機(jī)設(shè)備
 - 基于BERT-BTM網(wǎng)絡(luò)的微博突發(fā)事件檢測(cè)方法
 - 生成文本數(shù)據(jù)的方法、裝置和計(jì)算機(jī)設(shè)備
 - 基于卷積神經(jīng)網(wǎng)絡(luò)的BERT模型的微調(diào)方法及裝置
 - 多語(yǔ)言BERT序列標(biāo)注模型的壓縮方法及系統(tǒng)
 - BERT模型的優(yōu)化方法及系統(tǒng)、電子設(shè)備及存儲(chǔ)介質(zhì)
 - 一種基于BERT的多特征融合模糊文本分類系統(tǒng)
 - 一種基于Bert+BiLSTM+CRF的知識(shí)元自動(dòng)抽取方法
 
- 等級(jí)精細(xì)視力訓(xùn)練表
 - 視覺(jué)盲點(diǎn)演示與旁中心注視訓(xùn)練儀
 - 一種訓(xùn)練室
 - 視覺(jué)盲點(diǎn)演示與旁中心注視訓(xùn)練儀
 - 一種訓(xùn)練室
 - 康復(fù)訓(xùn)練器及其定量訓(xùn)練方法和定量訓(xùn)練裝置
 - 一種分布式訓(xùn)練中梯度同步方法及裝置
 - 訓(xùn)練模型的訓(xùn)練時(shí)長(zhǎng)預(yù)測(cè)方法及裝置
 - 一種模型訓(xùn)練方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
 - 一種計(jì)算機(jī)輔助的自閉癥兒童情感社交康復(fù)訓(xùn)練系統(tǒng)
 
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
 - 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
 - 一種通訊綜合測(cè)試終端的測(cè)試方法
 - 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
 - 系統(tǒng)升級(jí)方法及裝置
 - 用于虛擬和接口方法調(diào)用的裝置和方法
 - 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
 - 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
 - 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
 - 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
 





