日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發(fā)明專利]一種Bert模型預(yù)訓(xùn)練方法、系統(tǒng)及計(jì)算機(jī)設(shè)備在審

專利信息
申請(qǐng)?zhí)枺?/td> 202011503784.1 申請(qǐng)日: 2020-12-18
公開(kāi)(公告)號(hào): CN112528650A 公開(kāi)(公告)日: 2021-03-19
發(fā)明(設(shè)計(jì))人: 佘璇;段少毅 申請(qǐng)(專利權(quán))人: 恩億科(北京)數(shù)據(jù)科技有限公司
主分類號(hào): G06F40/284 分類號(hào): G06F40/284;G06F40/126;G06N20/00
代理公司: 青島清泰聯(lián)信知識(shí)產(chǎn)權(quán)代理有限公司 37256 代理人: 趙燕
地址: 100192 北京市海淀區(qū)西小口路66*** 國(guó)省代碼: 北京;11
權(quán)利要求書: 查看更多 說(shuō)明書: 查看更多
摘要:
搜索關(guān)鍵詞: 一種 bert 模型 訓(xùn)練 方法 系統(tǒng) 計(jì)算機(jī) 設(shè)備
【說(shuō)明書】:

本申請(qǐng)涉及一種Bert模型預(yù)訓(xùn)練方法、系統(tǒng)及計(jì)算機(jī)設(shè)備,其中,該Bert模型預(yù)訓(xùn)練方法包括:原始數(shù)據(jù)集獲取步驟,用于獲取原始數(shù)據(jù)集;數(shù)據(jù)集預(yù)處理步驟,用于將所述原始數(shù)據(jù)集經(jīng)分詞處理得到分詞數(shù)據(jù)集,將所述分詞數(shù)據(jù)集經(jīng)Word2Vec模型訓(xùn)練得到全部詞匯的詞嵌入矩陣,并將所述詞匯根據(jù)出現(xiàn)頻率進(jìn)行排序、編碼,得到高頻詞匯、低頻詞匯及詞匯編碼;Bert模型預(yù)訓(xùn)練步驟,用于凍結(jié)所述Bert模型的詞嵌入矩陣參數(shù)并基于所述全部詞匯的詞嵌入矩陣訓(xùn)練所述Bert模型后,減小學(xué)習(xí)率并輸入所述詞匯編碼再次訓(xùn)練所述Bert模型。通過(guò)本申請(qǐng),優(yōu)化模型參數(shù)的收斂,有效防止模型震蕩。

技術(shù)領(lǐng)域

本申請(qǐng)涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,特別是涉及一種Bert模型預(yù)訓(xùn)練方法、系統(tǒng)及計(jì)算機(jī)設(shè)備。

背景技術(shù)

隨著深度學(xué)習(xí)技術(shù)的崛起,越來(lái)越多的預(yù)訓(xùn)練模型開(kāi)始應(yīng)用于自然語(yǔ)言處理任務(wù)中,對(duì)模型效果產(chǎn)生了巨大的提升。早期的自然語(yǔ)言預(yù)訓(xùn)練使用的是word2vec等詞向量方法,將高維稀疏詞向量映射到稠密低維向量,以作為后續(xù)模型的輸入。而隨著深度學(xué)習(xí)的發(fā)展,一些更加強(qiáng)大的預(yù)訓(xùn)練模型被提出,Bert可看作其中的代表,借助于Bert的強(qiáng)大預(yù)訓(xùn)練,在很多任務(wù)上都達(dá)到了當(dāng)前最佳效果。

自然語(yǔ)言預(yù)訓(xùn)練模型除了可以應(yīng)用于自然語(yǔ)言處理任務(wù)中,還能將其應(yīng)用于其他的序列數(shù)據(jù)中。如大數(shù)據(jù)互聯(lián)網(wǎng)公司中收集到的用戶觀看點(diǎn)擊過(guò)的廣告或者商品便可以當(dāng)做類似自然語(yǔ)言數(shù)據(jù)集來(lái)進(jìn)行處理建模。但是這種數(shù)據(jù)與自然語(yǔ)言數(shù)據(jù)集也有一些重要的區(qū)別,廣告和商品數(shù)據(jù)的數(shù)量通常是非常大的,如互聯(lián)網(wǎng)上的廣告種類一般有百萬(wàn)以上,而電商商品種類可能會(huì)更多。而在自然語(yǔ)言數(shù)據(jù)集中,詞匯數(shù)量常常只有幾萬(wàn),這導(dǎo)致模型難以處理這種上百萬(wàn)詞表(即上百萬(wàn)的商品或者廣告),因?yàn)檫^(guò)大的詞表需要很大的詞嵌入矩陣來(lái)儲(chǔ)存,也即模型需要學(xué)習(xí)更多的參數(shù),這將導(dǎo)致模型過(guò)大參數(shù)過(guò)多。此外,詞表中詞匯的出現(xiàn)頻率分布通常是長(zhǎng)尾分布的,也即小部分詞匯出現(xiàn)的頻率非常高,而大部分詞匯出現(xiàn)的頻率非常低,這也導(dǎo)致模型學(xué)習(xí)更加困難。

現(xiàn)有的使用Bert模型預(yù)訓(xùn)練大詞表數(shù)據(jù)集的方法一般采用兩步預(yù)訓(xùn)練:(1)預(yù)處理數(shù)據(jù)集,將所有出現(xiàn)的詞匯按頻率排序,僅保留出現(xiàn)頻率最高的n個(gè)詞匯,其余的詞全部采用詞‘“UNK”’(unknown)來(lái)進(jìn)行表示。然后使用word2vec來(lái)進(jìn)行預(yù)訓(xùn)練,以得到所有詞的詞嵌入向量;(2)將word2vec預(yù)訓(xùn)練得到的詞嵌入矩陣代入Bert模型詞嵌入矩陣中進(jìn)行初始化,然后預(yù)訓(xùn)練Bert模型。

基于上述預(yù)訓(xùn)練方法,在訓(xùn)練word2vec之前直接將頻率排名前n之后的詞匯設(shè)置成相同的一個(gè)詞“UNK”會(huì)損失掉很多詞信息,使預(yù)處理過(guò)程中很多表示不同信息的詞均使用了同一個(gè)詞來(lái)進(jìn)行表示了;另一方面,直接使用word2vec預(yù)訓(xùn)練好的詞嵌入矩陣來(lái)初始化Bert模型詞嵌入矩陣并隨著B(niǎo)ert模型一起進(jìn)行訓(xùn)練可能會(huì)導(dǎo)致已經(jīng)訓(xùn)練好詞嵌入矩陣學(xué)習(xí)變差。

發(fā)明內(nèi)容

本申請(qǐng)實(shí)施例提供了一種Bert模型預(yù)訓(xùn)練方法、系統(tǒng)、計(jì)算機(jī)設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),優(yōu)化模型參數(shù)的收斂,有效防止模型震蕩。

第一方面,本申請(qǐng)實(shí)施例提供了一種Bert模型預(yù)訓(xùn)練方法,包括:

原始數(shù)據(jù)集獲取步驟,用于獲取原始數(shù)據(jù)集;

數(shù)據(jù)集預(yù)處理步驟,用于將所述原始數(shù)據(jù)集經(jīng)分詞處理得到分詞數(shù)據(jù)集,將所述分詞數(shù)據(jù)集經(jīng)Word2Vec模型訓(xùn)練得到全部詞匯的詞嵌入矩陣,并將所述詞匯根據(jù)出現(xiàn)頻率進(jìn)行排序、編碼,得到高頻詞匯、低頻詞匯及詞匯編碼;

Bert模型預(yù)訓(xùn)練步驟,用于凍結(jié)所述Bert模型的詞嵌入矩陣參數(shù)并基于所述全部詞匯的詞嵌入矩陣訓(xùn)練所述Bert模型后,減小學(xué)習(xí)率并輸入所述詞匯編碼再次訓(xùn)練所述Bert模型。

下載完整專利技術(shù)內(nèi)容需要扣除積分,VIP會(huì)員可以免費(fèi)下載。

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于恩億科(北京)數(shù)據(jù)科技有限公司,未經(jīng)恩億科(北京)數(shù)據(jù)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/202011503784.1/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。

×

專利文獻(xiàn)下載

說(shuō)明:

1、專利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專利說(shuō)明書;

2、支持發(fā)明專利 、實(shí)用新型專利、外觀設(shè)計(jì)專利(升級(jí)中);

3、專利數(shù)據(jù)每周兩次同步更新,支持Adobe PDF格式;

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖技術(shù)構(gòu)造圖

5、已全新升級(jí)為極速版,下載速度顯著提升!歡迎使用!

請(qǐng)您登陸后,進(jìn)行下載,點(diǎn)擊【登陸】 【注冊(cè)】

關(guān)于我們 尋求報(bào)道 投稿須知 廣告合作 版權(quán)聲明 網(wǎng)站地圖 友情鏈接 企業(yè)標(biāo)識(shí) 聯(lián)系我們

鉆瓜專利網(wǎng)在線咨詢

周一至周五 9:00-18:00

咨詢?cè)诰€客服咨詢?cè)诰€客服
tel code back_top
主站蜘蛛池模板: 偷拍区另类欧美激情日韩91| 99er热精品视频国产| 亚洲国产精品入口| 色就是色欧美亚洲| 欧美精品在线一区二区| 李采潭伦理bd播放| 欧美日韩一区二区三区不卡| 欧美一级片一区| 国产在线观看二区| 午夜影院一级片| 欧美日韩国产色综合一二三四| 日韩亚洲欧美一区| 国产三级欧美三级日产三级99| 91高清一区| 国产性猛交| 日韩午夜电影院| 亚洲制服丝袜在线| 黄色91在线观看| 日韩欧美中文字幕精品| 亚洲福利视频一区| 久久综合国产伦精品免费| 精品国产区一区二| 亚洲1区在线观看| 国产清纯白嫩初高生在线观看性色| 三级视频一区| 欧美日韩一区二区三区不卡| 国产aⅴ精品久久久久久| 国产精品不卡在线| www.午夜av| 国产福利一区在线观看| 欧美日韩国产精品一区二区亚洲| freexxxxxxx| 国产剧情在线观看一区二区| 狠狠色狠狠色综合久久第一次| 免费午夜在线视频| 国产精品久久久爽爽爽麻豆色哟哟| 国产精品69久久久| 性色av香蕉一区二区| 在线中文字幕一区| 国产精品二区在线| 欧美日韩一区在线视频| av午夜影院| 天干天干天啪啪夜爽爽99| 视频一区欧美| 午夜剧场a级免费| 久久夜色精品国产亚洲| 午夜爽爽视频| 最新国产精品久久精品| 欧美在线一级va免费观看| 91麻豆精品国产91久久久久| 久久国产欧美一区二区三区精品| 欧美精品乱码视频一二专区| 国产精品久久久久久久久久久不卡| 久久夜色精品国产噜噜麻豆| 国产91九色在线播放| 精品99免费视频| 狠狠躁夜夜躁人人爽天天天天97 | 精品免费久久久久久久苍| 国产一区二区视频免费观看| 久久久精品二区| 国产综合久久精品| 久久综合国产伦精品免费| 日本一二三区视频在线| 亚洲乱码av一区二区三区中文在线:| 久久精品二| 午夜精品一二三区| 日本看片一区二区三区高清| 一本久久精品一区二区| 国产真裸无庶纶乱视频| 日本少妇高潮xxxxⅹ| 国产精品19乱码一区二区三区| 国内自拍偷拍一区| 午夜激情免费电影| 日韩精品1区2区3区| 一区二区三区国产欧美| 中文字幕+乱码+中文字幕一区| 挺进警察美妇后菊| 91国产一区二区| 99久久久国产精品免费调教网站| 视频二区一区国产精品天天| 狠狠色丁香久久综合频道| 中文字幕日韩一区二区|