[發(fā)明專(zhuān)利]模型訓(xùn)練方法、裝置、設(shè)備及計(jì)算機(jī)可讀介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202110014739.8 | 申請(qǐng)日: | 2021-01-06 |
| 公開(kāi)(公告)號(hào): | CN112686046A | 公開(kāi)(公告)日: | 2021-04-20 |
| 發(fā)明(設(shè)計(jì))人: | 白強(qiáng)偉;黃艷香 | 申請(qǐng)(專(zhuān)利權(quán))人: | 上海明略人工智能(集團(tuán))有限公司 |
| 主分類(lèi)號(hào): | G06F40/295 | 分類(lèi)號(hào): | G06F40/295;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京華夏泰和知識(shí)產(chǎn)權(quán)代理有限公司 11662 | 代理人: | 曾軍;黃巍 |
| 地址: | 200030 上海市徐匯區(qū)*** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 模型 訓(xùn)練 方法 裝置 設(shè)備 計(jì)算機(jī) 可讀 介質(zhì) | ||
本申請(qǐng)涉及一種模型訓(xùn)練方法、裝置、設(shè)備及計(jì)算機(jī)可讀介質(zhì)。該方法包括:將訓(xùn)練樣本輸入第一模型,并獲取第一模型的全連接層輸出的第一識(shí)別結(jié)果;將訓(xùn)練樣本和第一識(shí)別結(jié)果輸入第二模型,并獲取第二模型的全連接層輸出的第二識(shí)別結(jié)果,第一模型的參數(shù)量大于第二模型的參數(shù)量,第一模型的識(shí)別準(zhǔn)確度大于第二模型的識(shí)別準(zhǔn)確度;利用第一識(shí)別結(jié)果、第二識(shí)別結(jié)果和訓(xùn)練樣本的預(yù)標(biāo)注數(shù)據(jù)構(gòu)建目標(biāo)損失函數(shù);利用目標(biāo)損失函數(shù)調(diào)整第二模型中的參數(shù),以使第二模型的識(shí)別準(zhǔn)確度達(dá)到目標(biāo)閾值,第二模型的輸出結(jié)果與第一模型的輸出結(jié)果相同時(shí),識(shí)別準(zhǔn)確。本申請(qǐng)解決了模型參數(shù)量大導(dǎo)致識(shí)別效率低的問(wèn)題。
技術(shù)領(lǐng)域
本申請(qǐng)涉及自然語(yǔ)言處理技術(shù)領(lǐng)域,尤其涉及一種模型訓(xùn)練方法、裝置、設(shè)備及計(jì)算機(jī)可讀介質(zhì)。
背景技術(shù)
命名實(shí)體識(shí)別是自然語(yǔ)言處理中一項(xiàng)基本任務(wù),其目的是識(shí)別出文本中表示命名實(shí)體的成分并對(duì)其進(jìn)行分類(lèi),例如識(shí)別出文本中的人名、地名、組織機(jī)構(gòu)名等。命名實(shí)體識(shí)別這項(xiàng)任務(wù)雖然基礎(chǔ),但是有著廣泛的應(yīng)用場(chǎng)景。例如命名實(shí)體識(shí)別可以用于構(gòu)建知識(shí)圖譜,也可以用于提高搜索引擎的準(zhǔn)確率,還可以幫助推薦系統(tǒng)更準(zhǔn)確的進(jìn)行推薦。因此,近些年的工業(yè)界和學(xué)術(shù)界關(guān)于命名實(shí)體識(shí)別任務(wù)的主要優(yōu)化方向是提高準(zhǔn)確率。隨著像BERT-CRF這樣基于預(yù)訓(xùn)練語(yǔ)言模型的模型崛起,命名實(shí)體識(shí)別的準(zhǔn)確率已經(jīng)能夠達(dá)到應(yīng)用落地的需求了。但是BERT-CRF模型由于參數(shù)量大,導(dǎo)致進(jìn)行命名實(shí)體識(shí)別的效率較低。這將導(dǎo)致那些資源比較緊缺的小公司不得不加大資金投入,才能滿足應(yīng)用的需求。此外,對(duì)于各類(lèi)智能硬件來(lái)說(shuō),其存儲(chǔ)資源和運(yùn)算資源都比較少,因此這樣的模型也很難部署到這些智能硬件上。
目前,相關(guān)技術(shù)中,解決命名實(shí)體識(shí)別模型參數(shù)量大的方法分為兩個(gè)思路。第一種思路是直接使用標(biāo)注樣本訓(xùn)練一個(gè)參數(shù)量少的模型,例如訓(xùn)練一個(gè)單層的BiLSTM-CRF模型;第二種思路是使用壓縮后的預(yù)訓(xùn)練語(yǔ)言模型來(lái)設(shè)計(jì)新的命名實(shí)體識(shí)別模型,例如基于DistilBert或者TinyBert的命名實(shí)體識(shí)別模型。第一種思路模型的效果往往比較差,達(dá)不到落地應(yīng)用的要求,第二種思路的最終模型的參數(shù)量取決于使用的預(yù)訓(xùn)練語(yǔ)言模型的參數(shù)量,這導(dǎo)致無(wú)法很好的控制模型的參數(shù)量,不夠靈活。
針對(duì)BERT-CRF模型參數(shù)量大,識(shí)別效率較低的問(wèn)題,目前尚未提出有效的解決方案。
發(fā)明內(nèi)容
本申請(qǐng)?zhí)峁┝艘环N模型訓(xùn)練方法、裝置、設(shè)備及計(jì)算機(jī)可讀介質(zhì),以解決BERT-CRF模型參數(shù)量大,識(shí)別效率較低的技術(shù)問(wèn)題。
根據(jù)本申請(qǐng)實(shí)施例的一個(gè)方面,本申請(qǐng)?zhí)峁┝艘环N模型訓(xùn)練方法,包括:將訓(xùn)練樣本輸入第一模型,并獲取第一模型的全連接層輸出的第一識(shí)別結(jié)果;將訓(xùn)練樣本和第一識(shí)別結(jié)果輸入第二模型,并獲取第二模型的全連接層輸出的第二識(shí)別結(jié)果,第一模型的參數(shù)量大于第二模型的參數(shù)量,第一模型的識(shí)別準(zhǔn)確度大于第二模型的識(shí)別準(zhǔn)確度;利用第一識(shí)別結(jié)果、第二識(shí)別結(jié)果和訓(xùn)練樣本的預(yù)標(biāo)注數(shù)據(jù)構(gòu)建目標(biāo)損失函數(shù);利用目標(biāo)損失函數(shù)調(diào)整第二模型中的參數(shù),以使第二模型的識(shí)別準(zhǔn)確度達(dá)到目標(biāo)閾值,第二模型的輸出結(jié)果與第一模型的輸出結(jié)果相同時(shí),識(shí)別準(zhǔn)確。
可選地,將訓(xùn)練樣本輸入第一模型,并獲取第一模型的全連接層輸出的第一識(shí)別結(jié)果包括:將訓(xùn)練樣本輸入第一模型,并獲取第一模型的全連接層輸出的第一非標(biāo)準(zhǔn)化概率分布;采用歸一化函數(shù)將第一非標(biāo)準(zhǔn)化概率分布轉(zhuǎn)換為第一標(biāo)準(zhǔn)化概率分布,第一識(shí)別結(jié)果包括第一標(biāo)準(zhǔn)化概率分布。
可選地,將訓(xùn)練樣本和第一識(shí)別結(jié)果輸入第二模型,并獲取第二模型的全連接層輸出的第二識(shí)別結(jié)果包括:將訓(xùn)練樣本和第一標(biāo)準(zhǔn)化概率分布輸入第二模型,并獲取第二模型的全連接層輸出的第二非標(biāo)準(zhǔn)化概率分布;采用歸一化函數(shù)將第二非標(biāo)準(zhǔn)化概率分布轉(zhuǎn)換為第二標(biāo)準(zhǔn)化概率分布,并利用第二標(biāo)準(zhǔn)化概率分布確定訓(xùn)練樣本的訓(xùn)練分類(lèi)標(biāo)簽,第二識(shí)別結(jié)果包括第二標(biāo)準(zhǔn)化概率分布和訓(xùn)練分類(lèi)標(biāo)簽。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于上海明略人工智能(集團(tuán))有限公司,未經(jīng)上海明略人工智能(集團(tuán))有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110014739.8/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 等級(jí)精細(xì)視力訓(xùn)練表
- 視覺(jué)盲點(diǎn)演示與旁中心注視訓(xùn)練儀
- 一種訓(xùn)練室
- 視覺(jué)盲點(diǎn)演示與旁中心注視訓(xùn)練儀
- 一種訓(xùn)練室
- 康復(fù)訓(xùn)練器及其定量訓(xùn)練方法和定量訓(xùn)練裝置
- 一種分布式訓(xùn)練中梯度同步方法及裝置
- 訓(xùn)練模型的訓(xùn)練時(shí)長(zhǎng)預(yù)測(cè)方法及裝置
- 一種模型訓(xùn)練方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種計(jì)算機(jī)輔助的自閉癥兒童情感社交康復(fù)訓(xùn)練系統(tǒng)
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





