[發(fā)明專利]一種模型蒸餾學(xué)習(xí)方法、文本查詢方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 202011275406.2 | 申請(qǐng)日: | 2020-11-16 |
| 公開(公告)號(hào): | CN112101573B | 公開(公告)日: | 2021-04-30 |
| 發(fā)明(設(shè)計(jì))人: | 楊均暉;方寬;申站;趙龍 | 申請(qǐng)(專利權(quán))人: | 智者四海(北京)技術(shù)有限公司 |
| 主分類號(hào): | G06N20/00 | 分類號(hào): | G06N20/00;G06F16/33 |
| 代理公司: | 北京超凡宏宇專利代理事務(wù)所(特殊普通合伙) 11463 | 代理人: | 何明倫 |
| 地址: | 100000 北京市海淀區(qū)*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 模型 蒸餾 學(xué)習(xí)方法 文本 查詢 方法 裝置 | ||
本發(fā)明涉及一種模型蒸餾學(xué)習(xí)方法、文本查詢方法及裝置,屬于自然語言處理技術(shù)領(lǐng)域,旨在提高訓(xùn)練模型的精度,從而提高文本查詢時(shí)的準(zhǔn)確性。該方法包括:利用已標(biāo)注的數(shù)據(jù)集訓(xùn)練第一模型;將遷移數(shù)據(jù)集輸入至訓(xùn)練好的第一模型和第二模型,分別輸出第一相關(guān)性分?jǐn)?shù)集和第二相關(guān)性分?jǐn)?shù)集;至少部分的根據(jù)第一相關(guān)性分?jǐn)?shù)集和第二相關(guān)性分?jǐn)?shù)集確定蒸餾損失;根據(jù)蒸餾損失優(yōu)化第二模型的參數(shù),得到訓(xùn)練好的第二模型,其中:第一模型和第二模型為不同類型的模型。
技術(shù)領(lǐng)域
本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域,更具體地,涉及一種模型蒸餾學(xué)習(xí)方法、文本查詢方法及裝置。
背景技術(shù)
隨著機(jī)器學(xué)習(xí)的不斷發(fā)展,自然語言處理技術(shù)中神經(jīng)網(wǎng)絡(luò)被使用的越來越多,通常情況下將該神經(jīng)網(wǎng)絡(luò)模型應(yīng)用于搜索引擎當(dāng)中,利用神經(jīng)網(wǎng)絡(luò)模型對(duì)召回的文本進(jìn)行打分,從而按照分?jǐn)?shù)高低返回給用戶。
然而現(xiàn)有技術(shù)中很多模型,比如Bert,其模型較為復(fù)雜,參數(shù)量大,訓(xùn)練時(shí)間長(zhǎng),內(nèi)存消耗較大,這樣導(dǎo)致很難應(yīng)用至智能手機(jī)等移動(dòng)終端設(shè)備上。
為了解決上述的問題,現(xiàn)有技術(shù)中提出了一種知識(shí)蒸餾的方法,其利用學(xué)生模型來直接去學(xué)習(xí)老師模型,來實(shí)現(xiàn)學(xué)生模型對(duì)老師模型的學(xué)習(xí)?,F(xiàn)有的學(xué)生模型和老師模型為同類型模型,而由于受限于模型本身的準(zhǔn)確度,使得同類型模型之間蒸餾效果有限,其蒸餾學(xué)習(xí)得到的模型的準(zhǔn)確度較低,從而在文本查詢時(shí)的準(zhǔn)確性也較低。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明實(shí)施例的目的在于提供一種模型蒸餾學(xué)習(xí)方法、文本查詢方法及裝置,旨在維持或提高模型準(zhǔn)確性的同時(shí)能夠壓縮模型大小,大量節(jié)省計(jì)算資源和存儲(chǔ)資源,此外在提高模型準(zhǔn)確度后,從而能夠提高文本查詢時(shí)的準(zhǔn)確性。
本發(fā)明實(shí)施例的第一方面,提供一種通過蒸餾學(xué)習(xí)第一模型訓(xùn)練第二模型的方法,所述第一模型和第二模型為不同類型的模型,所述方法包括:利用已標(biāo)注的數(shù)據(jù)集訓(xùn)練第一模型;將遷移數(shù)據(jù)集輸入至訓(xùn)練好的第一模型和所述第二模型,分別輸出第一相關(guān)性分?jǐn)?shù)集和第二相關(guān)性分?jǐn)?shù)集;至少部分的根據(jù)所述第一相關(guān)性分?jǐn)?shù)集和所述第二相關(guān)性分?jǐn)?shù)集確定蒸餾損失;根據(jù)所述蒸餾損失優(yōu)化所述第二模型的參數(shù),得到訓(xùn)練好的第二模型。
在一個(gè)可能的實(shí)施例中,所述至少部分的根據(jù)所述第一相關(guān)性分?jǐn)?shù)集和所述第二相關(guān)性分?jǐn)?shù)集確定蒸餾損失,包括:根據(jù)所述第一相關(guān)性分?jǐn)?shù)集確定第一得分矩陣,以及根據(jù)所述第二相關(guān)性分?jǐn)?shù)集確定第二得分矩陣;至少部分的根據(jù)所述第一得分矩陣和所述第二得分矩陣確定蒸餾矩陣;根據(jù)所述蒸餾矩陣確定蒸餾損失。
在一個(gè)可能的實(shí)施例中,所述至少部分的根據(jù)所述第一得分矩陣和所述第二得分矩陣確定蒸餾矩陣,包括:構(gòu)建成對(duì)鉸鏈損失pairwise hinge loss函數(shù)模型;將所述第一得分矩陣和所述第二得分矩陣輸入至pairwise hinge loss函數(shù)模型,輸出蒸餾矩陣。
在一個(gè)可能的實(shí)施例中,其中,所述第一模型和第二模型的輸入內(nèi)容以及輸出內(nèi)容不同,其中:所述第一模型為交互模型,所述第二模型為表示模型;或者,所述第一模型為表示模型,所述第二模型為交互模型。
在一個(gè)可能的實(shí)施例中,其中,所述交互模型包括輸入層、Transformer層以及輸出層,輸入為:s1,s2,...sn,輸出為:s1向量,s2向量,...,sn向量,其中:si是query和doci合并的語句;所述表示模型包括輸入層、Transformer層以及輸出層,輸入為:query,doc1,...,docn,輸出為:query向量,doc1向量,...,docn向量。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于智者四海(北京)技術(shù)有限公司,未經(jīng)智者四海(北京)技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011275406.2/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 數(shù)字學(xué)習(xí)方法及執(zhí)行此數(shù)字學(xué)習(xí)方法的攜帶式電子裝置
- 一種響應(yīng)式教學(xué)設(shè)計(jì)方法及系統(tǒng)
- 一種神經(jīng)網(wǎng)絡(luò)及該神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法
- 一種高光譜遙感影像目標(biāo)探測(cè)方法
- 一種八維學(xué)習(xí)方法
- 一種自適應(yīng)學(xué)習(xí)特征及其張量分解式分享學(xué)習(xí)方法
- 生成模型學(xué)習(xí)方法、生成模型學(xué)習(xí)裝置及程序
- 一種高精度定位系統(tǒng)及方法
- 學(xué)習(xí)方法、管理裝置和記錄介質(zhì)
- 一種基于圖像屬性特征表述的少樣本學(xué)習(xí)方法
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





