[發(fā)明專利]一種多模型訓(xùn)練方法、裝置、電子設(shè)備及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202011335125.1 | 申請日: | 2020-11-24 |
| 公開(公告)號: | CN112541570A | 公開(公告)日: | 2021-03-23 |
| 發(fā)明(設(shè)計)人: | 王浩宇;王小捷;江會星;王仲遠 | 申請(專利權(quán))人: | 北京三快在線科技有限公司;北京郵電大學(xué) |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08;G06N20/20 |
| 代理公司: | 北京潤澤恒知識產(chǎn)權(quán)代理有限公司 11319 | 代理人: | 任亞娟 |
| 地址: | 100083 北京市海*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 模型 訓(xùn)練 方法 裝置 電子設(shè)備 存儲 介質(zhì) | ||
本申請?zhí)峁┝艘环N多模型訓(xùn)練方法、裝置、電子設(shè)備及存儲介質(zhì)。該包括:確定待訓(xùn)練的第一網(wǎng)絡(luò)模型和待訓(xùn)練的第二網(wǎng)絡(luò)模型,所述第一網(wǎng)絡(luò)模型和所述第二網(wǎng)絡(luò)模型為相互關(guān)聯(lián)的兩個網(wǎng)絡(luò)模型;利用訓(xùn)練樣本,對所述第一網(wǎng)絡(luò)模型和所述第二網(wǎng)絡(luò)模型進行合作式訓(xùn)練,并根據(jù)訓(xùn)練結(jié)果對所述第一網(wǎng)絡(luò)模型和所述第二網(wǎng)絡(luò)模型各自的網(wǎng)絡(luò)參數(shù)進行多次更新,直至訓(xùn)練結(jié)束,其中,所述第一網(wǎng)絡(luò)模型的輸出為所述第二網(wǎng)絡(luò)模型的輸入,所述第二網(wǎng)絡(luò)模型的輸出為所述第一網(wǎng)絡(luò)模型的輸入;將訓(xùn)練結(jié)束時第一網(wǎng)絡(luò)模型確定為第一目標(biāo)網(wǎng)絡(luò)模型,并將訓(xùn)練結(jié)束時的第二網(wǎng)絡(luò)模型確定為第二目標(biāo)網(wǎng)絡(luò)模型。該方法可提升對話管理系統(tǒng)策略的豐富性和模型的訓(xùn)練效率。
技術(shù)領(lǐng)域
本申請實施例涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種多模型訓(xùn)練方法、裝置、電子設(shè)備及存儲介質(zhì)。
背景技術(shù)
經(jīng)典的任務(wù)型對話系統(tǒng)可以分為三個模塊,即NLU(Natural LanguageUnderstanding,自然語言理解模塊)模塊,DM(Dialogue Management,對話管理模塊)模塊以及NLG(Natural Language Generation,自然語言生成模塊)模塊。其中,DM模塊是任務(wù)型對話系統(tǒng)的核心,主要用于對話狀態(tài)追蹤和策略生成。
目前常見的對話管理模塊的實現(xiàn)方法是基于MDP(Markov Decision Process,馬爾科夫決策過程)的概率模型方法,通常使用強化學(xué)習(xí)算法進行訓(xùn)練。該概率模型方法主要包括下面多種實現(xiàn)方案:方案一、使用基于規(guī)則的用戶模擬器,直接訓(xùn)練對話管理模塊;方案二、使用強化學(xué)習(xí)構(gòu)建用戶模擬器,然后訓(xùn)練對話管理系統(tǒng)。
然而,在方案一中,在使用強化學(xué)習(xí)方法訓(xùn)練對話管理模塊時,通常會構(gòu)建一個用戶模擬器。而用戶模擬器的構(gòu)建往往需要人工編寫規(guī)則,需要參與編寫用戶模擬器的工作人員了解應(yīng)用任務(wù)的背景,十分耗費人力;同時,基于規(guī)則構(gòu)建的用戶模擬器,普遍存在策略單一的問題,由此訓(xùn)練得到的對話管理模塊,其策略往往也不夠豐富。在方式二中,分別使用強化學(xué)習(xí)構(gòu)建用戶模擬器和對話管理系統(tǒng),并未考慮兩個模型之間的關(guān)聯(lián)性,訓(xùn)練效果較差。其次,分別對兩個模型進行訓(xùn)練需要花費較長的時間,訓(xùn)練成本高。因而,如何更好地對對話管理模塊進行訓(xùn)練,成為亟待解決的問題。
發(fā)明內(nèi)容
本申請實施例提供一種多模型訓(xùn)練方法、裝置、電子設(shè)備及存儲介質(zhì),通過將對話管理模塊和用戶模擬器進行合作式訓(xùn)練,能有效解決策略單一的問題并提升模型訓(xùn)練效率。
本申請實施例第一方面提供了一種多模型訓(xùn)練方法,所述方法包括:
確定待訓(xùn)練的第一網(wǎng)絡(luò)模型和待訓(xùn)練的第二網(wǎng)絡(luò)模型,所述第一網(wǎng)絡(luò)模型和所述第二網(wǎng)絡(luò)模型為相互關(guān)聯(lián)的兩個網(wǎng)絡(luò)模型;
利用訓(xùn)練樣本,對所述第一網(wǎng)絡(luò)模型和所述第二網(wǎng)絡(luò)模型進行合作式訓(xùn)練,并根據(jù)訓(xùn)練結(jié)果對所述第一網(wǎng)絡(luò)模型和所述第二網(wǎng)絡(luò)模型各自的網(wǎng)絡(luò)參數(shù)進行多次更新,直至訓(xùn)練結(jié)束,其中,所述第一網(wǎng)絡(luò)模型的輸出為所述第二網(wǎng)絡(luò)模型的輸入,所述第二網(wǎng)絡(luò)模型的輸出為所述第一網(wǎng)絡(luò)模型的輸入;
將訓(xùn)練結(jié)束時第一網(wǎng)絡(luò)模型確定為第一目標(biāo)網(wǎng)絡(luò)模型,并將訓(xùn)練結(jié)束時的第二網(wǎng)絡(luò)模型確定為第二目標(biāo)網(wǎng)絡(luò)模型。
可選地,所述方法應(yīng)用于運行有主進程和子進程的設(shè)備,利用訓(xùn)練樣本,對所述第一網(wǎng)絡(luò)模型和所述第二網(wǎng)絡(luò)模型進行合作式訓(xùn)練,包括:
所述子進程從所述主進程中獲取第一全局網(wǎng)絡(luò)模型和第二全局網(wǎng)絡(luò)模型各自的當(dāng)前全局參數(shù);
所述子進程以獲取到的當(dāng)前全局參數(shù),構(gòu)建第一局部網(wǎng)絡(luò)模型和第二局部網(wǎng)絡(luò)模型;
所述子進程利用訓(xùn)練樣本對所述第一局部網(wǎng)絡(luò)模型和所述第二局部網(wǎng)絡(luò)模型進行合作式訓(xùn)練;
根據(jù)訓(xùn)練結(jié)果對所述第一網(wǎng)絡(luò)模型和所述第二網(wǎng)絡(luò)模型各自的網(wǎng)絡(luò)參數(shù)進行多次更新,直至訓(xùn)練結(jié)束,包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京三快在線科技有限公司;北京郵電大學(xué),未經(jīng)北京三快在線科技有限公司;北京郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011335125.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





