[發(fā)明專利]獎(jiǎng)勵(lì)模型處理方法、電子設(shè)備、介質(zhì)和計(jì)算機(jī)程序產(chǎn)品在審
| 申請(qǐng)?zhí)枺?/td> | 202011407855.8 | 申請(qǐng)日: | 2020-12-03 |
| 公開(公告)號(hào): | CN113535911A | 公開(公告)日: | 2021-10-22 |
| 發(fā)明(設(shè)計(jì))人: | 侯政旭;劉亞飛;趙瑞輝 | 申請(qǐng)(專利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類號(hào): | G06F16/332 | 分類號(hào): | G06F16/332;G06F40/35;G06N3/04 |
| 代理公司: | 北京市柳沈律師事務(wù)所 11105 | 代理人: | 王娟 |
| 地址: | 518057 廣東省深圳*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 獎(jiǎng)勵(lì) 模型 處理 方法 電子設(shè)備 介質(zhì) 計(jì)算機(jī) 程序 產(chǎn)品 | ||
提供了獎(jiǎng)勵(lì)模型處理方法、電子設(shè)備、介質(zhì)和計(jì)算機(jī)程序產(chǎn)品。處理方法可以包括:獲取多輪次樣本對(duì)話,每輪次樣本對(duì)話包括樣本問句以及對(duì)應(yīng)的樣本答句;利用判別器模型構(gòu)造獎(jiǎng)勵(lì)模型,基于每輪次樣本對(duì)話,迭代地對(duì)生成器模型和判別器模型進(jìn)行訓(xùn)練,直至兩個(gè)模型滿足預(yù)設(shè)平衡條件;其中,每輪次樣本對(duì)話對(duì)應(yīng)于一次訓(xùn)練回合,在每次訓(xùn)練回合中:利用生成器模型基于當(dāng)前和先前輪次樣本對(duì)話生成偽樣本對(duì)話,偽樣本對(duì)話包括當(dāng)前輪次樣本對(duì)話中的樣本問句以及對(duì)應(yīng)的預(yù)測(cè)答句;利用判別器模型基于當(dāng)前、先前輪次樣本對(duì)話和偽樣本對(duì)話生成判別結(jié)果;以及基于判別結(jié)果調(diào)整生成器模型的參數(shù)以及基于生成器模型生成的偽樣本對(duì)話調(diào)整判別器模型的參數(shù)。
技術(shù)領(lǐng)域
本公開涉及人工智能技術(shù)領(lǐng)域,具體而言,本公開涉及一種任務(wù)型對(duì)話系統(tǒng)中的獎(jiǎng)勵(lì)模型的處理方法、電子設(shè)備以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
背景技術(shù)
隨著信息技術(shù)的發(fā)展,互聯(lián)網(wǎng)技術(shù)隨之發(fā)展,用戶經(jīng)常需要通過(guò)互聯(lián)網(wǎng)查詢各種信息,以獲得相應(yīng)的答案,因此,任務(wù)導(dǎo)向型對(duì)話系統(tǒng)(也稱為任務(wù)型對(duì)話系統(tǒng))變得日益流行,其是一種可以完成人類要求的具體任務(wù)的對(duì)話系統(tǒng),在實(shí)際當(dāng)中有著非常廣泛的應(yīng)用,能夠完成人類的基本所需,例如訂機(jī)票、酒店等等,這大大減少了人力資源的使用。
在任務(wù)導(dǎo)向型對(duì)話中,主要是通過(guò)強(qiáng)化學(xué)習(xí)模型來(lái)針對(duì)用戶輸入預(yù)測(cè)輸出,而對(duì)于強(qiáng)化學(xué)習(xí)模型需要根據(jù)獎(jiǎng)勵(lì)模型進(jìn)行訓(xùn)練。當(dāng)前基于強(qiáng)化學(xué)習(xí)的對(duì)話系統(tǒng)需要人工精心設(shè)計(jì)的獎(jiǎng)勵(lì)模型,強(qiáng)化學(xué)習(xí)所需要的訓(xùn)練時(shí)間長(zhǎng),訓(xùn)練步數(shù)多,并且還存在獎(jiǎng)勵(lì)稀疏的問題。此外,隨著對(duì)系統(tǒng)處理跨多個(gè)領(lǐng)域的復(fù)雜目標(biāo)的需求不斷增長(zhǎng),處理現(xiàn)實(shí)任務(wù)的復(fù)雜性對(duì)于這種人工設(shè)計(jì)的獎(jiǎng)勵(lì)模型而言是無(wú)法承受的,從而影響強(qiáng)化學(xué)習(xí)的學(xué)習(xí)效果以及模型預(yù)測(cè)的準(zhǔn)確率,進(jìn)而使得基于強(qiáng)化學(xué)習(xí)的對(duì)話系統(tǒng)的用戶體驗(yàn)度不佳。
因此,需要一種提升基于強(qiáng)化學(xué)習(xí)的學(xué)習(xí)效果以及模型預(yù)測(cè)的準(zhǔn)確率的方法。
發(fā)明內(nèi)容
本公開為了解決現(xiàn)有的用于任務(wù)型對(duì)話系統(tǒng)的強(qiáng)化學(xué)習(xí)模型中的上述問題,提出了一種能夠提升基于強(qiáng)化學(xué)習(xí)的學(xué)習(xí)效果以及模型預(yù)測(cè)的準(zhǔn)確率的方法,更具體地,提供了一種任務(wù)型對(duì)話系統(tǒng)中的獎(jiǎng)勵(lì)模型的處理方法、電子設(shè)備以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
根據(jù)本公開的一方面,提供了一種任務(wù)型對(duì)話系統(tǒng)中的獎(jiǎng)勵(lì)模型的處理方法,包括:獲取多輪次樣本對(duì)話,每輪次樣本對(duì)話包括樣本問句以及對(duì)應(yīng)的樣本答句;以及利用判別器模型構(gòu)造所述獎(jiǎng)勵(lì)模型,基于所述多輪次樣本對(duì)話中的每輪次樣本對(duì)話,迭代地對(duì)生成器模型和判別器模型進(jìn)行訓(xùn)練,直至所述生成器模型和所述判別器模型滿足預(yù)設(shè)平衡條件;其中,每輪次樣本對(duì)話對(duì)應(yīng)于一次訓(xùn)練回合,在每次訓(xùn)練回合中,利用所述生成器模型基于當(dāng)前輪次樣本對(duì)話和當(dāng)前輪次之前的先前輪次樣本對(duì)話生成偽樣本對(duì)話,所述偽樣本對(duì)話包括所述當(dāng)前輪次樣本對(duì)話中的樣本問句以及對(duì)應(yīng)的預(yù)測(cè)答句;利用所述判別器模型基于所述當(dāng)前輪次樣本對(duì)話、先前輪次樣本對(duì)話和所述偽樣本對(duì)話生成對(duì)所述偽樣本對(duì)話的判別結(jié)果;以及基于所述判別結(jié)果調(diào)整所述生成器模型的參數(shù)以及基于生成器模型生成的偽樣本對(duì)話調(diào)整所述判別器模型的參數(shù)。
根據(jù)本公開的實(shí)施例,其中,所述樣本對(duì)話被編碼為具有狀態(tài)和動(dòng)作的特征表示,其中狀態(tài)與指示所述樣本問句填充到各個(gè)預(yù)設(shè)語(yǔ)義槽的槽值的概率的置信度相關(guān)并且所述動(dòng)作與所述樣本答句所涉及的行為相關(guān)。
根據(jù)本公開的實(shí)施例,其中,利用生成器模型基于當(dāng)前輪次樣本對(duì)話和用于先前訓(xùn)練回合的樣本對(duì)話生成偽樣本對(duì)話,包括:對(duì)于所述先前輪次樣本對(duì)話中的第一輪次對(duì)話,對(duì)所述第一輪次對(duì)話的特征表示進(jìn)行特征提取,以得到所述第一輪次對(duì)話的特征向量;對(duì)于所述先前輪次樣本對(duì)話中的其他每一輪次對(duì)話,對(duì)所述輪次對(duì)話的特征表示和前一輪次對(duì)話的特征向量進(jìn)行特征提取,以得到綜合特征向量,作為所述輪次對(duì)話的特征向量;以及基于所述當(dāng)前輪次樣本對(duì)話的前一個(gè)輪次對(duì)話的特征向量、所述當(dāng)前輪次樣本對(duì)話的特征表示中的樣本問句對(duì)應(yīng)的狀態(tài),生成與所述當(dāng)前輪次樣本對(duì)話的樣本問句的狀態(tài)對(duì)應(yīng)的預(yù)測(cè)動(dòng)作,基于所述預(yù)測(cè)動(dòng)作生成第一預(yù)測(cè)答句,并且將所述樣本問句以及所述預(yù)測(cè)答句作為偽樣本對(duì)話。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011407855.8/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 用于在獎(jiǎng)勵(lì)計(jì)劃中授予隨機(jī)獎(jiǎng)勵(lì)的技術(shù)
- 交易獎(jiǎng)勵(lì)系統(tǒng)
- 游戲機(jī)
- 基于移動(dòng)終端的聯(lián)網(wǎng)游戲的獎(jiǎng)勵(lì)實(shí)現(xiàn)方法、服務(wù)器及系統(tǒng)
- 獎(jiǎng)勵(lì)發(fā)放的處理方法和裝置
- 基于互聯(lián)網(wǎng)的景區(qū)獎(jiǎng)勵(lì)系統(tǒng)
- 一種游戲場(chǎng)景內(nèi)的系統(tǒng)獎(jiǎng)勵(lì)方法
- 接單獎(jiǎng)勵(lì)處理方法、裝置、獎(jiǎng)勵(lì)平臺(tái)及存儲(chǔ)介質(zhì)
- 一種基于手機(jī)銀行的數(shù)據(jù)處理方法及系統(tǒng)
- 基于好奇心-貪婪獎(jiǎng)勵(lì)函數(shù)的機(jī)器人路徑規(guī)劃的方法
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





