[發明專利]用于生成對話策略學習用高質量模擬經驗的方法有效
| 申請號: | 202110532471.7 | 申請日: | 2021-05-17 |
| 公開(公告)號: | CN112989017B | 公開(公告)日: | 2021-08-10 |
| 發明(設計)人: | 平洋;曹江;方文其;吳冠霖;欒紹童;閆頊 | 申請(專利權)人: | 南湖實驗室 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06N3/00;G06N20/00 |
| 代理公司: | 浙江永鼎律師事務所 33233 | 代理人: | 陸永強;張曉英 |
| 地址: | 314001 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 生成 對話 策略 習用 質量 模擬 經驗 方法 | ||
1.一種用于生成對話策略學習用高質量模擬經驗的方法,其特征在于,包括以下步驟:
S1.由基于GP的世界模型預測產生模擬經驗;
S2.將模擬經驗存儲至緩沖器以用于對話策略模型訓練;
步驟S1中,所述的世界模型包括三個GP模型,三個GP模型分別用于生成響應動作au、獎勵r和變量t,且模擬經驗預測階段通過三個GP模型生成元模擬經驗ei=(aui, ri, ti),獲取元模擬經驗中響應動作aui、獎勵ri 和變量 ti的50%置信區間,并依此得到上限模擬經驗el =(aul, rl, tl)和下限模擬經驗eb =(aub, rb, tb),所述的模擬經驗包括所述的元模擬經驗ei=(aui, ri, ti)、上限模擬經驗el =(aul, rl, tl)和下限模擬經驗eb =(aub, rb, tb);
當預測的響應動作au不是整數時,將au近似到最接近的整數;
當預測的響應動作au超出了定義的動作域時,直接選取動作域的上限或下限;
本方法還包括:
使用人類會話數據初始化對話策略模型和世界模型,并依此啟動對話策略學習。
2.根據權利要求1所述的用于生成對話策略學習用高質量模擬經驗的方法,其特征在于,在步驟S2之前,先由質量檢測器對所述模擬經驗進行質量檢測,且在步驟S2中將質量檢測合格的模擬經驗存儲至緩沖器。
3.根據權利要求1或2所述的用于生成對話策略學習用高質量模擬經驗的方法,其特征在于,基于GP的世界模型包括多個GP模型,且所述的世界模型由W(s, a;θw)表示,s為當前對話狀態,a為最后一個響應動作,θw表示各個GP模型的參數。
4.根據權利要求3所述的用于生成對話策略學習用高質量模擬經驗的方法,其特征在于,所述GP模型的模型如下:
其中,
表示均值;為核函數;
為高斯噪聲,,為方差,為單位矩陣。
5.根據權利要求4所述的用于生成對話策略學習用高質量模擬經驗的方法,其特征在于,所述的核函數采用如下形式:
其中,和分別是幅度和長度標度參數;
是伽馬函數;
是第二類型的修正貝塞爾函數;
是協方差的正參數;
表示觀測目標值之間的距離。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南湖實驗室,未經南湖實驗室許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110532471.7/1.html,轉載請聲明來源鉆瓜專利網。





