[發明專利]用于生成對話策略學習用高質量模擬經驗的方法有效
| 申請號: | 202110532471.7 | 申請日: | 2021-05-17 |
| 公開(公告)號: | CN112989017B | 公開(公告)日: | 2021-08-10 |
| 發明(設計)人: | 平洋;曹江;方文其;吳冠霖;欒紹童;閆頊 | 申請(專利權)人: | 南湖實驗室 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06N3/00;G06N20/00 |
| 代理公司: | 浙江永鼎律師事務所 33233 | 代理人: | 陸永強;張曉英 |
| 地址: | 314001 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 生成 對話 策略 習用 質量 模擬 經驗 方法 | ||
本發明提供了一種用于生成對話策略學習用高質量模擬經驗的方法,屬于機器學習技術領域,包括以下步驟:S1.由基于GP的世界模型預測產生模擬經驗;S2.將模擬經驗存儲至緩沖器以用于對話策略模型訓練。本方案基于高斯過程的世界模型能夠避免傳統DNN模型生成的模擬經驗質量需要依賴訓練數據量的問題,能夠生成高質量的模擬經驗,以補充有限的實際用戶經驗,有效避免初始階段因為真實經驗較少而導致學習效果不佳,學習效率低等問題。
技術領域
本發明屬于機器學習技術領域,尤其是涉及一種用于生成對話策略學習用高質量模擬經驗的方法。
背景技術
任務完成型對話策略學習旨在構建一個以完成任務為目標的對話系統,該系統可以通過幾輪自然語言交互來幫助用戶完成特定的單個任務或多域任務。它已廣泛應用于聊天機器人和個人語音助手,例如蘋果的Siri和微軟的Cortana。
近年來,強化學習逐漸成為了對話策略學習的主流方法。基于強化學習,對話系統可以通過與用戶進行自然語言交互來逐步調整、優化策略,以提高性能。但是,原始強化學習方法在獲得可用的對話策略之前需要進行大量人機對話交互,這不僅增加了訓練成本,而且還惡化了早期訓練階段的用戶體驗。
為了解決上述問題并加速對話策略的學習過程,研究者們在Dyna-Q框架的基礎上,提出了Deep Dyna-Q(DDQ)框架。DDQ框架引入了世界模型,為了使其與真實用戶更相似,該模型使用真實用戶經驗進行訓練,用以在動態環境中生成模擬經驗。在對話策略學習過程中,使用從實際交互中收集的真實經驗和從與世界模型交互中收集的模擬經驗共同訓練對話智能體。借助引進世界模型,只需要使用少量的真實用戶交互,能夠顯著提升對話策略的學習效率,然而,DDQ在進一步優化基于有限對話交互的對話策略學習方面還面臨著一些難題,例如DDQ中的世界模型被構建為深度神經網絡(DNN),其性能在很大程度上取決于訓練所用的數據量。在真實經驗相對較少的初始訓練階段,DNN對數據的高度依賴問題可能會使世界模型生成低質量的模擬經驗,若要該模型生成高質量的模擬經驗,則需要大量的真實經驗。也就是說,由DNN等數據需求量大的模型實現的世界模型將削弱Dyna-Q框架帶來的優勢,并使得DDQ在現實中的效率很低。
發明內容
本發明的目的是針對上述問題,提供一種用于生成對話策略學習用高質量模擬經驗的方法。
為達到上述目的,本發明采用了下列技術方案:
一種用于生成對話策略學習用高質量模擬經驗的方法,包括以下步驟:
S1.由基于GP的世界模型預測產生模擬經驗;
S2.將模擬經驗存儲至緩沖器以用于對話策略模型訓練。
在上述的用于生成對話策略學習用高質量模擬經驗的方法中,在步驟S2之前,先由質量檢測器對所述模擬經驗進行質量檢測,且在步驟S2中將質量檢測合格的模擬經驗存儲至緩沖器。
在上述的用于生成對話策略學習用高質量模擬經驗的方法中,基于GP的世界模型包括多個GP模型,且所述的世界模型由W(s, a;θw)表示,s為當前對話狀態,a為最后一個響應動作,θw表示各個GP模型的參數。
在上述的用于生成對話策略學習用高質量模擬經驗的方法中,在步驟S1中,通過多個GP模型預測生成至少一組模擬經驗,且每組模擬經驗包括響應動作au、獎勵r和變量t。
在上述的用于生成對話策略學習用高質量模擬經驗的方法中,所述的世界模型包括三個GP模型,且三個GP模型分別用于生成響應動作au、獎勵r和變量t。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南湖實驗室,未經南湖實驗室許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110532471.7/2.html,轉載請聲明來源鉆瓜專利網。





