[發明專利]基于強化學習的對話控制方法及裝置有效

申請號：	201910400101.0	申請日：	2019-05-14
公開（公告）號：	CN110211572B	公開（公告）日：	2021-12-10
發明（設計）人：	張原;胡一川;張海雷;汪冠春	申請（專利權）人：	北京來也網絡科技有限公司
主分類號：	G10L15/06	分類號：	G10L15/06;G10L15/26;G10L17/04;G10L17/22;G06F16/332
代理公司：	北京知果之信知識產權代理有限公司 11541	代理人：	唐海力;李志剛
地址：	100190 北京***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于強化學習對話控制方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本申請公開了一種基于強化學習的對話控制方法及裝置。該方法包括根據對話預設目標，確定強化學習的訓練環境；通過將當前所述狀態融合預設規則后得到候選動作集合，并輸入至強化學習網絡模型后從所述候選動作集合中選擇需要執行的所述動作；持續訓練所述強化學習網絡模型至收斂；以及接收用戶輸入對話內容，通過所述強化學習網絡模型返回所述對話內容的回復結果。本申請解決了與用戶的多回合會話中無法實現特定目標的技術問題。通過本申請在每輪對話中選擇特定的策略進行對話回復，達到通過對話控制完成對話目標的任務。

技術領域

本申請涉及強化學習、自然語言處理領域，具體而言，涉及一種基于強化學習的對話控制方法及裝置。

背景技術

通過與用戶多回合對話，能夠實現某些特定目標。

發明人發現，在于用戶進行多回合對話的過程中，通常是隨機選擇符合規則的回復，但是這些回復無法完成某些特定目標或者無法持續多回合。

針對相關技術中與用戶的多回合會話中無法實現特定目標的問題，目前尚未提出有效的解決方案。

發明內容

本申請的主要目的在于提供一種基于強化學習的對話控制方法及裝置，以解決與用戶的多回合會話中無法實現特定目標的問題。

為了實現上述目的，根據本申請的一個方面，提供了一種基于強化學習的對話控制方法。

根據本申請的基于強化學習的對話控制方法包括：根據對話預設目標，確定強化學習的訓練環境，其中，所述訓練環境中至少包括：輸入的狀態和輸出的動作；通過將當前所述狀態融合預設規則后得到候選動作集合，并輸入至強化學習網絡模型后從所述候選動作集合中選擇需要執行的所述動作；持續訓練所述強化學習網絡模型至收斂；以及接收用戶輸入對話內容，通過所述強化學習網絡模型返回所述對話內容的回復結果。

進一步地，接收用戶輸入對話內容，通過所述強化學習網絡模型返回所述對話內容的回復結果包括：采用訓練至收斂后的所述強化學習網絡模型中融合預設規則的決策模型返回所述對話內容的回復結果。

進一步地，根據對話預設目標，確定強化學習的訓練環境還包括：確定在輸入的狀態到輸出的動作的過程中，生成的累積回報，并使回報最大化。

進一步地，持續訓練所述強化學習網絡模型至收斂包括：根據所述強化學習網絡模型中現有的狀態融合預設對話規則后得到候選動作集合；使用所述強化學習網絡模型中從所述候選動作集合中篩選出唯一需要執行的動作，并根據回報函數訓練所述強化學習網絡模型至收斂。

進一步地，持續訓練所述強化學習網絡模型至收斂包括：使用DQN模型并且融合預設規則后訓練用于執行最優策略的智能體；接收用戶輸入對話內容，通過所述強化學習網絡模型返回所述對話內容的回復結果包括：接收用戶輸入對話內容，使用所述智能體在與用戶的每輪對話中選擇預定的策略進行對話，以使通過對話控制完成對話預設目標的任務。

為了實現上述目的，根據本申請的另一方面，提供了一種基于強化學習的對話控制裝置。

根據本申請的基于強化學習的對話控制裝置包括：訓練環境模塊，用于根據對話預設目標，確定強化學習的訓練環境，其中，所述訓練環境中至少包括：輸入的狀態和輸出的動作；規則融合模塊，用于通過將當前所述狀態融合預設規則后得到候選動作集合，并輸入至強化學習網絡模型后從所述候選動作集合中選擇需要執行的所述動作；訓練模塊，用于持續訓練所述強化學習網絡模型至收斂；以及對話處理模塊，用于接收用戶輸入對話內容，通過所述強化學習網絡模型返回所述對話內容的回復結果。

進一步地，所述對話處理模塊，還用于采用訓練至收斂后的所述強化學習網絡模型中融合預設規則的決策模型返回所述對話內容的回復結果。

進一步地，所述訓練環境模塊，還用于確定在輸入的狀態到輸出的動作的過程中，生成的累積回報，并使回報最大化。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于北京來也網絡科技有限公司，未經北京來也網絡科技有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201910400101.0/2.html，轉載請聲明來源鉆瓜專利網。