[發明專利]基于分層強化學習網絡的對話方法、裝置及存儲介質有效
| 申請號: | 202110267687.5 | 申請日: | 2021-03-11 |
| 公開(公告)號: | CN112860869B | 公開(公告)日: | 2023-02-03 |
| 發明(設計)人: | 王思瀚 | 申請(專利權)人: | 中國平安人壽保險股份有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06N20/00 |
| 代理公司: | 深圳市沃德知識產權代理事務所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518000 廣東省深圳市福田區益田路5033號*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 分層 強化 學習 網絡 對話 方法 裝置 存儲 介質 | ||
本發明涉及人工智能技術領域,揭露一種基于分層強化學習網絡的對話方法,包括:構建分層強化學習網絡結構,包括采用價值導向算法進行訓練的管理層、采用策略導向算法進行訓練的執行層以及管理層、執行層之間的反饋機制;對分層強化學習網絡結構重復多次問答行為進行訓練得到問答模型;當接收到客戶端發送的提問請求時,從問答模型獲取對應的回復信息并返回發送提問請求的客戶端。本發明的基于分層強化學習網絡的對話方法降低了問答行為強化學習的復雜度,提升了管理層的學習效率、執行層的學習性能以及分層強化學習網絡結構的決策準確性。
技術領域
本發明涉及人工智能技術領域,尤其涉及一種基于分層強化學習網絡的對話方法、電子裝置及計算機可讀存儲介質。
背景技術
在智能問答系統中,對話策略決定了系統如何根據用戶的提問,從預先定義完備的系統動作集合中選取最為合適的回復。為了提高系統的問答能力覆蓋范圍,例如多領域的任務型機器人,系統動作集合往往被設計過于龐大和復雜,這直接導致對話策略學習的兩大難點:學習任務難度大和學習效率低。其背后的根本原因都是因為問答模型無法在如此龐大的動作空間中進行高效的探索和學習。
目前針對大規模系統動作集合的對話策略學習,并沒有成熟的算法訓練方案。實驗結果表明,一些在小規模系統動作集合設定下可行的算法,并不能直接擴展到大規模系統動作集合。即使是在小規模系統動作集合設定下,基于現有算法所訓練的問答模型在任務成功率這一指標上,平均任務成功率約為80%,性能較差。
發明內容
鑒于以上內容,有必要提供一種基于分層強化學習網絡的對話方法,用于降低問答模型的學習任務難度和提高問答模型的學習效率,以提升問答模型的性能。
本發明提供的基于分層強化學習網絡的對話方法,包括:
構建分層強化學習網絡結構,所述分層強化學習網絡結構包括采用價值導向算法進行訓練的管理層、采用策略導向算法進行訓練的執行層以及所述管理層、執行層之間的反饋機制;
獲取提問信息,所述管理層根據所述提問信息獲取問答行為的第一對話狀態,并根據所述對話狀態采用對應的對話行為策略決定對話行為,所述執行層根據對話行為選擇第二對話狀態,并根據所述第二對話狀態采用對應的槽位策略決定槽位,將所述槽位作為所述提問信息對應的回復信息輸出,將所述分層強化學習網絡結構獲取提問信息并得到輸出的回復信息作為一次問答行為,通過多次問答行為對所述分層強化學習網絡結構進行訓練得到問答模型;
當接收到客戶端發送的提問請求時,從所述問答模型獲取對應的回復信息,并將所述回復信息返回發送所述提問請求的客戶端。
可選地,所述價值導向算法為深度Q網絡算法,所述深度Q網絡算法的損失函數為:
LM(θ)=Ee~D[(y-Q(s,a;θ))2]
其中,y是擬合目標參數,r為當前問答行為的獎勵信號,γ為防止模型訓練時不收斂的常數,e為訓練樣本,D為訓練數據集,E()為期望值函數,用于從訓練集D中批量采樣訓練樣本e來計算期望值,θ為均方誤差損失參數,θ-為θ更新前的數值,Q()為狀態動作值函數,用于表示由參數θ或θ-表征的模型,s是當前問答行為的第一對話狀態,a是當前問答行為的對話行為,s’是下一次問答行為的第一對話狀態,a’是下一次問答行為的對話行為。
可選地,所述深度Q網絡的更新算法為隨機梯度下降法。
可選地,所述策略導向算法為近端策略優化算法,所述近端策略優化算法的損失函數為:
LW=Lclip+c1LV+c2Lent
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國平安人壽保險股份有限公司,未經中國平安人壽保險股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110267687.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種多功能褲腰帶制造設備
- 下一篇:對準方法、裝置、水下航行器以及存儲介質





