[發明專利]基于分層強化學習網絡的對話方法、裝置及存儲介質有效
| 申請號: | 202110267687.5 | 申請日: | 2021-03-11 |
| 公開(公告)號: | CN112860869B | 公開(公告)日: | 2023-02-03 |
| 發明(設計)人: | 王思瀚 | 申請(專利權)人: | 中國平安人壽保險股份有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06N20/00 |
| 代理公司: | 深圳市沃德知識產權代理事務所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518000 廣東省深圳市福田區益田路5033號*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 分層 強化 學習 網絡 對話 方法 裝置 存儲 介質 | ||
1.一種基于分層強化學習網絡的對話方法,其特征在于,包括:
構建分層強化學習網絡結構,所述分層強化學習網絡結構包括采用深度Q網絡算法進行訓練的管理層、采用近端策略優化算法進行訓練的執行層以及所述管理層、執行層之間的反饋機制;
獲取提問信息,所述管理層根據所述提問信息獲取問答行為的第一對話狀態,并根據所述第一對話狀態采用對應的對話行為策略決定對話行為,所述執行層根據對話行為選擇第二對話狀態,并根據所述第二對話狀態采用對應的槽位策略決定槽位,將所述槽位作為所述提問信息對應的回復信息輸出,將所述分層強化學習網絡結構獲取提問信息并得到輸出的回復信息作為一次問答行為,通過多次問答行為對所述分層強化學習網絡結構進行訓練得到問答模型;
其中,所述問答行為包括第一對話狀態“詢問”和第二對話狀態“回復”,所述對話行為策略為根據提問信息從預設的對話行為列表中選擇對應的對話行為,所述槽位策略為根據對話行為從預設的槽位列表中選擇對應的槽位;
當接收到客戶端發送的提問請求時,從所述問答模型獲取對應的回復信息,并將所述回復信息返回發送所述提問請求的客戶端。
2.如權利要求1所述的基于分層強化學習網絡的對話方法,其特征在于,所述深度Q網絡算法的損失函數為:
LM(θ)=Ee~D[(y-Q(s,a;θ))2]
其中,y是擬合目標參數,r為當前問答行為的獎勵信號,γ為防止模型訓練時不收斂的常數,e為訓練樣本,D為訓練數據集,E()為期望值函數,用于從訓練集D中批量采樣訓練樣本e來計算期望值,θ為均方誤差損失參數,θ-為θ更新前的數值,Q()為狀態動作值函數,用于表示由參數θ或θ-表征的模型,s是當前問答行為的第一對話狀態,a是當前問答行為的對話行為,s’是下一次問答行為的第一對話狀態,a’是下一次問答行為的對話行為。
3.如權利要求2所述的基于分層強化學習網絡的對話方法,其特征在于,所述深度Q網絡的更新算法為隨機梯度下降法。
4.如權利要求1所述的基于分層強化學習網絡的對話方法,其特征在于,所述近端策略優化算法的損失函數為:
LW=Lclip+c1LV+c2Lent
其中,Lclip是執行層的槽位策略對應的反饋信號的值,LV是執行層中狀態評估模塊選擇第二對話狀態的操作對應的反饋信號的值,Lent是對執行層的正則化規約算法值,c1和c2是用于調整所述近端策略優化算法的權重偏向的預設參數。
5.如權利要求1所述的基于分層強化學習網絡的對話方法,其特征在于,所述反饋機制通過置入的預設表格設定,所述預設表格包括多種問答行為的策略以及與所述策略對應的管理層的反饋信號和執行層的反饋信號。
6.如權利要求1所述的基于分層強化學習網絡的對話方法,其特征在于,所述對話行為是所述第一對話狀態“詢問”對應的具體內容,所述槽位是所述第二對話狀態“回復”對應的具體內容。
7.如權利要求1所述的基于分層強化學習網絡的對話方法,其特征在于,所述當接收到客戶端發送的提問請求時,從所述問答模型獲取對應的回復信息包括:
當接收到客戶端發送的提問請求時,所述問答模型的管理層對所述提問請求進行處理得到第一對話狀態和對話行為;
所述問答模型的執行層根據所述第一對話狀態和對話行為選擇第二對話狀態,并選擇所述第二對話狀態對應的槽位作為回復信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國平安人壽保險股份有限公司,未經中國平安人壽保險股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110267687.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種多功能褲腰帶制造設備
- 下一篇:對準方法、裝置、水下航行器以及存儲介質





