[發(fā)明專利]強化學習模型的更新方法和裝置有效
| 申請?zhí)枺?/td> | 201911206271.1 | 申請日: | 2019-11-29 |
| 公開(公告)號: | CN110990548B | 公開(公告)日: | 2023-04-25 |
| 發(fā)明(設計)人: | 張望舒;溫祖杰 | 申請(專利權)人: | 支付寶(杭州)信息技術有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06Q30/01;G06Q30/0207;G06N20/00 |
| 代理公司: | 北京億騰知識產權代理事務所(普通合伙) 11309 | 代理人: | 孫欣欣;周良玉 |
| 地址: | 310000 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 強化 學習 模型 更新 方法 裝置 | ||
本說明書實施例提供一種強化學習模型的更新方法和裝置。強化學習模型包括第一動作價值網絡和第二動作價值網絡,分別承擔第一比例和第二比例的線上流量,第一比例大于第二比例,方法包括:接收線上的當前問句;以當前問句作為當前狀態(tài),利用第一動作價值網絡或利用第二動作價值網絡得到當前狀態(tài)對應的動作,以及相應的得到當前狀態(tài)、動作、獎勵和更新狀態(tài)作為一條記錄,將該條記錄以一定概率存儲;抽取記錄,根據(jù)該記錄對第二動作價值網絡進行訓練;當確定訓練后的第二動作價值網絡的效果優(yōu)于第一動作價值網絡時,將第一動作價值網絡更新為訓練后的第二動作價值網絡。能夠保證強化學習模型更新后的穩(wěn)定性和質量。
技術領域
本說明書一個或多個實施例涉及計算機領域,尤其涉及強化學習模型的更新方法和裝置。
背景技術
在智能客服中,用戶在與機器人交互過程中用戶語言口語化、簡略化,或者,用戶的問題描述不清晰、不準確或者描述冗雜,因此通常需要用戶與機器人之間的多輪交互,才能得到用戶想要的知識點答案。由于會話中,涉及到大量用戶交互反饋,所以可以使用強化學習來建模如何根據(jù)用戶問句確定知識點相關回答供用戶反饋。
由于線上用戶問句千變萬化,業(yè)務變更迅速頻繁,用戶的問句興趣點也會隨著時間漂移,所以需要對強化學習模型不斷更新迭代,以達到最佳效果。現(xiàn)有技術中,強化學習模型的更新方法無法保證更新后的穩(wěn)定性和質量。
因此,希望能有改進的方案,能夠保證強化學習模型更新后的穩(wěn)定性和質量。
發(fā)明內容
本說明書一個或多個實施例描述了一種強化學習模型的更新方法和裝置,能夠保證強化學習模型更新后的穩(wěn)定性和質量。
第一方面,提供了一種強化學習模型的更新方法,所述強化學習模型用于機器人客服根據(jù)用戶問句確定知識點相關回答供用戶反饋,所述強化學習模型包括第一動作價值網絡和第二動作價值網絡,所述第一動作價值網絡承擔第一比例的線上流量,所述第二動作價值網絡承擔第二比例的線上流量,所述第一比例大于所述第二比例,方法包括:
接收線上的當前問句;
當所述當前問句被分配給所述第一動作價值網絡時,以所述當前問句作為第一狀態(tài),根據(jù)第一概率和第一動作價值函數(shù)選擇第一回答作為第一動作;
在所述第一狀態(tài)執(zhí)行所述第一動作,獲取所述第一狀態(tài)和所述第一動作對應的第一獎勵,以及狀態(tài)更新后的第一更新狀態(tài);
將所述第一狀態(tài)、所述第一動作、所述第一獎勵和所述第一更新狀態(tài)作為一條記錄,以第二概率將該條記錄存儲在經驗回放列表中;
當所述當前問句被分配給所述第二動作價值網絡時,以所述當前問句作為第二狀態(tài),根據(jù)第三概率和第二動作價值函數(shù)選擇第二回答作為第二動作;
在所述第二狀態(tài)執(zhí)行所述第二動作,獲取所述第二狀態(tài)和所述第二動作對應的第二獎勵,以及狀態(tài)更新后的第二更新狀態(tài);
將所述第二狀態(tài)、所述第二動作、所述第二獎勵和所述第二更新狀態(tài)作為一條記錄,以第四概率將該條記錄存儲在所述經驗回放列表中;
從所述經驗回放列表中抽取記錄,根據(jù)該記錄利用所述第一動作價值函數(shù)計算累積獎勵,根據(jù)所述累積獎勵對所述第二動作價值網絡進行訓練,得到訓練后的所述第二動作價值網絡;
當確定訓練后的所述第二動作價值網絡的效果優(yōu)于所述第一動作價值網絡時,將所述第一動作價值網絡更新為訓練后的所述第二動作價值網絡。
在一種可能的實施方式中,所述以所述當前問句作為第一狀態(tài),根據(jù)第一概率和第一動作價值函數(shù)選擇第一回答作為第一動作,包括:
以所述當前問句作為第一狀態(tài),以所述第一概率根據(jù)所述第一動作價值函數(shù)選擇價值最大的第一回答作為第一動作,以1減所述第一概率的概率隨機選擇第一回答作為第一動作。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于支付寶(杭州)信息技術有限公司,未經支付寶(杭州)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911206271.1/2.html,轉載請聲明來源鉆瓜專利網。





