[發明專利]基于強化學習策略的人機交互訓練方法及裝置在審
| 申請號: | 202111521730.2 | 申請日: | 2021-12-13 |
| 公開(公告)號: | CN114417086A | 公開(公告)日: | 2022-04-29 |
| 發明(設計)人: | 王文彬;馮偉 | 申請(專利權)人: | 貝殼找房網(北京)信息技術有限公司 |
| 主分類號: | G06F16/9032 | 分類號: | G06F16/9032;G06F16/906;G06N20/00 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 謝志超 |
| 地址: | 101500 北京市密云區經濟開發區興盛南路*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 強化 學習 策略 人機交互 訓練 方法 裝置 | ||
本申請提供一種基于強化學習策略的人機交互訓練方法及裝置,該方法包括:獲取以目標樣本集為訓練樣本訓練得到的第一模型;所述目標樣本集包括多個交互過程的交互內容;構建第二模型,使用所述第二模型與所述第一模型模擬即時通信交互過程;在所述第二模型與所述第一模型的交互過程中,所述第二模型輸出回復內容,基于所述第二模型輸出的回復內容對所述交互過程的評價指標的影響程度,調整所述第二模型的參數;將參數優化后的第二模型確定為目標模型;其中,所述評價指標用于指示所述交互過程能夠實現預設目標的概率。
技術領域
本申請涉及人機交互領域,尤其涉及一種基于強化學習策略的人機交互訓練方法及裝置。
背景技術
為了提高對用戶的服務質量以及降低人工服務的成本,平臺在向用戶提供人工服務之前,均設置了聊天機器人。聊天機器人可以為用戶提供必要的基礎服務,并解決用戶的一部分問題,當聊天機器人無法解決用戶提出的問題,或者已完成當前階段的溝通,需要轉向下一階段溝通時,才會轉向人工服務。
在相關技術中,大部分聊天機器人均使用任務型的管道模型,管道模型可以解決用戶提出的問題,并針對該問題向用戶進行詢問,以獲取解決該問題的必要信息。但對于房產領域,要求聊天機器人能夠引導用戶轉委托,管道模型并不是針對實現特定目的而訓練的模型,也就不能提高用戶轉委托的概率。因此,對于房產領域以達到特定目的而使用的聊天機器人,任務型的管道模型并不能很好的適用。
發明內容
本申請的目的是提供一種基于強化學習策略的人機交互訓練方法及裝置,用于生成一種為了達到特定目標而使用的聊天機器人。
本申請提供一種基于強化學習策略的人機交互訓練方法,包括:
獲取以目標樣本集為訓練樣本訓練得到的第一模型;所述目標樣本集包括多個交互過程的交互內容;構建第二模型,使用所述第二模型與所述第一模型模擬即時通信交互過程;在所述第二模型與所述第一模型的交互過程中,所述第二模型輸出回復內容,基于所述第二模型輸出的回復內容對所述交互過程的評價指標的影響程度,調整所述第二模型的參數;將參數優化后的第二模型確定為目標模型;其中,所述評價指標用于指示所述交互過程能夠實現預設目標的概率。
可選地,所述獲取以目標樣本集為訓練樣本訓練得到的第一模型,包括:使用所述目標樣本集作為訓練樣本訓練第一GPT模型,并得到所述第一模型;其中,所述第一GPT模型的訓練樣本中的每個樣本均包括類別信息;所述類別信息用于對樣本的交互內容進行分類。
可選地,所述構建第二模型,使用所述第二模型與所述第一模型模擬即時通信交互過程,包括:構建所述第二模型,并通過初始交互內容引導所述第二模型與所述第一模型基于所述初始交互內容開始進行交互;將所述第二模型輸出的回復內容作為所述第一模型的輸入,并將所述第一模型輸出的內容作為所述第二模型的輸入,實現所述第二模型與所述第一模型的模擬即時通信交互。
可選地,所述第二模型為排序模型;所述在所述第二模型與所述第一模型的交互過程中,所述第二模型輸出回復內容,基于所述第二模型輸出的回復內容對所述交互過程的評價指標的影響程度,調整所述第二模型的參數,包括:在所述排序模型與所述第一模型的模擬即時通信交互過程中,所述排序模型基于所述第一模型輸出的第一內容,從候選回復集中篩選出與所述第一內容的上下文關聯度最高的第一回復內容;從檢索庫中篩選出與當前交互過程對應的第一交互內容的相似度滿足預設相似度的第二交互內容;所述第一交互內容包括所述第一回復內容;對第三交互內容中的每個交互內容進行特征提取,并將得到的每個交互內容的特征向量進行拼接,得到所述第三交互內容的特征值;所述第三交互內容包括:所述第一交互內容和所述第二交互內容;將所述特征值確定為第一回報函數的第一回報函數值,并基于所述第一回報函數值指示的所述排序模型輸出的內容對所述評價指標的影響程度,調整所述排序模型的參數;其中,所述第一回報函數為基于所述排序模型構建的強化學習策略使用的回報函數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于貝殼找房網(北京)信息技術有限公司,未經貝殼找房網(北京)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111521730.2/2.html,轉載請聲明來源鉆瓜專利網。





