[發明專利]基于數據處理的模型訓練方法、裝置、終端及存儲介質有效
| 申請號: | 201811364712.6 | 申請日: | 2018-11-15 |
| 公開(公告)號: | CN109460463B | 公開(公告)日: | 2023-06-20 |
| 發明(設計)人: | 畢野;黃博;吳振宇;王建明;肖京 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F18/214 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 郝傳鑫;熊永強 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 數據處理 模型 訓練 方法 裝置 終端 存儲 介質 | ||
本發明實施例公開了一種基于數據處理的模型訓練方法、裝置、終端及存儲介質,應用于數據處理技術領域。其中,方法包括:基于至少一個虛擬對話系統產生的對話數據構建第一訓練數據集,并根據第一訓練數據集進行根據輸入對話確定生成回復的模型訓練得到初始模型以及初始模型的獎勵函數;根據強化學習算法和第一訓練數據集對初始模型進行第一強化訓練,得到中間模型;基于至少一個真實對話系統產生的對話數據構建第二訓練數據集,并根據強化學習算法和第二訓練數據集對中間模型進行第二強化訓練,得到目標模型。本發明實施例可以使得訓練得到的目標模型考慮回復的廣度和深度,減少萬能回復,從而可以提升回復的豐富度和前瞻性。
技術領域
本發明涉及數據處理技術領域,尤其涉及基于數據處理的模型訓練方法、裝置、終端及存儲介質。
背景技術
人機交互(Human–Computer?Interaction,HCI)是指人與計算機之間使用某種對話語言,以一定的交互方式確定人與計算機之間的信息交換過程。隨著人機交互技術的發展,越來越多的基于人機交互技術的智能產品應運而生,例如聊天機器人等。這些智能產品可以和用戶進行聊天交流,并根據用戶的問題生成相應的回答信息。但是,目前智能產品在和用戶進行聊天的過程中,通常采用MLE(Maximum?Likelihood?Estimate,極大似然估計方法)模型的對話系統與用戶進行多輪對話,實踐表明,該MLE系統所產生的回復通常不考慮前瞻性,針對用戶的問題,容易產生萬能回復,從而使得整個聊天過程陷入死循環,用戶的體驗感較差。
發明內容
本發明實施例提供了一種基于數據處理的模型訓練方法、裝置、終端及計算機可讀存儲介質,可以使得訓練得到的目標模型考慮回復的廣度和深度,減少萬能回復,從而可以提升回復的豐富度和前瞻性。
一方面,本發明實施例提供了一種基于數據處理的模型訓練方法,該基于數據處理的模型訓練方法包括:
基于至少一個虛擬對話系統產生的對話數據構建第一訓練數據集,并根據所述第一訓練數據集進行根據輸入對話確定生成回復的模型訓練得到初始模型以及所述初始模型的獎勵函數,其中,所述初始模型的獎勵函數和所述第一訓練數據集用于在第一強化訓練中確定所述初始模型的訓練方向;
根據強化學習算法和所述第一訓練數據集對所述初始模型進行第一強化訓練,得到中間模型,其中,所述第一強化訓練中的獎勵函數采用所述初始模型的獎勵函數;
基于至少一個真實對話系統產生的對話數據構建第二訓練數據集,并根據所述強化學習算法和所述第二訓練數據集對所述中間模型進行第二強化訓練,得到目標模型,其中,所述第二強化訓練中的獎勵函數定義為1。
另一方面,本發明實施例提供了一種基于數據處理的模型訓練裝置,該基于數據處理的模型訓練裝置包括:
訓練單元,用于基于至少一個虛擬對話系統產生的對話數據構建第一訓練數據集,并根據所述第一訓練數據集進行根據輸入對話確定生成回復的模型訓練得到初始模型以及所述初始模型的獎勵函數,其中,所述初始模型的獎勵函數和所述第一訓練數據集用于在第一強化訓練中確定所述初始模型的訓練方向;
強化單元,用于根據強化學習算法和所述第一訓練數據集對所述初始模型進行第一強化訓練,得到中間模型,其中,所述第一強化訓練中的獎勵函數采用所述初始模型的獎勵函數;
所述強化單元,用于基于至少一個真實對話系統產生的對話數據構建第二訓練數據集,并根據所述強化學習算法和所述第二訓練數據集對所述中間模型進行第二強化訓練,得到目標模型,其中,所述第二強化訓練中的獎勵函數定義為1。
再一方面,本發明實施例提供了一種終端,該終端包括輸入設備、輸出設備、存儲器以及處理器,所述處理器、所述輸入設備、所述輸出設備和所述存儲器相互連接,其中,所述存儲器用于存儲計算機程序,所述計算機程序包括程序指令,所述處理器被配置用于調用所述程序指令,執行如下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811364712.6/2.html,轉載請聲明來源鉆瓜專利網。





