[發明專利]一種神經網絡模型訓練方法、裝置、設備和介質有效
| 申請號: | 201811645093.8 | 申請日: | 2018-12-29 |
| 公開(公告)號: | CN109740738B | 公開(公告)日: | 2022-12-16 |
| 發明(設計)人: | 申俊峰;周大軍;張力柯;荊彥青 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙) 44285 | 代理人: | 王仲凱 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 神經網絡 模型 訓練 方法 裝置 設備 介質 | ||
本申請實施例公開了一種神經網絡模型訓練方法和裝置,針對需要進行強化學習的學習對象,可以先通過人工獲取學習對象根據用戶操作產生的人工樣本集,以及針對所述學習對象的神經網絡模型在在該學習對象中自主學習得到的機器樣本集。在訓練該神經網絡模型時,可以根據上述人工樣本集和機器樣本集作為訓練依據,由于用于訓練的訓練樣本集中包括了人工產生的人工樣本,該人工樣本相對于機器學習初期得到的機器樣本來說質量更高,更具有推進該學習對象的完成進度的目的性,相對機器樣本來說多為和學習對象的有意義交互,從而可以縮短訓練前期的模型參數收斂時長,減少了訓練神經網絡模型的時間。
技術領域
本申請涉及神經網絡領域,特別是涉及一種神經網絡模型訓練方法、裝置、設備和計算機可讀存儲介質。
背景技術
強化學習又稱為試錯學習,是一種讓智能體(agent)在學習對象的環境(environment)中不斷交互,并根據環境的反饋激勵(reward)進行學習的一種機器學習算法,該學習算法不基于任何先驗知識,可以完全自主學習。根據學習對象的不同,可以有不同的智能體,例如學習對象為游戲時,智能體可以是游戲中的角色、參與方等。
傳統的強化學習例如Deep Q Network(DQN)在訓練自身的神經網絡模型時,完全根據機器通過自主學習得到的數據作為訓練數據。
這種場景下的訓練數據均機器自主試錯得到,尤其訓練前期機器自主試錯速度慢,無意義交互多,導致訓練前期的模型參數收斂時間長,成本高,延長了訓練神經網絡模型的時間。
發明內容
為了解決上述技術問題,本申請提供了一種神經網絡模型訓練方法和裝置,以縮短訓練前期的模型參數收斂時長,減少訓練神經網絡模型的時間。
本申請實施例公開了如下技術方案:
第一方面,本申請實施例提供一種神經網絡模型訓練方法,所述方法包括:
獲取學習對象根據用戶操作產生的人工樣本集;
獲取針對所述學習對象的神經網絡模型在在所述學習對象中自主學習得到機器樣本集;
根據所述人工樣本集和所述機器樣本集訓練所述神經網絡模型。
第二方面,本申請實施例提供一種神經網絡模型訓練裝置,所述裝置包括第一獲取單元、第二獲取單元和訓練單元:
所述第一獲取單元,用于獲取學習對象根據用戶操作產生的人工樣本集;
所述第二獲取單元,用于獲取針對所述學習對象的神經網絡模型在所述學習對象中自主學習得到機器樣本集;
所述訓練單元,用于根據所述人工樣本集和所述機器樣本集訓練所述神經網絡模型。
第三方面,本申請實施例提供一種用于神經網絡模型訓練的設備,所述設備包括處理器以及存儲器:
所述存儲器用于存儲程序代碼,并將所述程序代碼傳輸給所述處理器;
所述處理器用于根據所述程序代碼中的指令執行第一方面中所述的神經網絡模型訓練方法。
第四方面,本申請實施例提供一種計算機可讀存儲介質,所述計算機可讀存儲介質用于存儲程序代碼,所述程序代碼用于執行第一方面中所述的神經網絡模型訓練方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811645093.8/2.html,轉載請聲明來源鉆瓜專利網。





