[發明專利]神經網絡訓練方法和裝置、存儲介質及電子裝置有效
| 申請號: | 201711037964.3 | 申請日: | 2017-10-27 |
| 公開(公告)號: | CN109726808B | 公開(公告)日: | 2022-12-09 |
| 發明(設計)人: | 楊夏;張力柯 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08;G06N3/04 |
| 代理公司: | 北京康信知識產權代理有限責任公司 11240 | 代理人: | 趙囡囡 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 神經網絡 訓練 方法 裝置 存儲 介質 電子 | ||
本發明公開了一種神經網絡訓練方法和裝置、存儲介質及電子裝置。其中,該方法包括:獲取用于訓練人機交互應用中的神經網絡的離線樣本集合,其中,離線樣本集合中包括滿足預定配置條件的離線樣本;使用離線樣本集合離線訓練初始神經網絡,得到對象神經網絡,其中,在人機交互應用中,對象神經網絡的處理能力高于初始神經網絡的處理能力;將對象神經網絡接入人機交互應用的在線運行環境進行在線訓練,得到目標神經網絡。本發明解決了相關技術提供的神經網絡訓練方法中存在的訓練效率較低的技術問題。
技術領域
本發明涉及計算機領域,具體而言,涉及一種神經網絡訓練方法和裝置、存儲介質及電子裝置。
背景技術
深度Q網絡(Deep Q Network,簡稱DQN)算法是一種融合卷積神經網絡和Q-Learning的方法,應用于深度增強學習(Deep Reinforcement Learning,簡稱DRL)中,其中,深度增強學習DRL是將深度學習和增強學習結合起來,從而實現從感知到動作的端到端學習的一種全新的算法。也就是說,在輸入感知信息之后,通過深度神經網絡,直接輸出動作,以使機器人實現完全自主的學習甚至多種技能的潛力,從而實現人工智能(ArtificialIntelligence,簡稱AI)操作。為了使機器人更好的完成自主學習,以熟練應用于不同的場景中,通過訓練以快速準確地獲取神經網絡,就成為當前迫切需要的問題。
目前,用于接入在線訓練環境訓練神經網絡的樣本對象,通常級別很低,在訓練初期時,有很大概率是做出隨機動作,雖然可以很好地探索訓練環境的狀態空間,但卻延長了訓練時間,此外,由于級別很低,往往需要在訓練環境中進行不斷地探索學習,才能達到一定的訓練目的。
也就是說,相關技術中提供的神經網絡訓練方法所需訓練時間較長,從而導致神經網絡訓練效率較低的問題。
針對上述的問題,目前尚未提出有效的解決方案。
發明內容
本發明實施例提供了一種神經網絡訓練方法和裝置、存儲介質及電子裝置,以至少解決相關技術提供的神經網絡訓練方法中存在的訓練效率較低的技術問題。
根據本發明實施例的一個方面,提供了一種神經網絡訓練方法,包括:獲取用于訓練人機交互應用中的神經網絡的離線樣本集合,其中,上述離線樣本集合中包括滿足預定配置條件的離線樣本;使用上述離線樣本集合離線訓練初始神經網絡,得到對象神經網絡,其中,在上述人機交互應用中,上述對象神經網絡的處理能力高于上述初始神經網絡的處理能力;將上述對象神經網絡接入上述人機交互應用的在線運行環境進行在線訓練,得到目標神經網絡。
根據本發明實施例的另一方面,還提供了一種神經網絡訓練裝置,包括:獲取單元,用于獲取用于訓練人機交互應用中的神經網絡的離線樣本集合,其中,上述離線樣本集合中包括滿足預定配置條件的離線樣本;離線訓練單元,用于使用上述離線樣本集合離線訓練初始神經網絡,得到對象神經網絡,其中,在上述人機交互應用中,上述對象神經網絡的處理能力高于上述初始神經網絡的處理能力;在線訓練單元,用于將上述對象神經網絡接入上述人機交互應用的在線運行環境進行在線訓練,得到目標神經網絡。
根據本發明實施例的又一方面,還提供了一種存儲介質,上述存儲介質包括存儲的程序,其中,上述程序運行時執行上述的方法。
根據本發明實施例的又一方面,還提供了一種電子裝置,包括存儲器、處理器及存儲在上述存儲器上并可在上述處理器上運行的計算機程序,上述處理器通過上述計算機程序執行上述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711037964.3/2.html,轉載請聲明來源鉆瓜專利網。





