[發明專利]神經網絡模型的訓練方法和訓練系統在審
| 申請號: | 201910618250.4 | 申請日: | 2019-07-10 |
| 公開(公告)號: | CN110751286A | 公開(公告)日: | 2020-02-04 |
| 發明(設計)人: | 羅遠飛;涂威威;曹睿;陳雨強 | 申請(專利權)人: | 第四范式(北京)技術有限公司 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08 |
| 代理公司: | 11286 北京銘碩知識產權代理有限公司 | 代理人: | 曾世驍;田方 |
| 地址: | 100085 北京市海淀區上*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 神經網絡模型 訓練數據 訓練樣本 預測結果 訓練神經網絡 損失函數 記錄 神經網絡結構 屬性信息 訓練系統 輸出 輸出層 構建 集合 預測 | ||
提供了一種神經網絡模型的訓練方法和訓練系統。所述訓練方法包括:獲取訓練數據記錄;基于訓練數據記錄的屬性信息來生成訓練樣本的特征,并將訓練數據記錄的標記作為訓練樣本的標記;以及利用訓練樣本的集合來訓練神經網絡模型,其中,在訓練神經網絡模型的過程中,針對神經網絡模型之中的主體神經網絡結構之中的至少一部分層,分別獲得與其中每層的輸出對應的層預測結果;基于由神經網絡模型的輸出層所輸出的預測結果與所述標記之間的差異以及每個層預測結果與所述標記之間的層預測差異來構建損失函數;以及根據所述損失函數來調整所述神經網絡模型。
技術領域
本申請要求申請號為201810812243.3,申請日為2018年7月23日,名稱為“神經網絡模型的訓練方法和訓練系統”的中國專利申請的優先權。本申請涉及深度學習,更具體地講,涉及深度學習中的神經網絡模型的訓練方法和訓練系統。
背景技術
隨著海量數據的出現,人工智能技術迅速發展。機器學習(包括深度學習)等是人工智能發展到一定階段的必然產物,其致力于通過計算的手段,從大量數據中挖掘有價值的潛在信息。
例如,在深度學習領域所常使用的神經網絡模型中,通常是通過將訓練數據記錄提供給神經網絡模型來訓練該神經網絡模型以確定該神經網絡模型的理想參數,而訓練好的神經網絡模型可被應用于在面對新的預測數據記錄時提供相應的預測結果,例如,神經網絡模型可被應用于圖像處理場景、語音識別場景、自然語言處理場景、自動控制場景、智能問答場景、業務決策場景、推薦業務場景、搜索場景和異常行為檢測場景等等。
在現有的神經網絡模型中,當利用訓練樣本來訓練神經網絡模型時,通常是在該模型的輸出層得到預測結果ypred,然后,可基于該神經網絡模型的預測結果ypred與訓練樣本的真實標記ytrue(即,關于該神經網絡模型的預測目標的真實結果)的取值,根據指定的損失函數來計算損失,然后反向傳播(Backpropagation),由此完成神經網絡模型的參數更新。然而,隨著神經網絡模型層數增加,神經網絡的性能可能難以如預期提高。
發明內容
根據本申請示例性實施例,提供了一種神經網絡模型的訓練方法,所述方法包括:獲取訓練數據記錄;基于訓練數據記錄的屬性信息來生成訓練樣本的特征,并將訓練數據記錄的標記作為訓練樣本的標記;以及利用訓練樣本的集合來訓練神經網絡模型,其中,在訓練神經網絡模型的過程中,針對神經網絡模型之中的主體神經網絡結構之中的至少一部分層,分別獲得與其中每層的輸出對應的層預測結果;基于由神經網絡模型的輸出層所輸出的預測結果與所述標記之間的差異以及每個層預測結果與所述標記之間的層預測差異來構建模型損失函數;以及根據所述模型損失函數來調整所述神經網絡模型。
可選地,分別獲得與其中每層的輸出對應的層預測結果的步驟可包括:分別將所述每層的輸出經過至少一次轉換,以獲得與所述每層對應的層預測結果。
可選地,可通過分別將所述每層的層權重矩陣與所述每層的輸出相乘并與相應的層偏置項相加來執行一次轉換。
可選地,層權重矩陣可以是在訓練神經網絡模型的過程中被學習出的。
可選地,基于由神經網絡模型的輸出層所輸出的預測結果與所述標記之間的差異以及每個層預測結果與所述標記之間的層預測差異來構建模型損失函數的步驟可包括:基于由神經網絡模型的輸出層所輸出的預測結果與所述標記之間的差異來構建輸出層損失函數,分別基于每個層預測結果與所述標記之間的層預測差異來構建所述每層的層損失函數,通過對輸出層損失函數和各個層損失函數進行加權求和來構建所述模型損失函數。
可選地,在訓練神經網絡模型的過程中,針對不同批次的訓練樣本,各個層損失函數的函數類型可被動態設置,并且/或者,針對不同批次的訓練樣本,主體神經網絡結構之中的所述至少一部分層可被動態設置。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于第四范式(北京)技術有限公司,未經第四范式(北京)技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910618250.4/2.html,轉載請聲明來源鉆瓜專利網。





