[發(fā)明專利]一種神經(jīng)網(wǎng)絡訓練方法以及裝置在審
| 申請?zhí)枺?/td> | 202110603464.1 | 申請日: | 2021-05-31 |
| 公開(公告)號: | CN113505883A | 公開(公告)日: | 2021-10-15 |
| 發(fā)明(設計)人: | 尹伊淳;尚利峰;蔣欣;陳曉 | 申請(專利權)人: | 華為技術有限公司 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08;G06F40/40;G06K9/62 |
| 代理公司: | 深圳市深佳知識產(chǎn)權代理事務所(普通合伙) 44285 | 代理人: | 聶秀娜 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 神經(jīng)網(wǎng)絡 訓練 方法 以及 裝置 | ||
本申請公開了人工智能領域的一種神經(jīng)網(wǎng)絡訓練方法以及裝置,用于通過在資源約束條件的約束下進行同質搜索,減少搜索空間的大小,高效地搜索得到符合需求的模型。該方法包括:獲取超預訓練語言模型;獲取資源約束條件以及超參數(shù)搜索空間,資源約束條件指示針對模型占用的資源的約束,超參數(shù)搜索空間指示模型的超參數(shù)的范圍;在資源約束條件的約束下從超參數(shù)搜索空間中搜索出目標模型的結構,目標模型的至少兩層網(wǎng)絡層的超參數(shù)相同;對目標模型進行訓練,得到訓練后的目標模型。
技術領域
本申請涉及人工智能領域,尤其涉及一種神經(jīng)網(wǎng)絡訓練方法以及裝置。
背景技術
目前大規(guī)模預訓練語言模型成為了神經(jīng)網(wǎng)絡訓練領域的主導模型,在幾乎所有的自然語言理解任務上大大超越了之前的模型。這類模型基于先進的轉化器Transformer的結構,在大規(guī)模語料(如10G到100G)中通過自監(jiān)督預訓練任務訓練得到。但由于這些模型需要龐大的計算資源且推斷時間慢,如何將它部署到實際生產(chǎn)環(huán)境成為目前的技術挑戰(zhàn)。
通常,可以通過模型搜索的方法去構建預訓練語言模型或者神經(jīng)翻譯模型,這些方式將改變Transformer的結構,引入結構不同的組件,因此搜索空間和訓練代價都巨大,得到最終模型的效率低。
發(fā)明內(nèi)容
本申請?zhí)峁┮环N神經(jīng)網(wǎng)絡訓練方法以及裝置,用于通過在資源約束條件的約束下進行同質搜索,減少搜索空間的大小,高效地搜索得到符合需求的模型。
有鑒于此,第一方面,本申請?zhí)峁┮环N神經(jīng)網(wǎng)絡訓練方法,包括:獲取超預訓練語言模型;獲取資源約束條件以及超參數(shù)搜索空間,資源約束條件指示針對模型占用的資源的約束,超參數(shù)搜索空間指示模型的超參數(shù)的范圍;在資源約束條件的約束下從超參數(shù)搜索空間中搜索出目標模型的結構,目標模型的至少兩層網(wǎng)絡層的超參數(shù)相同;對目標模型進行訓練,得到訓練后的目標模型。
因此,本申請實施方式中,搜索得到的子模型的至少兩層網(wǎng)絡層的超參數(shù)相同,從而需要構建的超參數(shù)搜索空間更小,搜索子模型的效率也更高,從而可以高效地搜索得到符合需求的目標模型。且搜索得到的目標模型為同質結構,即至少兩層網(wǎng)絡層的超參數(shù)相同,結構簡單,可以在更多的場景中部署該模型,即本申請?zhí)峁┑姆椒梢詰糜诙喾N場景中,泛化能力強。
在一種可能的實施方式中,目標模型的每一層網(wǎng)絡層的超參數(shù)相同。因此,本申請實施方式中,最終得到的目標模型的各個網(wǎng)絡層具有相同的超參數(shù),得到了同質的模型,進而所需的超參數(shù)搜索空間的范圍也就更小,可以高效地搜索得到滿足資源約束條件的模型。
在一種可能的實施方式中,前述的獲取超預訓練語言模型,可以包括:首先構建神經(jīng)網(wǎng)絡,得到未訓練的初始模型;將訓練集分為多個子集;從初始模型中采集子模型,得到多個第一子模型;使用多個子集并行對多個第一子模型進行訓練,得到超預訓練語言模型。
因此,在本申請實施方式中,可以使用訓練集并行對初始模型中的子模型進行訓練,從而可以提高初始模型的訓練效率,更高效地得到超預訓練語言模型。
在一種可能的實施方式中,前述的使用多個子集并行對多個第一子模型進行訓練,得到超預訓練語言模型,可以包括:將多個子集和多個第一子模型分發(fā)至多個計算節(jié)點,以在多個計算節(jié)點中計算多個第一子模型的梯度;根據(jù)多個第一子模型的梯度更新初始模型的參數(shù),得到超預訓練語言模型。
因此,本申請實施方式中,可以將多個子集和對應的子模型分發(fā)至多個計算節(jié)點,從而使多個計算節(jié)點可以并行計算各個子模型的梯度,從而提高對初始模型的訓練效率,高效地得到訓練后的模型。
可選地,前述的計算節(jié)點可以包括服務器、個人電腦、處理器、進程或者線程等具有處理能力的節(jié)點。
在一種可能的實施方式中,前述的根據(jù)多個子模型的梯度更新初始模型的參數(shù),得到超預訓練語言模型,可以包括:融合多個第一子模型的梯度,得到融合梯度;根據(jù)融合梯度更新初始模型的參數(shù),得到超預訓練語言模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司,未經(jīng)華為技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110603464.1/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 硬件神經(jīng)網(wǎng)絡轉換方法、計算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡
- 神經(jīng)網(wǎng)絡的生成方法、生成裝置和電子設備
- 一種舌診方法、裝置、計算設備及計算機存儲介質
- 學習神經(jīng)網(wǎng)絡結構
- 脈沖神經(jīng)網(wǎng)絡轉換方法及相關轉換芯片
- 圖像處理方法、裝置、可讀存儲介質和計算機設備
- 一種適應目標數(shù)據(jù)集的網(wǎng)絡模型微調(diào)方法、系統(tǒng)、終端和存儲介質
- 用于重構人工神經(jīng)網(wǎng)絡的處理器及其操作方法、電氣設備
- 一種圖像神經(jīng)網(wǎng)絡結構的優(yōu)化方法及裝置





