[發明專利]一種分布式訓練transformer-xl語言模型的方法和設備在審
| 申請號: | 202110264864.4 | 申請日: | 2021-03-12 |
| 公開(公告)號: | CN112862662A | 公開(公告)日: | 2021-05-28 |
| 發明(設計)人: | 沈華東;李軼杰;梁家恩 | 申請(專利權)人: | 云知聲智能科技股份有限公司;廈門云知芯智能科技有限公司 |
| 主分類號: | G06T1/20 | 分類號: | G06T1/20;G06F9/50 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100096 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 分布式 訓練 transformer xl 語言 模型 方法 設備 | ||
本發明涉及一種分布式訓練transformer?xl語言模型的方法和設備,應用于通過DPP訓練transformer?xl語言模型的過程,該方法包括:獲取用于訓練tranformer xl語言模型的文本語料數據;將所有的所述文本語料數據按照上下文順序進行排序;將排序后的所述文本語料數據根據GPU的個數進行分塊,以分為多個子數據;將不同的所述子數據分配給不同的所述GPU,所述GPU訓練所分配的所述子數據的順序與所述上下文順序一致;依次通過各所述GPU對所述子數據進行訓練,以實現對transformer?xl語言模型的訓練。本方案重構了DDP中的采樣方法,使用重構后的DDP訓練會tranformer xl,一則加速了巨量文本語料的的訓練速度,解決了效率問題,且使得tranformer xl模型的歷史信息得到保留。
技術領域
本發明涉及機器翻譯技術領域,具體涉及一種分布式訓練transformer-xl語言模型的方法和設備。
背景技術
語言模型的訓練會使用大規模的文本語料,如果僅僅采用單個GPU(GraphicsProcessing Unit,圖形處理器)進行處理,速度會很慢,所以往往使用多個GPU一起訓練。常用的訓練方式有DP(DataParallel,數據并行)和DDP(DistrutedDataParallle,區域數據列表)方式。
如圖2A所示,DP的方式是將一個batch(批處理)的數據進行分片,分配到多個GPU計算,然后把各個GPU參數同步到一個主GPU進行參數更新;DDP采用all-reduce(規約)方式,將數據按一定采樣方式,把數據分詞batch數目除以GPU個數的數量分配給每個GPU;每個GPU都可以進行參數更新;DDP相比DP速度上有很大提升;目前tranformer xl模型一般采用DP方式來進行多卡的訓練,而由于tranformer xl模型的上下文有關聯,需要每個batch按順序訓練;DDP的方式會打亂順利,使得tranformer xl模型失去歷史信息。也即DP訓練巨量文本語料的tranformer xl模型速度慢;而使用DDP方式訓練會tranformer xl模型失去歷史信息。
由此,目前需要有一種更好的方案來解決現有技術中的問題。
發明內容
本發明提供一種分布式訓練transformer-xl語言模型的方法和設備,能夠解決現有技術中使用DDP方式訓練會tranformer xl模型失去歷史信息的技術問題。
本發明解決上述技術問題的技術方案如下:
本發明實施例提出了一種分布式訓練transformer-xl語言模型的方法,應用于通過DPP訓練transformer-xl語言模型的過程,該方法包括:
獲取用于訓練tranformer xl語言模型的文本語料數據;
將所有的所述文本語料數據按照上下文順序進行排序;
將排序后的所述文本語料數據根據GPU的個數進行分塊,以分為多個子數據;
將不同的所述子數據分配給不同的所述GPU,所述GPU訓練所分配的所述子數據的順序與所述上下文順序一致;
依次通過各所述GPU對所述子數據進行訓練,以實現對transformer-xl語言模型的訓練。
在一個具體的實施例中,所述將不同的所述子數據分配給不同的所述GPU,包括:
按照上下文順序對各所述子數據進行排序,生成第一序列,以及按照訓練的順序對各所述GPU進行排序,生成第二序列;
針對各所述子數據,確定所述子數據的在第一序列中的排名;確定所述排名在第二序列中對應的所述GPU;將所述子數據分配給確定的所述GPU。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于云知聲智能科技股份有限公司;廈門云知芯智能科技有限公司,未經云知聲智能科技股份有限公司;廈門云知芯智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110264864.4/2.html,轉載請聲明來源鉆瓜專利網。
- 基于Transformer+LSTM神經網絡模型的商品銷量預測方法及裝置
- 一種基于Transformer模型自然場景文字識別方法
- 一種深度Transformer級聯神經網絡模型壓縮算法
- 點云分割方法、系統、介質、計算機設備、終端及應用
- 基于Transformer的中文智能對話方法
- 一種基于改進Transformer模型的飛行器故障診斷方法和系統
- 一種基于Transformer模型的機器翻譯模型優化方法
- 基于Transformer和增強交互型MPNN神經網絡的小分子表示學習方法
- 基于U-Transformer多層次特征重構的異常檢測方法及系統
- 基于EfficientDet和Transformer的航空圖像中的飛機檢測方法





