[發明專利]神經網絡模型的數據處理方法、裝置及電子設備在審
| 申請號: | 202010899586.5 | 申請日: | 2020-08-31 |
| 公開(公告)號: | CN114118391A | 公開(公告)日: | 2022-03-01 |
| 發明(設計)人: | 孫黎 | 申請(專利權)人: | 廣州市百果園信息技術有限公司 |
| 主分類號: | G06N3/063 | 分類號: | G06N3/063;G06N3/08;G06N3/04;G06F17/16 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 莎日娜 |
| 地址: | 511400 廣東省廣州市番*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 神經網絡 模型 數據處理 方法 裝置 電子設備 | ||
本發明實施例提供了一種神經網絡模型的數據處理方法、裝置及電子設備,涉及深度學習技術領域。該方法包括:獲取待計算的特征數據;根據目標編碼器,對特征數據進行計算,得到第一矩陣;其中,目標編碼器是深度學習推理框架通過編碼器所需的第一參數,對編碼器中的第一層歸一化模塊和第一多頭自注意力模塊進行優化后得到的;根據目標解碼器,對第一矩陣進行計算,得到目標特征數據;其中,解碼器是深度學習推理框架通過解碼器所需的第二參數,對解碼器中的第二層歸一化模塊、第二多頭自注意力模塊以及多頭編解碼自注意力模塊進行優化后得到的。上述方案,可以實現對模型的半自動化優化,既依賴自動優化的特點,同時又針對性能瓶頸直接手動優化。
技術領域
本發明涉及深度學習技術領域,尤其涉及一種神經網絡模型的數據處理方法、裝置及電子設備。
背景技術
隨著深度學習技術的快速發展,目前已經廣泛的應用在多種場景,包括圖像、語音、自然語言處理等。一種基于深度學習神經網絡結構Transformer是基于深度學習提出了一種注意力Attention框架的模型,最早使用在自然語言處理的場景中。由于模型優異的性能,目前已經在語音識別、語言模型、語音合成等眾多場景中取得了較好的結果。
相較于傳統的機器學習,深度學習展現了更加廣闊的應用前景,同時也帶來了新的問題。由于深度學習模型擁有大量的參數,因此對于設備的計算的能力提出了更高的要求。相較于傳統的計算設備中央處理器(Central Processing Unit,CPU),圖像處理計算設備(Graphics Processing Unit,GPU)在深度學習的計算上展現了天然的優勢。目前大部分深度學習平臺都是基于GPU搭建。由于GPU優異的性能和成熟的生態,因此得到了廣泛的使用。Transformer作為一種性能優異的深度學習模型,同樣對于計算資源有巨大的需求。因此對于Transformer的優化,對于其業務落地有巨大的幫助。
目前,對于Transformer的優化主要有兩種思路,一種是自動優化:這種方法主要是依賴深度學習框架自身的優化能力,如開源的深度學習框架tensorflow、開源的深度學習框架pytorch這類框架,這種方法的優點是簡單易用,缺點是優化結果欠佳;另一類是手動優化,通過手動針對性能瓶頸直接優化,優點是效果較好,缺點是需要大量的投入。
發明內容
本發明提供一種神經網絡模型的數據處理方法、裝置及電子設備,以便在一定程度上解決自動優化導致優化效果較差,以及手動優化投入較大的問題。
在本發明實施的第一方面,提供了一種神經網絡模型的數據處理,所述神經網絡模型包括編碼器和解碼器,所述編碼器包括:第一層歸一化模塊以及第一多頭自注意力模塊,所述解碼器包括:第二層歸一化模塊、第二多頭自注意力模塊以及多頭編解碼自注意力模塊,所述方法包括:
獲取待計算的特征數據;
根據目標編碼器,對所述特征數據進行計算,得到第一矩陣;其中,所述目標編碼器是深度學習推理框架通過所述編碼器所需的第一參數,對所述編碼器中的第一層歸一化模塊和第一多頭自注意力模塊進行優化后得到的;
根據所述目標解碼器,對所述第一矩陣進行計算,得到目標特征數據;其中,所述解碼器是所述深度學習推理框架通過所述解碼器所需的第二參數,對所述解碼器中的第二層歸一化模塊、第二多頭自注意力模塊以及多頭編解碼自注意力模塊進行優化后得到的。
可選的,所述編碼器還包括:第一前饋模塊,所述根據目標編碼器,對所述特征數據進行計算,得到第一矩陣,包括:
根據所述特征數據、所述第一參數以及優化后的第一層歸一化模塊中的第一計算方式,對所述特征數據進行計算,得到第二矩陣;
根據所述第二矩陣以及優化后的第一多頭自注意力模塊中的第二計算方式,對所述第二矩陣進行計算,得到第三矩陣;
根據所述第一前饋模塊,對所述第三矩陣進行計算,得到第一矩陣。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州市百果園信息技術有限公司,未經廣州市百果園信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010899586.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:疊層光伏器件及生產方法
- 下一篇:充電設備、電子設備及充電系統





