[發明專利]一種機器翻譯中的一次剪枝壓縮方法有效
| 申請號: | 202010068169.6 | 申請日: | 2020-01-21 |
| 公開(公告)號: | CN111382581B | 公開(公告)日: | 2023-05-19 |
| 發明(設計)人: | 寧義明 | 申請(專利權)人: | 沈陽雅譯網絡技術有限公司 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06N3/0495;G06N3/082 |
| 代理公司: | 沈陽新科知識產權代理事務所(特殊普通合伙) 21117 | 代理人: | 李曉光 |
| 地址: | 110004 遼寧省沈陽市*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 機器翻譯 中的 一次 剪枝 壓縮 方法 | ||
1.一種機器翻譯中的一次剪枝壓縮方法,其特征在于包括以下步驟:
1)對機器翻譯模型中自注意力部分的參數點乘一個值為0或1的矩陣c,矩陣c的值表示是否對其對應的模型連接進行剪枝操作;
2)通過損失函數對矩陣c求導,對導數值進行由大到小的排序,保留前κ個導數值的路徑連接,其中κ是模型稀疏度;
3)在一個批次的訓練數據上進行一次前饋與反饋過程,從中學習到適應翻譯模型的矩陣c;
4)使用求得的矩陣c優化后續的模型計算,并達到更少的存儲消耗;
矩陣c與機器翻譯模型中自注意力部分的參數和損失函數的關系為:
矩陣c與自注意力部分的參數ω維度相同,當矩陣c對應元素取值為1時表示該路徑保留,當矩陣c對應元素取值為0時表示該路徑被剪枝,D為機器翻譯模型學習剪枝結構過程所需要的訓練數據集,通常為一個批次大小的數據集,(xi,yi)為訓練數據集D中的第i個數據對,n為訓練數據集D的總數據對個數,i為訓練數據集D的第i個數據對,表示求出使得L最小的c和ω,l為第i個數據的損失函數,m表示參數ω是m維的,κ是模型稀疏度;
上述公式表示使用n個句對對損失函數訓練,在訓練過程中得到令損失函數最小的矩陣c;
步驟2)中通過損失函數對矩陣c求導,對導數值進行由大到小的排序,進而對通過自動微分學習模型最優矩陣c,具體為:
201)通過下述公式衡量第j個連接在模型中的有效程度,公式為:
ΔLj(ω;D)=L(1⊙ω;D)-L((1-ej)⊙ω;D)
其中ej表示一個除列索引號j為1以外元素全部為0的列向量,該公式中L(1⊙ω;D)計算了模型自注意力部分的損失函數值,L((1-ej)⊙ω;D)計算了模型對連接j剪枝之后的損失函數值;
202)通過連接敏感度gj(ω;D)代替ΔLj(ω;D)的計算,通過下述公式,使得模型可以通過自動微分在一次前饋與反饋中學習得到矩陣c,公式為:
上述公式將不可微分的離散形式用可微分的連續形勢近似代替,通過該公式可以使用自動微分,使用部分數據進行一次前饋與反饋得到矩陣c,δ為一個極小值;
203)選取所有連接的gj(ω;D)中最大的k個保留,公式為:
是向量s中第k大的元素,1[·]是示性函數。
2.按權利要求1所述的一種機器翻譯中的一次剪枝壓縮方法,其特征在于:步驟3)中,使用一次前饋與反饋在部分數據上完成矩陣c的訓練,只需要在一個批次的訓練數據上使用一次前饋與反饋即可。
3.按權利要求1所述的一種機器翻譯中的一次剪枝壓縮方法,其特征在于:步驟4)中,訓練得到矩陣c后,矩陣c使矩陣ω成為稀疏矩陣,在剪枝后的訓練過程中使用稀疏矩陣進行訓練與存儲,使得模型更為高效。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于沈陽雅譯網絡技術有限公司,未經沈陽雅譯網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010068169.6/1.html,轉載請聲明來源鉆瓜專利網。





