[發明專利]神經網絡語言模型壓縮方法及系統在審
| 申請號: | 201811518662.2 | 申請日: | 2018-12-12 |
| 公開(公告)號: | CN109448706A | 公開(公告)日: | 2019-03-08 |
| 發明(設計)人: | 俞凱;劉奇;馬嬈 | 申請(專利權)人: | 蘇州思必馳信息科技有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/16;G06F16/36;G06N3/04;G06N3/08 |
| 代理公司: | 北京商專永信知識產權代理事務所(普通合伙) 11400 | 代理人: | 方挺;車江華 |
| 地址: | 215123 江蘇省蘇州市蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 嵌入層 投影層 隱藏層 模型壓縮 語言模型 神經 輸出 嵌入式系統 文本語料庫 便攜設備 存儲空間 矩陣配置 權重矩陣 參數權 詞匯表 二值化 減小 應用 壓縮 | ||
1.一種神經網絡語言模型壓縮方法,所述神經網絡語言模型包括輸入嵌入層、隱藏層和輸出嵌入層,所述方法包括:
在所述輸入嵌入層與所述隱藏層之間設置第一投影層;
在所述隱藏層和所述輸出嵌入層之間設置第二投影層;
分別將所述輸入嵌入層、第一投影層、隱藏層、第二投影層和輸出嵌入層的參數權重矩陣配置為二值化權重矩陣,以構成壓縮后的神經網絡語言模型。
2.根據權利要求1所述的方法,其中,還包括:
預先訓練所述神經網絡語言模型作為教師模型;
將所述壓縮后的神經網絡語言模型作為學生模型;
將訓練數據輸入所述教師模型以得到所述教師模型在詞表上的概率分布;
將所述概率分布和對應于所述訓練數據的預測標簽的獨熱向量的插值確定為所述學生模型的訓練目標;
以所述訓練數據作為所述學生模型的輸入來訓練所述學生模型。
3.根據權利要求1所述的方法,其中,所述神經網絡語言模型為前饋神經網絡模型或者循環神經網絡模型。
4.根據權利要求1所述的方法,其中,所述神經網絡語言模型為LSTM語言模型。
5.一種神經網絡語言模型壓縮系統,所述神經網絡語言模型包括輸入嵌入層、隱藏層和輸出嵌入層,所述系統包括:
第一設置模塊,用于在所述輸入嵌入層與所述隱藏層之間設置第一投影層;
第二設置模塊,用于在所述隱藏層和所述輸出嵌入層之間設置第二投影層;
權重矩陣配置模塊,用于分別將所述輸入嵌入層、第一投影層、隱藏層、第二投影層和輸出嵌入層的參數權重矩陣配置為二值化權重矩陣,以構成壓縮后的神經網絡語言模型。
6.根據權利要求5所述的系統,其中,還包括:
第一訓練模塊,用于預先訓練所述神經網絡語言模型作為教師模型;
配置模塊,用于將所述壓縮后的神經網絡語言模型作為學生模型;
概率分布確定模塊,用于將訓練數據輸入所述教師模型以得到所述教師模型在詞表上的概率分布;
訓練目標確定模塊,用于將所述概率分布和對應于所述訓練數據的預測標簽的插值確定為所述學生模型的訓練目標;
第二訓練模塊,用于以所述訓練數據作為所述學生模型的輸入來訓練所述學生模型。
7.根據權利要求5所述的系統,其中,所述神經網絡語言模型為前饋神經網絡模型或者循環神經網絡模型。
8.根據權利要求5所述的系統,其中,所述神經網絡語言模型為LSTM語言模型。
9.一種電子設備,其包括:至少一個處理器,以及與所述至少一個處理器通信連接的存儲器,其中,所述存儲器存儲有可被所述至少一個處理器執行的指令,所述指令被所述至少一個處理器執行,以使所述至少一個處理器能夠執行權利要求1-4中任意一項所述方法的步驟。
10.一種存儲介質,其上存儲有計算機程序,其特征在于,該程序被處理器執行時實現權利要求1-4中任意一項所述方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州思必馳信息科技有限公司,未經蘇州思必馳信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811518662.2/1.html,轉載請聲明來源鉆瓜專利網。





