[發明專利]一種多機制混合的遞歸神經網絡模型壓縮方法在審
| 申請號: | 201710151828.0 | 申請日: | 2017-03-10 |
| 公開(公告)號: | CN107644252A | 公開(公告)日: | 2018-01-30 |
| 發明(設計)人: | 王中風;王智生;林軍 | 申請(專利權)人: | 南京大學 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 210023 江蘇省南京市棲*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 機制 混合 遞歸 神經網絡 模型 壓縮 方法 | ||
技術領域
本發明涉及計算機及電子信息技術領域,特別是一種多機制混合的遞歸神經網絡模型壓縮方法。
背景技術
遞歸神經網絡有著強大的非線性擬合能力,其天然的遞歸結構十分適用于建模序列數據,如文本、語音和視頻等。目前,遞歸神經網絡模型在自然語言處理領域,尤其是在語音識別和機器翻譯上已經取得了接近甚至超過人類的效果或準確率;通過結合增強學習,遞歸神經網絡在機器人自適應控制和學習領域也有廣泛的應用前景。這些技術是實現智能人機交互所必須的,但是在嵌入式設備上運行遞歸神經網絡模型存在著諸多問題。一方面,遞歸神經網絡模型需要存儲大量的參數,而且計算量巨大;另一方面,嵌入式系統所能提供的存儲資源和計算能力十分有限,無法滿足模型存儲和計算的需求,實時性和功耗上也面臨著諸多挑戰。因此,有必要通過一些模型壓縮技術減少遞歸神經網絡的模型參數以減少模型的存儲需求,并降低模型的計算復雜度。
現有的模型壓縮技術可以粗略歸為兩大類,一類不減少模型參數個數,但可以減少參數存儲所需要的空間。如通過剪枝使參數矩陣變稀疏,而后可通過特殊的格式存儲稀疏參數矩陣;也可采用基于量化的網絡訓練算法,減少存儲每個參數需要的比特。另一類是通過對參數矩陣施加特殊的約束減少參數個數或是減少計算復雜度,如通過哈希映射將網絡參數限制為幾種特殊的值,存儲時存儲值及每個參數所屬的類別;或是將參數矩陣限制為一些結構化矩陣,如托普利茲矩陣,不但可以減少存儲空間,也可以通過快速算法減少計算的時間復雜度。
目前已有的針對遞歸神經網絡的模型壓縮方法仍有較多的提升空間,可以實現的壓縮效果十分有限;混合使用不同的模型壓縮方法雖然可以獲得更好的壓縮率,但直接混合會嚴重地損失模型的精度。探索更好的模型壓縮方法及不同模型壓縮方法間結合的方法,在盡量不損失網絡模型精度的條件下最大化模型壓縮率,仍然是一個函待解決的問題。
發明內容
發明目的:
本發明所要解決的技術問題是針對遞歸神經網絡無法適應嵌入式系統的存儲資源和計算能力,提出多種高效的模型壓縮機制及混合方法,使遞歸神經網絡在嵌入式系統上的應用成為可能。
技術方案:
為了解決上述技術問題,本發明公開了一種多機制混合的遞歸神經網絡模型壓縮方法,其特征在于,包括以下步驟:
步驟一,在初始訓練階段,根據實際需要靈活結合循環矩陣約束和前向激活函數近似壓縮遞歸神經網絡模型;
步驟二,在所述步驟一的基礎上,增加混合量化機制進行遞歸神經網絡模型的重訓練,進一步提高模型的壓縮率;
所述步驟一包括以下步驟:
步驟(11),使用循環矩陣約束,針對遞歸神經網絡中不同參數矩陣對誤差敏感程度的差異,將對誤差不敏感的部分參數矩陣限制為循環矩陣;
步驟(12),若步驟(11)所選參數矩陣非方陣,則通過缺失部分補零或拼接的方式使其滿足循環矩陣需為方陣的約束,并更新后向梯度傳播算法使遞歸神經網絡模型可以進行循環矩陣的批量訓練;
步驟(13),使用前向激活函數近似,進一步更新后向梯度傳播算法,使得神經網絡模型在前向運算時將網絡中的非線性激活函數替換為硬件友好的線性函數,同時保持后向梯度更新過程不變;
所述步驟二包括以下步驟:
步驟(21),分析步驟一訓練出的遞歸神經網絡模型中不同參數矩陣對誤差敏感程度的差異,并結合遞歸神經網絡模型在結構上的特點,將模型中的參數分為多組,每組選用不同的量化方法;
步驟(22),根據步驟(21)中模型參數的分組情況進行混合量化,并對遞歸神經網路模型進行重訓練以恢復模型精度。
有益效果:
本發明創新性地提出了多種針對遞歸神經網絡的模型壓縮方法,同時可通過二次訓練機制,弱化不同模型壓縮機制間的相互影響,在盡量不損失網絡模型精度的條件下最大化模型壓縮率,使遞歸神經網絡在嵌入式系統上的應用成為可能。本發明在嵌入式場景下的智能人機交互、機器人決策和控制領域有廣泛的應用前景。
附圖說明
下面結合附圖和具體實施方式對本發明做更進一步的具體說明,本發明的上述和/或其他方面的優點將會變得更加清楚。
圖1是本發明方法簡化流程圖。
具體實施方式:
下面詳細描述本發明的實施例。因遞歸神經網絡包含多種變體,本實施例將以其中最為基本的遞歸神經網絡為例,旨在用于解釋本發明,而不能理解為對本發明的限制。其余遞歸神經網絡變體的實施過程與本實施例基本相同。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710151828.0/2.html,轉載請聲明來源鉆瓜專利網。





