[發(fā)明專利]一種基于張量串分解的多層感知機非線性壓縮方法在審
| 申請?zhí)枺?/td> | 202010785534.5 | 申請日: | 2020-08-06 |
| 公開(公告)號: | CN112116062A | 公開(公告)日: | 2020-12-22 |
| 發(fā)明(設(shè)計)人: | 趙廣社;魏育豪;王鼎衡;武碧嬌 | 申請(專利權(quán))人: | 西安交通大學(xué) |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08 |
| 代理公司: | 西安通大專利代理有限責(zé)任公司 61200 | 代理人: | 馬貴香 |
| 地址: | 710049 *** | 國省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 張量 分解 多層 感知 非線性 壓縮 方法 | ||
本發(fā)明公開了一種基于張量串分解的多層感知機非線性壓縮方法。首先利用張量串分解,將多層感知機中的全連接層權(quán)重矩陣轉(zhuǎn)化為張量串分解形式;然后在張量串中的每個因子張量之間插入非線性函數(shù),使整個多層感知機轉(zhuǎn)化為輕量化的更深層次的新多層感知機;最后通過少量次數(shù)的訓(xùn)練對新的多層感知機進(jìn)行微調(diào)。本發(fā)明能夠在利用張量串分解對多層感知機進(jìn)行壓縮的基礎(chǔ)上,提高整個多層感知機的非線性表達(dá)能力,既節(jié)省了多層感知機的存儲空間,還在一定程度上提升了多層感知機的識別準(zhǔn)確率。
技術(shù)領(lǐng)域
本發(fā)明屬于機器學(xué)習(xí)中的深度學(xué)習(xí)領(lǐng)域,具體涉及一種基于張量串分解的多層感知機(全連接神經(jīng)網(wǎng)絡(luò))非線性壓縮方法。
背景技術(shù)
近年來,以多層感知機(Multilayer Perceptron,MLP)為基本模型的深度神經(jīng)網(wǎng)絡(luò)在圖像識別、語音識別、目標(biāo)檢測、語義分割、數(shù)據(jù)生成等多個實際應(yīng)用領(lǐng)域取得了廣泛的成功。但深度神經(jīng)網(wǎng)絡(luò)的表達(dá)能力越強,往往意味著網(wǎng)絡(luò)模型的規(guī)模越大,其空間復(fù)雜度就越高,所占存儲空間也就越大。這種情況無疑限制了高性能的深度神經(jīng)網(wǎng)絡(luò)在存儲受限的嵌入式設(shè)備中的部署應(yīng)用,如手機、車載系統(tǒng)等。
Denil等人在2013年的文獻(xiàn)《Predicting parameters in deep learning》中證實了深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)事實上是冗余的,即可以通過一些權(quán)重壓縮手段來減小深度神經(jīng)網(wǎng)絡(luò)的規(guī)模,同時不造成明顯的精度損失。因此,人們提出了很多方法來對深度神經(jīng)網(wǎng)絡(luò)進(jìn)行壓縮。
其中,張量分解是使用較廣泛的壓縮方法之一,具體是將多層感知機的每層權(quán)重看作一個高階張量,然后借助成熟的張量分解數(shù)學(xué)方法將其分解為多個小張量乘積的形式,從而使多層感知機的權(quán)重參數(shù)的數(shù)量減少。在眾多張量分解方法之中,張量串(TensorTrain,TT)分解憑借其精簡的表達(dá)形式和較高的壓縮率成為應(yīng)用最廣泛的張量分解神經(jīng)網(wǎng)絡(luò)壓縮方法。自Novikov等人在2015年的文獻(xiàn)《Tensorizing neural networks》開始,基于張量串的深度神經(jīng)網(wǎng)絡(luò)壓縮方法已經(jīng)在卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)中得到了應(yīng)用,取得了不錯的壓縮效果。
關(guān)于現(xiàn)有基于張量分解的神經(jīng)網(wǎng)絡(luò)壓縮報道,無論具體的張量分解方法是哪一種,高壓縮率帶來的模型準(zhǔn)確率降低都是一個不易解決的難題。一般來說,只有網(wǎng)絡(luò)規(guī)模極大的循環(huán)神經(jīng)網(wǎng)絡(luò)才有可能在一定程度上避免張量分解帶來的精度損失。對于結(jié)構(gòu)緊湊的卷積神經(jīng)網(wǎng)絡(luò)和規(guī)模有限的多層感知機,張量分解往往一定會帶來精度損失,而盲目擴大卷積神經(jīng)網(wǎng)絡(luò)或多層感知機的規(guī)模又會帶來訓(xùn)練收斂困難、整體準(zhǔn)確率下降等問題。
發(fā)明內(nèi)容
為克服上述現(xiàn)有技術(shù)的不足,本發(fā)明提供一種基于張量串分解的多層感知機非線性壓縮方法,將多層感知機中的全連接層權(quán)重矩陣轉(zhuǎn)化為張量串分解形式,然后在張量串中的每個因子張量之間插入非線性函數(shù),使整個原多層感知機轉(zhuǎn)化為輕量化的更深層次的新多層感知機,既節(jié)省了多層感知機的存儲空間,還在一定程度上提升了多層感知機的識別準(zhǔn)確率。
為達(dá)到上述目的,本發(fā)明采用如下技術(shù)方案:
一種基于張量串分解的多層感知機非線性壓縮方法,包括以下步驟:
步驟1:對已訓(xùn)練好的多層感知機讀取其某一層全連接權(quán)重矩陣得該層輸入向量為M維,輸出向量為N維,即y=f(xW),其中f(·)為該層非線性激活函數(shù);
步驟2:將M和N因數(shù)分解為d個整數(shù)的乘積,即和將W重構(gòu)為d階張量后,利用張量串分解方法得每個因子張量ri為張量秩,有且僅有r0=rd=1;
步驟3:定義輸入向量x與張量串分解后的權(quán)重相乘得到輸出y的前向計算方法使x通過依次與每個相乘,即
步驟4:在每一個計算后插入非線性激活函數(shù)g(·),使變?yōu)?/p>
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安交通大學(xué),未經(jīng)西安交通大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010785534.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





