[發(fā)明專利]經(jīng)壓縮的遞歸神經(jīng)網(wǎng)絡(luò)模型在審
| 申請?zhí)枺?/td> | 201611262293.6 | 申請日: | 2016-12-30 |
| 公開(公告)號: | CN107038476A | 公開(公告)日: | 2017-08-11 |
| 發(fā)明(設(shè)計)人: | 奧艾斯·阿爾沙里夫;羅希特·普拉卡什·普拉巴瓦爾卡爾;伊恩·C·麥格勞;安托萬·讓·布呂蓋 | 申請(專利權(quán))人: | 谷歌公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08 |
| 代理公司: | 中原信達知識產(chǎn)權(quán)代理有限責(zé)任公司11219 | 代理人: | 周亞榮,安翔 |
| 地址: | 美國加利*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 壓縮 遞歸 神經(jīng)網(wǎng)絡(luò) 模型 | ||
技術(shù)領(lǐng)域
本說明書涉及神經(jīng)網(wǎng)絡(luò)架構(gòu)和壓縮神經(jīng)網(wǎng)絡(luò)。
背景技術(shù)
神經(jīng)網(wǎng)絡(luò)是采用一個或多個非線性單元層來預(yù)測所接收的輸入的輸出的機器學(xué)習(xí)模型。一些神經(jīng)網(wǎng)絡(luò)除了輸出層之外還包括一個或多個隱藏層。每個隱藏層的輸出被用作所述網(wǎng)絡(luò)中下一層的輸入,即下一隱藏層或輸出層的輸入。網(wǎng)絡(luò)的每層根據(jù)相應(yīng)參數(shù)集的當(dāng)前值從所接收的輸入生成輸出。例如被設(shè)計用于時間序列問題或序列到序列學(xué)習(xí)的那些神經(jīng)網(wǎng)絡(luò)(遞歸(recurrent)神經(jīng)網(wǎng)絡(luò)(RNN))的一些神經(jīng)網(wǎng)絡(luò)包括許可其以隱藏狀態(tài)變量的形式的記憶持久存在于數(shù)據(jù)輸入之間的層內(nèi)的遞歸環(huán)路。RNN的變體,長的短期記憶(LSTM)神經(jīng)網(wǎng)絡(luò)包括每層內(nèi)用于控制數(shù)據(jù)輸入之間的數(shù)據(jù)的持久性的多個門。例如被設(shè)計用于時間序列問題或序列到序列學(xué)習(xí)的那些神經(jīng)網(wǎng)絡(luò)的一些神經(jīng)網(wǎng)絡(luò)包括許可以隱藏狀態(tài)變量的形式的記憶持久在數(shù)據(jù)輸入之間的層內(nèi)的遞歸環(huán)路。
發(fā)明內(nèi)容
本說明書描述了涉及遞歸神經(jīng)網(wǎng)絡(luò)架構(gòu)的技術(shù)。一般來說,遞歸神經(jīng)網(wǎng)絡(luò)包括至少一個被壓縮的遞歸神經(jīng)網(wǎng)絡(luò)層。具體地,使用共享投影矩陣來聯(lián)合壓縮用于經(jīng)壓縮遞歸層的遞歸權(quán)重矩陣和層間權(quán)重矩陣。
對于要被配置為執(zhí)行特定操作或動作的一個或多個計算機的系統(tǒng)而言,意味著系統(tǒng)已經(jīng)在其上安裝了操作中的軟件、固件、硬件或它們的組合,其在操作中使得系統(tǒng)執(zhí)行操作或動作。對于要被配置為執(zhí)行特定操作或動作的一個或多個計算機程序而言,意味著一個或多個程序包括當(dāng)由數(shù)據(jù)處理裝置執(zhí)行時使得所述裝置執(zhí)行操作或動作的指令。
在本說明書中描述的主題可以在特定實施例中實現(xiàn),以便實現(xiàn)以下優(yōu)點中的一個或多個。通過在遞歸神經(jīng)網(wǎng)絡(luò)中壓縮一個或多個遞歸層的權(quán)重矩陣,遞歸神經(jīng)網(wǎng)絡(luò)被配置為能夠更有效地處理數(shù)據(jù)并且使用更少的數(shù)據(jù)存儲。特別地,可以有效地訓(xùn)練具有一個或多個經(jīng)壓縮遞歸層的遞歸神經(jīng)網(wǎng)絡(luò),以實現(xiàn)與全尺寸(例如未經(jīng)壓縮的遞歸神經(jīng)網(wǎng)絡(luò))相當(dāng)?shù)男阅埽瑫r使用較少的數(shù)據(jù)存儲并且能夠通過以下方式更快地處理輸入:經(jīng)壓縮遞歸層的經(jīng)壓縮權(quán)重矩陣具有比未經(jīng)壓縮遞歸神經(jīng)網(wǎng)絡(luò)中的對應(yīng)層的權(quán)重矩陣少的參數(shù)。實際上,因為經(jīng)壓縮的遞歸神經(jīng)網(wǎng)絡(luò)具有較小的計算足跡,所以經(jīng)壓縮的網(wǎng)絡(luò)可以能夠有效地被實現(xiàn)為即使當(dāng)未經(jīng)壓縮的網(wǎng)絡(luò)不能在移動設(shè)備上運行時,也能夠在具有有限存儲和處理能力的移動設(shè)備上實時處理輸入。
在下面的附圖和描述中闡述了本說明書的主題的一個或多個實施例的細節(jié)。根據(jù)說明書、附圖和權(quán)利要求,主題的其他特征、方面和優(yōu)點將變得顯而易見。
附圖說明
圖1示出了示例神經(jīng)網(wǎng)絡(luò)系統(tǒng)。
圖2是用于經(jīng)壓縮遞歸神經(jīng)網(wǎng)絡(luò)的示例過程的流程圖。
圖3是用于針對特定遞歸層壓縮層間權(quán)重矩陣和遞歸權(quán)重矩陣的示例過程的流程圖。
各個附圖中相同的附圖標(biāo)號和名稱指示相同的元素。
具體實施方式
圖1示出了示例神經(jīng)網(wǎng)絡(luò)系統(tǒng)100。神經(jīng)網(wǎng)絡(luò)系統(tǒng)100是被實現(xiàn)為其中實現(xiàn)了下面描述的系統(tǒng)、組件和技術(shù)的在一個或多個位置中的一個或多個計算機上的計算機程序的系統(tǒng)的示例。
神經(jīng)網(wǎng)絡(luò)系統(tǒng)100是機器學(xué)習(xí)系統(tǒng),其在多個時間步長中的每一個處接收相應(yīng)的神經(jīng)網(wǎng)絡(luò)輸入,并且在每個時間步長處生成相應(yīng)的神經(jīng)網(wǎng)絡(luò)輸出。也就是說,在多個時間步長中的每一個處,神經(jīng)網(wǎng)絡(luò)系統(tǒng)100接收神經(jīng)網(wǎng)絡(luò)輸入并處理神經(jīng)網(wǎng)絡(luò)輸入以生成神經(jīng)網(wǎng)絡(luò)輸出。例如,在給定的時間步長t處,神經(jīng)網(wǎng)絡(luò)系統(tǒng)100可以接收神經(jīng)網(wǎng)絡(luò)輸入102并且生成神經(jīng)網(wǎng)絡(luò)輸出142。
神經(jīng)網(wǎng)絡(luò)系統(tǒng)100可以將所生成的神經(jīng)網(wǎng)絡(luò)輸出存儲在輸出數(shù)據(jù)存儲庫中或者提供神經(jīng)網(wǎng)絡(luò)輸出以用于某些其他直接目的。
神經(jīng)網(wǎng)絡(luò)系統(tǒng)100可以被配置為接收任何種類的數(shù)字?jǐn)?shù)據(jù)輸入并且基于該輸入生成任何種類的分?jǐn)?shù)或分類輸出。
例如,如果到神經(jīng)網(wǎng)絡(luò)系統(tǒng)100的輸入是圖像或已經(jīng)從圖像提取的特征,則由神經(jīng)網(wǎng)絡(luò)系統(tǒng)100針對給定圖像所生成的輸出可以是針對對象類別集中的每一個類別的評分,其中每個分?jǐn)?shù)表示圖像包含屬于該類別的對象的圖像的估計似然率。
作為另一示例,如果到神經(jīng)網(wǎng)絡(luò)系統(tǒng)100的輸入是互聯(lián)網(wǎng)資源(例如,網(wǎng)頁)、文檔或文檔的部分或從互聯(lián)網(wǎng)資源、文檔或文檔的部分提取的特征,則由用于給定的互聯(lián)網(wǎng)資源,則神經(jīng)網(wǎng)絡(luò)系統(tǒng)100針對給定的互聯(lián)網(wǎng)資源、文檔或文檔的部分所生成的輸出可以是一組主題中的每一個的分?jǐn)?shù),其中每個分?jǐn)?shù)代表互聯(lián)網(wǎng)資源、文檔或文檔部分關(guān)于所述話題的估計似然率。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于谷歌公司,未經(jīng)谷歌公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611262293.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 硬件神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法、計算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡(luò)
- 神經(jīng)網(wǎng)絡(luò)的生成方法、生成裝置和電子設(shè)備
- 一種舌診方法、裝置、計算設(shè)備及計算機存儲介質(zhì)
- 學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
- 脈沖神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法及相關(guān)轉(zhuǎn)換芯片
- 圖像處理方法、裝置、可讀存儲介質(zhì)和計算機設(shè)備
- 一種適應(yīng)目標(biāo)數(shù)據(jù)集的網(wǎng)絡(luò)模型微調(diào)方法、系統(tǒng)、終端和存儲介質(zhì)
- 用于重構(gòu)人工神經(jīng)網(wǎng)絡(luò)的處理器及其操作方法、電氣設(shè)備
- 一種圖像神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化方法及裝置





