[發(fā)明專利]使用變分信息瓶頸來訓(xùn)練神經(jīng)網(wǎng)絡(luò)在審
| 申請?zhí)枺?/td> | 201780066234.8 | 申請日: | 2017-11-03 |
| 公開(公告)號: | CN109923560A | 公開(公告)日: | 2019-06-21 |
| 發(fā)明(設(shè)計)人: | 亞歷山大·埃米爾·阿勒米 | 申請(專利權(quán))人: | 谷歌有限責(zé)任公司 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08;G06N3/04 |
| 代理公司: | 中原信達知識產(chǎn)權(quán)代理有限責(zé)任公司 11219 | 代理人: | 李寶泉;周亞榮 |
| 地址: | 美國加利*** | 國省代碼: | 美國;US |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 訓(xùn)練神經(jīng)網(wǎng)絡(luò) 神經(jīng)網(wǎng)絡(luò) 輸入生成 信息瓶頸 訓(xùn)練數(shù)據(jù) 網(wǎng)絡(luò)輸出 互信息 網(wǎng)絡(luò) 計算機存儲介質(zhì) 計算機程序 目標輸出 輸入轉(zhuǎn)換 配置 | ||
一種用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的方法、系統(tǒng)和裝置,包括在計算機存儲介質(zhì)上編碼的計算機程序。所述方法中的一種包括:接收訓(xùn)練數(shù)據(jù);在所述訓(xùn)練數(shù)據(jù)上訓(xùn)練神經(jīng)網(wǎng)絡(luò),其中,所述神經(jīng)網(wǎng)絡(luò)被配置成:接收網(wǎng)絡(luò)輸入,將所述網(wǎng)絡(luò)輸入轉(zhuǎn)換成所述網(wǎng)絡(luò)輸入的潛在表示,并且處理所述潛在表示以從所述網(wǎng)絡(luò)輸入生成網(wǎng)絡(luò)輸出,并且其中,在所述訓(xùn)練數(shù)據(jù)上訓(xùn)練所述神經(jīng)網(wǎng)絡(luò)包括在變分信息瓶頸目標上訓(xùn)練所述神經(jīng)網(wǎng)絡(luò),所述變分信息瓶頸目標對于每個訓(xùn)練輸入鼓勵針對所述訓(xùn)練輸入生成的所述潛在表示與所述訓(xùn)練輸入具有低的互信息,同時針對所述訓(xùn)練輸入生成的所述網(wǎng)絡(luò)輸出與針對所述訓(xùn)練輸入的所述目標輸出具有高的互信息。
技術(shù)領(lǐng)域
本說明書涉及訓(xùn)練神經(jīng)網(wǎng)絡(luò)。
背景技術(shù)
神經(jīng)網(wǎng)絡(luò)是采用非線性單元的一個或多個層來針對接收到的輸入預(yù)測輸出的機器學(xué)習(xí)模型。一些神經(jīng)網(wǎng)絡(luò)除了包括輸出層之外還包括一個或多個隱藏層。每個隱藏層的輸出被用作網(wǎng)絡(luò)中的下一個層(即,下一個隱藏層或輸出層)的輸入。網(wǎng)絡(luò)的每個層依照相應(yīng)組的參數(shù)的當(dāng)前值從接收到的輸入生成輸出。
一些神經(jīng)網(wǎng)絡(luò)是遞歸神經(jīng)網(wǎng)絡(luò)。遞歸神經(jīng)網(wǎng)絡(luò)是接收輸入序列并且從該輸入序列生成輸出序列的神經(jīng)網(wǎng)絡(luò)。特別地,遞歸神經(jīng)網(wǎng)絡(luò)可在當(dāng)前時間步計算輸出時使用網(wǎng)絡(luò)從前一個時間步起的內(nèi)部狀態(tài)中的一些或全部。遞歸神經(jīng)網(wǎng)絡(luò)的示例是包括一個或多個LSTM記憶塊的長短期(LSTM)神經(jīng)網(wǎng)絡(luò)。每個LSTM記憶塊可包括一個或多個細胞(cell),所述一個或多個細胞各自包括輸入門、遺忘門和輸出門,這些門允許細胞存儲該細胞的先前狀態(tài),例如,以用于在生成當(dāng)前激活時使用或者被提供給LSTM神經(jīng)網(wǎng)絡(luò)的其它組件。
發(fā)明內(nèi)容
本說明書一般地描述作為一個或多個位置中的一個或多個計算機實現(xiàn)的系統(tǒng),所述系統(tǒng)在訓(xùn)練數(shù)據(jù)上訓(xùn)練神經(jīng)網(wǎng)絡(luò),所述訓(xùn)練數(shù)據(jù)包括一組訓(xùn)練輸入以及針對每個訓(xùn)練輸入的相應(yīng)的目標輸出。
神經(jīng)網(wǎng)絡(luò)是被配置成接收網(wǎng)絡(luò)輸入、將網(wǎng)絡(luò)輸入轉(zhuǎn)換成網(wǎng)絡(luò)輸入的潛在表示并且處理潛在表示以從網(wǎng)絡(luò)輸入生成網(wǎng)絡(luò)輸出的神經(jīng)網(wǎng)絡(luò)。
特別地,系統(tǒng)在變分信息瓶頸目標上訓(xùn)練神經(jīng)網(wǎng)絡(luò),所述變分信息瓶頸目標對于每個訓(xùn)練輸入鼓勵針對訓(xùn)練輸入生成的潛在表示與訓(xùn)練輸入具有低的互信息,同時針對訓(xùn)練輸入生成的網(wǎng)絡(luò)輸出與針對訓(xùn)練輸入的目標輸出具有高的互信息。
因此在一個方面中,方法包括:接收訓(xùn)練數(shù)據(jù),所述訓(xùn)練數(shù)據(jù)包括多個訓(xùn)練輸入以及針對每個訓(xùn)練輸入的相應(yīng)的目標輸出;在訓(xùn)練數(shù)據(jù)上訓(xùn)練神經(jīng)網(wǎng)絡(luò),其中,神經(jīng)網(wǎng)絡(luò)被配置成:接收網(wǎng)絡(luò)輸入,將網(wǎng)絡(luò)輸入轉(zhuǎn)換成網(wǎng)絡(luò)輸入的潛在表示,并且處理潛在表示以從網(wǎng)絡(luò)輸入生成網(wǎng)絡(luò)輸出,并且其中,在訓(xùn)練數(shù)據(jù)上訓(xùn)練神經(jīng)網(wǎng)絡(luò)包括在變分信息瓶頸目標上訓(xùn)練神經(jīng)網(wǎng)絡(luò),所述變分信息瓶頸目標對于每個訓(xùn)練輸入鼓勵針對訓(xùn)練輸入生成的潛在表示與訓(xùn)練輸入具有低的互信息,同時針對訓(xùn)練輸入生成的網(wǎng)絡(luò)輸出與針對訓(xùn)練輸入的目標輸出具有高的互信息。
可選地,系統(tǒng)然后可提供指定經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)以用于在處理新網(wǎng)絡(luò)輸入時使用。
可實現(xiàn)本說明書中描述的主題的特定實施例以便實現(xiàn)以下優(yōu)點中的一個或多個。通過在上述目標上訓(xùn)練神經(jīng)網(wǎng)絡(luò),經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)可在推廣到新輸入時超過在不同目標上訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的性能,并且,如在下面更詳細地討論的,對對抗性攻擊更加魯棒。附加地,由經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)生成的預(yù)測分布將比在不同目標上訓(xùn)練網(wǎng)絡(luò)情況下被更好地校準。特別地,對神經(jīng)網(wǎng)絡(luò)的訓(xùn)練比在常規(guī)目標上訓(xùn)練相同網(wǎng)絡(luò)被更好地規(guī)則化。因此,通過以本說明書中描述的方式訓(xùn)練神經(jīng)網(wǎng)絡(luò),結(jié)果得到的訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)將是高性能的,同時還抵抗對抗性攻擊而不會在訓(xùn)練數(shù)據(jù)上過擬合。
在下面的附圖和描述中闡述本說明書中描述的主題的一個或多個實施例的細節(jié)。主題的其它特征、方面和優(yōu)點將根據(jù)說明書、附圖和權(quán)利要求書變得顯而易見。
附圖說明
圖1示出示例神經(jīng)網(wǎng)絡(luò)訓(xùn)練系統(tǒng)。
圖2是用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的示例過程的流程圖。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于谷歌有限責(zé)任公司,未經(jīng)谷歌有限責(zé)任公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201780066234.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法和裝置及命名實體識別方法和裝置
- 學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、訓(xùn)練裝置和電子設(shè)備
- 行人屬性識別模型實現(xiàn)方法及相關(guān)裝置
- 用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的方法和裝置
- 一種神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、存儲介質(zhì)和設(shè)備
- 神經(jīng)網(wǎng)絡(luò)訓(xùn)練和部署方法、文本翻譯方法及相關(guān)產(chǎn)品
- 神經(jīng)網(wǎng)絡(luò)生成方法及裝置、電子設(shè)備和存儲介質(zhì)
- 一種圖神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法及裝置
- 網(wǎng)絡(luò)量化方法及裝置、電子設(shè)備和存儲介質(zhì)
- 硬件神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法、計算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡(luò)
- 神經(jīng)網(wǎng)絡(luò)的生成方法、生成裝置和電子設(shè)備
- 一種舌診方法、裝置、計算設(shè)備及計算機存儲介質(zhì)
- 學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
- 脈沖神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法及相關(guān)轉(zhuǎn)換芯片
- 圖像處理方法、裝置、可讀存儲介質(zhì)和計算機設(shè)備
- 一種適應(yīng)目標數(shù)據(jù)集的網(wǎng)絡(luò)模型微調(diào)方法、系統(tǒng)、終端和存儲介質(zhì)
- 用于重構(gòu)人工神經(jīng)網(wǎng)絡(luò)的處理器及其操作方法、電氣設(shè)備
- 一種圖像神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化方法及裝置
- 一種以機器特征屬性為區(qū)間數(shù)的作業(yè)車間瓶頸識別方法
- 移動瓶頸影響下路段行程時間預(yù)測系統(tǒng)及實現(xiàn)方法
- SDN網(wǎng)絡(luò)MPTCP子流共享瓶頸路徑的發(fā)現(xiàn)調(diào)整方法
- 瓶頸上游車道級交通狀態(tài)預(yù)測系統(tǒng)及實現(xiàn)方法
- 一種基于浮動車軌跡數(shù)據(jù)的復(fù)合路網(wǎng)瓶頸點識別方法
- 電梯瓶頸確定方法與裝置及電梯信息推送方法與系統(tǒng)
- 一種產(chǎn)能瓶頸監(jiān)控方法、裝置、設(shè)備及存儲介質(zhì)
- 一種解釋和分析神經(jīng)網(wǎng)絡(luò)決策和表征的方法
- 基于分布式存儲的性能瓶頸預(yù)測方法、設(shè)備及存儲介質(zhì)
- 基于瓶頸資源定位及參數(shù)調(diào)優(yōu)的大數(shù)據(jù)平臺測試方法





