[發(fā)明專利]使用軟最近鄰損失的神經(jīng)網(wǎng)絡(luò)訓(xùn)練在審
| 申請?zhí)枺?/td> | 202080010180.5 | 申請日: | 2020-01-22 |
| 公開(公告)號: | CN113330462A | 公開(公告)日: | 2021-08-31 |
| 發(fā)明(設(shè)計(jì))人: | 杰弗里·E·欣頓;尼古拉斯·邁爾斯·維塞納·福羅斯特;尼古拉斯·蓋伊·羅伯特·帕佩爾諾特 | 申請(專利權(quán))人: | 谷歌有限責(zé)任公司 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08;G06N3/04 |
| 代理公司: | 中原信達(dá)知識產(chǎn)權(quán)代理有限責(zé)任公司 11219 | 代理人: | 鄧聰惠;周亞榮 |
| 地址: | 美國加利*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 使用 近鄰 損失 神經(jīng)網(wǎng)絡(luò) 訓(xùn)練 | ||
用于訓(xùn)練分類神經(jīng)網(wǎng)絡(luò)的方法、系統(tǒng)和裝置,包括在計(jì)算機(jī)存儲介質(zhì)上編碼的計(jì)算機(jī)程序。在一個(gè)方面,一種方法包括:對多個(gè)網(wǎng)絡(luò)輸入中的每一個(gè)網(wǎng)絡(luò)輸入:使用分類神經(jīng)網(wǎng)絡(luò)處理網(wǎng)絡(luò)輸入以生成定義網(wǎng)絡(luò)輸入的預(yù)測類別的分類輸出;確定軟最近鄰損失,其中,軟最近鄰損失鼓勵(lì)不同類別的網(wǎng)絡(luò)輸入的中間表示變得更加糾纏,其中,不同類別的網(wǎng)絡(luò)輸入的中間表示的糾纏表征了不同類別的網(wǎng)絡(luò)輸入的中間表示對相對于同一類別的網(wǎng)絡(luò)輸入的中間表示對的相似程度;以及使用軟最近鄰損失相對于分類神經(jīng)網(wǎng)絡(luò)參數(shù)的梯度來調(diào)整分類神經(jīng)網(wǎng)絡(luò)參數(shù)的當(dāng)前值。
技術(shù)領(lǐng)域
本說明書涉及使用機(jī)器學(xué)習(xí)模型處理數(shù)據(jù)。
背景技術(shù)
機(jī)器學(xué)習(xí)模型接收輸入,并基于所接收的輸入生成輸出,例如,預(yù)測輸出。一些機(jī)器學(xué)習(xí)模型是參數(shù)模型,并且基于所接收的輸入和模型的參數(shù)的值生成輸出。
一些機(jī)器學(xué)習(xí)模型是采用多層模型對所接收的輸入生成輸出的深度模型。例如,深度神經(jīng)網(wǎng)絡(luò)是包括輸出層以及一個(gè)或多個(gè)隱藏層的深度機(jī)器學(xué)習(xí)模型,每個(gè)隱藏層將非線性變換應(yīng)用于所接收的輸入以生成輸出
發(fā)明內(nèi)容
本說明書描述了被實(shí)現(xiàn)為在一個(gè)或多個(gè)位置的一個(gè)或多個(gè)計(jì)算機(jī)上的計(jì)算機(jī)程序的訓(xùn)練系統(tǒng),該訓(xùn)練系統(tǒng)被配置為使用軟最近鄰損失(soft nearest neighbor loss)訓(xùn)練分類神經(jīng)網(wǎng)絡(luò)和生成神經(jīng)網(wǎng)絡(luò)。
根據(jù)第一方面,提供一種由一個(gè)或多個(gè)數(shù)據(jù)處理裝置執(zhí)行的用于訓(xùn)練分類神經(jīng)網(wǎng)絡(luò)的方法,所述方法包括:對于多個(gè)網(wǎng)絡(luò)輸入中的每一個(gè)網(wǎng)絡(luò)輸入:根據(jù)分類神經(jīng)網(wǎng)絡(luò)參數(shù)的當(dāng)前值,使用所述分類神經(jīng)網(wǎng)絡(luò)處理所述網(wǎng)絡(luò)輸入,以生成定義所述網(wǎng)絡(luò)輸入的預(yù)測類別的分類輸出。對于包括來自多個(gè)網(wǎng)絡(luò)輸入的第一網(wǎng)絡(luò)輸入和第二網(wǎng)絡(luò)輸入的多對網(wǎng)絡(luò)輸入中的每一對網(wǎng)絡(luò)輸入,基于以下兩者之間的相應(yīng)相似性度量來確定軟最近鄰損失:(i)所述第一網(wǎng)絡(luò)輸入的中間表示,所述第一網(wǎng)絡(luò)輸入的中間表示由所述分類神經(jīng)網(wǎng)絡(luò)的一個(gè)或多個(gè)隱藏層通過處理所述第一網(wǎng)絡(luò)輸入以生成用于所述第一網(wǎng)絡(luò)輸入的分類輸出而生成,以及(ii)所述第二網(wǎng)絡(luò)輸入的中間表示,所述第二網(wǎng)絡(luò)輸入的中間表示由所述分類神經(jīng)網(wǎng)絡(luò)的一個(gè)或多個(gè)隱藏層通過處理所述第二網(wǎng)絡(luò)輸入以生成用于所述第二網(wǎng)絡(luò)輸入的分類輸出而生成。所述軟最近鄰損失鼓勵(lì)不同類別的網(wǎng)絡(luò)輸入的中間表示變得更加糾纏,其中,不同類別的網(wǎng)絡(luò)輸入的中間表示的糾纏表征了不同類別的網(wǎng)絡(luò)輸入的中間表示對相對于同一類別的網(wǎng)絡(luò)輸入的中間表示對的相似程度。使用軟最近鄰損失相對于所述分類神經(jīng)網(wǎng)絡(luò)參數(shù)的梯度來調(diào)整所述分類神經(jīng)網(wǎng)絡(luò)參數(shù)的當(dāng)前值。
在一些實(shí)現(xiàn)方式中,確定軟最近鄰損失包括:對于多個(gè)網(wǎng)絡(luò)輸入中的每個(gè)給定網(wǎng)絡(luò)輸入:確定給定網(wǎng)絡(luò)輸入的類內(nèi)變化,所述給定網(wǎng)絡(luò)輸入的類內(nèi)變化表征所述給定網(wǎng)絡(luò)輸入的中間表示與屬于與所述給定網(wǎng)絡(luò)輸入同一類別的所述多個(gè)網(wǎng)絡(luò)輸入中的其他網(wǎng)絡(luò)輸入的中間表示的相似程度。確定所述給定網(wǎng)絡(luò)輸入的總變化,所述給定網(wǎng)絡(luò)輸入的總變化表征所述給定網(wǎng)絡(luò)輸入的中間表示與屬于任何類別的所述多個(gè)網(wǎng)絡(luò)輸入中的其他網(wǎng)絡(luò)輸入的中間表示的相似程度。確定所述給定網(wǎng)絡(luò)輸入的所述類內(nèi)變化與所述總變化的比率;以及基于用于每個(gè)給定網(wǎng)絡(luò)輸入的類內(nèi)變化與總變化的各個(gè)比率確定所述軟最近鄰損失。
在一些實(shí)現(xiàn)方式中,確定用于所述給定網(wǎng)絡(luò)輸入的類內(nèi)變化包括確定:
其中,j索引所述多個(gè)網(wǎng)絡(luò)輸入的網(wǎng)絡(luò)輸入,b是所述多個(gè)網(wǎng)絡(luò)輸入中的網(wǎng)絡(luò)輸入的總數(shù),i是所述給定網(wǎng)絡(luò)輸入的索引,yi表示所述給定網(wǎng)絡(luò)輸入的類別,yj表示對應(yīng)于索引j的網(wǎng)絡(luò)輸入的類別,xi表示所述給定網(wǎng)絡(luò)輸入的中間表示,xj表示對應(yīng)于索引j的網(wǎng)絡(luò)輸入的中間表示,S(·,·)是相似性度量,T是溫度參數(shù)。
在一些實(shí)現(xiàn)方式中,確定用于所述給定網(wǎng)絡(luò)輸入的總變化包括確定:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于谷歌有限責(zé)任公司,未經(jīng)谷歌有限責(zé)任公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202080010180.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 硬件神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法、計(jì)算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡(luò)
- 神經(jīng)網(wǎng)絡(luò)的生成方法、生成裝置和電子設(shè)備
- 一種舌診方法、裝置、計(jì)算設(shè)備及計(jì)算機(jī)存儲介質(zhì)
- 學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
- 脈沖神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法及相關(guān)轉(zhuǎn)換芯片
- 圖像處理方法、裝置、可讀存儲介質(zhì)和計(jì)算機(jī)設(shè)備
- 一種適應(yīng)目標(biāo)數(shù)據(jù)集的網(wǎng)絡(luò)模型微調(diào)方法、系統(tǒng)、終端和存儲介質(zhì)
- 用于重構(gòu)人工神經(jīng)網(wǎng)絡(luò)的處理器及其操作方法、電氣設(shè)備
- 一種圖像神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化方法及裝置





