[發明專利]使用變分信息瓶頸來訓練神經網絡在審
| 申請號: | 201780066234.8 | 申請日: | 2017-11-03 |
| 公開(公告)號: | CN109923560A | 公開(公告)日: | 2019-06-21 |
| 發明(設計)人: | 亞歷山大·埃米爾·阿勒米 | 申請(專利權)人: | 谷歌有限責任公司 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08;G06N3/04 |
| 代理公司: | 中原信達知識產權代理有限責任公司 11219 | 代理人: | 李寶泉;周亞榮 |
| 地址: | 美國加利*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 訓練神經網絡 神經網絡 輸入生成 信息瓶頸 訓練數據 網絡輸出 互信息 網絡 計算機存儲介質 計算機程序 目標輸出 輸入轉換 配置 | ||
1.一種方法,包括:
接收訓練數據,所述訓練數據包括多個訓練輸入以及針對每個訓練輸入的相應的目標輸出;
在所述訓練數據上訓練神經網絡,其中,所述神經網絡被配置成:
接收網絡輸入,
將所述網絡輸入轉換成所述網絡輸入的潛在表示,并且
處理所述潛在表示以從所述網絡輸入生成網絡輸出,
其中,在所述訓練數據上訓練所述神經網絡包括在變分信息瓶頸目標上訓練所述神經網絡,所述變分信息瓶頸目標對于每個訓練輸入鼓勵針對該訓練輸入生成的所述潛在表示與該訓練輸入具有低的互信息,同時針對該訓練輸入生成的所述網絡輸出與針對該訓練輸入的所述目標輸出具有高的互信息;以及
提供指定經訓練的神經網絡的數據以供在處理新網絡輸入時使用。
2.根據權利要求1所述的方法,其中,所述神經網絡是隨機神經網絡,并且其中,所述神經網絡被配置成:
處理所述網絡輸入以生成中間輸出,所述中間輸出定義在可能的潛在表示上的分布;以及
根據通過所述中間輸出所定義的所述分布對所述網絡輸入的潛在表示進行采樣。
3.根據權利要求2所述的方法,其中,對所述潛在表示進行采樣包括:
根據獨立于所述中間輸出的預先確定的噪聲分布對噪聲進行采樣;以及
從經采樣的噪聲和所述中間輸出生成所述潛在表示。
4.根據權利要求1至3中的任一項所述的方法,其中,訓練所述神經網絡包括:
對于每個訓練輸入,在所述變分信息瓶頸目標的下界上執行隨機梯度下降的迭代以確定對所述神經網絡的參數的當前值的更新。
5.根據權利要求4所述的方法,其中,所述下界取決于在針對所述訓練輸入的所述潛在表示的情況下針對所述訓練輸入的所述網絡輸出的可能性的變分近似。
6.根據權利要求4或5中的任一項所述的方法,其中,所述下界取決于針對所述訓練輸入的所述潛在表示的邊際分布的變分近似。
7.根據權利要求4至6中的任一項所述的方法,其中,所述下界被表示為對于給定訓練輸入xn滿足下式的最小化的目標函數:
其中,N是訓練數據集中的訓練輸入的總數,q(yn|f(xn,∈))是通過針對所述訓練輸入xn的所述網絡輸出指派給針對所述訓練輸入xn的所述目標輸出的分數,∈是從噪聲分布采樣的噪聲,f(xn,∈)是從經采樣的噪聲和針對所述訓練輸入xn的所述中間輸出生成的所述潛在表示,KL是Kullback-Leibler發散,p(Z|xn)是在通過所述中間輸出所定義的可能的潛在表示上的概率分布,并且r(Z)是所述潛在表示的邊際分布的變分近似。
8.根據權利要求1至7中的任一項所述的方法,其中,經訓練的神經網絡抵抗對抗性擾動。
9.根據權利要求8所述的方法,其中,經訓練的神經網絡針對測試輸入和所述測試輸入的最小擾動生成相同的網絡輸出。
10.一種系統,包括一個或多個計算機和存儲指令的一個或多個存儲設備,所述指令在由所述一個或多個計算機執行時使所述一個或多個計算機執行根據權利要求1至9中的任一項所述的相應方法的操作。
11.存儲指令的一個或多個計算機存儲介質,所述指令在由一個或多個計算機執行時使所述一個或多個計算機執行根據權利要求1至9中的任一項所述的相應方法的操作。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于谷歌有限責任公司,未經谷歌有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201780066234.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:準循環神經網絡
- 下一篇:使用相關元啟發法的分區





