[發(fā)明專(zhuān)利]基于神經(jīng)網(wǎng)絡(luò)的工具變量生成與手寫(xiě)數(shù)字識(shí)別方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 202011493947.2 | 申請(qǐng)日: | 2020-12-16 |
| 公開(kāi)(公告)號(hào): | CN112633503B | 公開(kāi)(公告)日: | 2023-08-22 |
| 發(fā)明(設(shè)計(jì))人: | 況琨;袁俊坤;吳飛;林蘭芬 | 申請(qǐng)(專(zhuān)利權(quán))人: | 浙江大學(xué) |
| 主分類(lèi)號(hào): | G06N5/04 | 分類(lèi)號(hào): | G06N5/04;G06N3/04 |
| 代理公司: | 杭州求是專(zhuān)利事務(wù)所有限公司 33200 | 代理人: | 傅朝棟;張法高 |
| 地址: | 310058 浙江*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 神經(jīng)網(wǎng)絡(luò) 工具 變量 生成 手寫(xiě) 數(shù)字 識(shí)別 方法 裝置 | ||
1.一種基于神經(jīng)網(wǎng)絡(luò)的工具變量生成與手寫(xiě)數(shù)字識(shí)別方法,其特征在于,包括如下步驟:
S1:獲取手寫(xiě)數(shù)字圖片數(shù)據(jù)作為干預(yù),獲取手寫(xiě)數(shù)字圖片的標(biāo)簽數(shù)據(jù)作為結(jié)果,將手寫(xiě)數(shù)字圖片和標(biāo)簽構(gòu)建成反事實(shí)預(yù)測(cè)數(shù)據(jù)集,所述反事實(shí)預(yù)測(cè)數(shù)據(jù)集表示為其中vi,xi,yi分別為第i個(gè)樣本的可觀測(cè)變量、干預(yù)和結(jié)果,其中樣本的可觀測(cè)變量以該樣本對(duì)應(yīng)的手寫(xiě)數(shù)字圖片本身代替,N為樣本總數(shù);
S2:使用互信息約束的方法,對(duì)工具變量和其他協(xié)變量的表征設(shè)置約束,用于進(jìn)行初步的表征學(xué)習(xí),具體步驟如下:
S201:基于神經(jīng)網(wǎng)絡(luò)構(gòu)建以可觀測(cè)變量V為輸入以工具變量Z為輸出的第一表征模型φZ(·),同時(shí)基于神經(jīng)網(wǎng)絡(luò)構(gòu)建以可觀測(cè)變量V為輸入以其他協(xié)變量C為輸出的第二表征模型φC(·);
S202:基于神經(jīng)網(wǎng)絡(luò)構(gòu)建以工具變量Z為輸入以干預(yù)變量X為輸出的第一約束網(wǎng)絡(luò)fZX(·),設(shè)定第一約束網(wǎng)絡(luò)的損失函數(shù)為:
其中:為第一約束網(wǎng)絡(luò)fZX(·)中以φZ(vi)為輸入去預(yù)測(cè)xi時(shí)得到的變分分布;φZ(vi)為第一表征模型φZ(·)中輸入vi時(shí)得到的輸出結(jié)果;log表示對(duì)數(shù)似然函數(shù);
另外,針對(duì)第一約束網(wǎng)絡(luò)設(shè)定互信息最大化損失函數(shù)為:
S203:基于神經(jīng)網(wǎng)絡(luò)構(gòu)建以工具變量Z為輸入以結(jié)果變量Y為輸出的第二約束網(wǎng)絡(luò)fZY(·),設(shè)定第二約束網(wǎng)絡(luò)的損失函數(shù)為:
其中:為第二約束網(wǎng)絡(luò)fZY(·)中以φZ(vi)為輸入去預(yù)測(cè)yi時(shí)得到的變分分布;
另外,針對(duì)第二約束網(wǎng)絡(luò)設(shè)定互信息最大化損失函數(shù)為:
其中:ωij為由第i個(gè)樣本的干預(yù)xi和第j個(gè)樣本的干預(yù)xj之間距離決定的權(quán)重;
S204:基于神經(jīng)網(wǎng)絡(luò)構(gòu)建以其他協(xié)變量C為輸入以干預(yù)變量X為輸出的第三約束網(wǎng)絡(luò)fCX(·),設(shè)定第三約束網(wǎng)絡(luò)的損失函數(shù)為:
其中:為第三約束網(wǎng)絡(luò)fCX(·)中以φC(vi)為輸入去預(yù)測(cè)xi時(shí)得到的變分分布;φC(vi)表示第二表征模型φC(·)中輸入vi時(shí)得到的輸出結(jié)果;
另外,針對(duì)第三約束網(wǎng)絡(luò)設(shè)定互信息最大化損失函數(shù)為:
S205:基于神經(jīng)網(wǎng)絡(luò)構(gòu)建以其他協(xié)變量C為輸入以結(jié)果變量Y為輸出的第四約束網(wǎng)絡(luò)fCY(·),設(shè)定第四約束網(wǎng)絡(luò)的損失函數(shù)為:
其中:為第四約束網(wǎng)絡(luò)fCY(·)中以φC(vi)為輸入去預(yù)測(cè)yi時(shí)得到的變分分布;
另外,針對(duì)第四約束網(wǎng)絡(luò)設(shè)定互信息最大化損失函數(shù)為:
S206:基于神經(jīng)網(wǎng)絡(luò)構(gòu)建以工具變量Z為輸入以其他協(xié)變量C為輸出的第五約束網(wǎng)絡(luò)fZC(·),設(shè)定第五約束網(wǎng)絡(luò)的損失函數(shù)為:
其中:為第五約束網(wǎng)絡(luò)fZC(·)中以φZ(vi)為輸入去預(yù)測(cè)φC(vi)時(shí)得到的變分分布;
另外,針對(duì)第五約束網(wǎng)絡(luò)設(shè)定互信息最大化損失函數(shù)為:
S3:基于兩階段反事實(shí)預(yù)測(cè)技術(shù)設(shè)置額外約束,用于對(duì)初步學(xué)習(xí)到的解耦表征進(jìn)一步優(yōu)化,具體步驟如下:
S301:基于神經(jīng)網(wǎng)絡(luò)構(gòu)建以工具變量Z的表征φZ(vi)和其他協(xié)變量C的表征φC(vi)為輸入以干預(yù)變量X為輸出的第一階段回歸網(wǎng)絡(luò)fX(·),并設(shè)定第一階段回歸網(wǎng)絡(luò)的損失函數(shù)為:
其中l(wèi)(·)表示計(jì)算平方誤差;
S302:基于神經(jīng)網(wǎng)絡(luò)構(gòu)建以和其他協(xié)變量C的表征φC(vi)為輸入以結(jié)果變量Y為輸出的第二階段回歸網(wǎng)絡(luò)fY(·),并設(shè)定第二階段回歸網(wǎng)絡(luò)的損失函數(shù)為:
其中:femb(·)為用于擴(kuò)充干預(yù)變量維度的映射網(wǎng)絡(luò),表示第一階段回歸網(wǎng)絡(luò)fX(·)輸出的干預(yù)變量X估計(jì)值,
S4:基于所述的反事實(shí)預(yù)測(cè)數(shù)據(jù)集,通過(guò)交替優(yōu)化S2和S3中設(shè)置的約束,獲得優(yōu)化后的工具變量和其他協(xié)變量的表征模型,具體步驟如下:
S401:將所有五個(gè)約束網(wǎng)絡(luò)的損失函數(shù)進(jìn)行整合得到綜合損失函數(shù):
利用所述反事實(shí)預(yù)測(cè)數(shù)據(jù)集對(duì)五個(gè)約束網(wǎng)絡(luò)進(jìn)行訓(xùn)練,通過(guò)最小化所述綜合損失函數(shù)分別優(yōu)化各約束網(wǎng)絡(luò)中的網(wǎng)絡(luò)參數(shù);
S402:將所有五個(gè)約束網(wǎng)絡(luò)的互信息最大化損失函數(shù)進(jìn)行整合得到綜合互信息損失函數(shù):
其中:α、β、∈、η是權(quán)重超參數(shù);
利用所述反事實(shí)預(yù)測(cè)數(shù)據(jù)集對(duì)第一表征模型φZ(·)和第二表征模型φC(·)進(jìn)行訓(xùn)練,通過(guò)最小化所述綜合互信息損失函數(shù)分別優(yōu)化兩個(gè)表征模型中的網(wǎng)絡(luò)參數(shù);
S403:利用所述反事實(shí)預(yù)測(cè)數(shù)據(jù)集對(duì)第一表征模型φZ(·)和第二表征模型φC(·)進(jìn)行訓(xùn)練,通過(guò)最小化所述第一階段回歸網(wǎng)絡(luò)的損失函數(shù)優(yōu)化第一階段回歸網(wǎng)絡(luò)以及兩個(gè)表征模型中的網(wǎng)絡(luò)參數(shù);
S404:利用所述反事實(shí)預(yù)測(cè)數(shù)據(jù)集繼續(xù)對(duì)第一表征模型φZ(·)和第二表征模型φC(·)進(jìn)行訓(xùn)練,通過(guò)最小化所述第二階段回歸網(wǎng)絡(luò)的損失函數(shù)優(yōu)化第二階段回歸網(wǎng)絡(luò)、映射網(wǎng)絡(luò)以及兩個(gè)表征模型中的網(wǎng)絡(luò)參數(shù);
S405:不斷迭代重復(fù)S401~S405,使被用于交替訓(xùn)練對(duì)應(yīng)的網(wǎng)絡(luò)參數(shù),直至迭代終止,得到參數(shù)優(yōu)化后的第一表征模型φ′φ(·)和第二表征模型φ′C(·);
S5:針對(duì)待識(shí)別的手寫(xiě)數(shù)字圖片,利用優(yōu)化后的表征模型,得到工具變量和其他協(xié)變量的表征,并將其應(yīng)用于基于工具變量的反事實(shí)預(yù)測(cè)模型中,輸出手寫(xiě)數(shù)字圖片中手寫(xiě)數(shù)字的識(shí)別結(jié)果。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于浙江大學(xué),未經(jīng)浙江大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011493947.2/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 硬件神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法、計(jì)算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡(luò)
- 神經(jīng)網(wǎng)絡(luò)的生成方法、生成裝置和電子設(shè)備
- 一種舌診方法、裝置、計(jì)算設(shè)備及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
- 脈沖神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法及相關(guān)轉(zhuǎn)換芯片
- 圖像處理方法、裝置、可讀存儲(chǔ)介質(zhì)和計(jì)算機(jī)設(shè)備
- 一種適應(yīng)目標(biāo)數(shù)據(jù)集的網(wǎng)絡(luò)模型微調(diào)方法、系統(tǒng)、終端和存儲(chǔ)介質(zhì)
- 用于重構(gòu)人工神經(jīng)網(wǎng)絡(luò)的處理器及其操作方法、電氣設(shè)備
- 一種圖像神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化方法及裝置
- 一種基于變量的配置化計(jì)算邏輯的多變量計(jì)算方法和裝置
- 數(shù)據(jù)分析支援裝置
- 流程模型整合系統(tǒng)的變量定義更改裝置與方法
- 終端測(cè)試裝置、終端測(cè)試設(shè)備及變量維護(hù)方法
- 估計(jì)目標(biāo)變量對(duì)結(jié)果變量的因果效應(yīng)的方法、裝置和系統(tǒng)
- 用戶行為模擬方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種變量泵變量控制裝置及其變量泵變量控制方法
- 一種應(yīng)用程序的編譯方法及設(shè)備
- 一種基于全局變量的家居參數(shù)化模型建模系統(tǒng)及方法
- 一種便于變量彈簧定位的變量滑塊以及變量泵





