[發(fā)明專利]用于使用跨域批量歸一化進(jìn)行神經(jīng)網(wǎng)絡(luò)中的域適配的系統(tǒng)和方法在審
| 申請(qǐng)?zhí)枺?/td> | 201980072165.0 | 申請(qǐng)日: | 2019-07-12 |
| 公開(公告)號(hào): | CN112955913A | 公開(公告)日: | 2021-06-11 |
| 發(fā)明(設(shè)計(jì))人: | R.陳;M-H.陳;J.俞;X.劉 | 申請(qǐng)(專利權(quán))人: | 索尼互動(dòng)娛樂股份有限公司 |
| 主分類號(hào): | G06N20/00 | 分類號(hào): | G06N20/00;G06N3/02 |
| 代理公司: | 北京市柳沈律師事務(wù)所 11105 | 代理人: | 張曉明 |
| 地址: | 日本*** | 國(guó)省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用于 使用 批量 歸一化 進(jìn)行 神經(jīng)網(wǎng)絡(luò) 中的 域適配 系統(tǒng) 方法 | ||
域適配模塊(1800)用于使用來自域的相應(yīng)平行隱藏層的相應(yīng)輸出來優(yōu)化從第二域(1802)導(dǎo)出的第一域(1804)。
技術(shù)領(lǐng)域
本申請(qǐng)總體上涉及技術(shù)上有創(chuàng)造性的非常規(guī)解決方案,這些解決方案必須植根于計(jì)算機(jī)技術(shù)并產(chǎn)生具體的技術(shù)改進(jìn)。
背景技術(shù)
機(jī)器學(xué)習(xí)(有時(shí)稱為深度學(xué)習(xí))可用于與數(shù)據(jù)理解、檢測(cè)和/或分類有關(guān)的各種有用應(yīng)用,包括圖像分類、光學(xué)字符識(shí)別(OCR)、對(duì)象識(shí)別、動(dòng)作識(shí)別、語音識(shí)別以及情緒識(shí)別。然而,如本文中所理解的,機(jī)器學(xué)習(xí)系統(tǒng)可能不足以使用來自另一個(gè)域的訓(xùn)練數(shù)據(jù)集(例如,電影視頻)來識(shí)別例如一個(gè)域(諸如計(jì)算機(jī)游戲)中的動(dòng)作。
例如,在計(jì)算機(jī)游戲行業(yè)中,視頻和音頻是兩個(gè)獨(dú)立的過程。首先設(shè)計(jì)和制作沒有音頻的游戲,然后音頻小組調(diào)查整個(gè)游戲視頻,并從音效(SFX)數(shù)據(jù)庫(kù)中插入對(duì)應(yīng)SFX,這非常耗時(shí)。如本文所理解的,機(jī)器學(xué)習(xí)可以用于加速該過程,但是當(dāng)前動(dòng)作識(shí)別模型是在真實(shí)世界視頻數(shù)據(jù)集上訓(xùn)練的,從而使它們?cè)谟糜谟螒蛞曨l時(shí)受到數(shù)據(jù)集移位或數(shù)據(jù)集偏差的影響。
發(fā)明內(nèi)容
為了克服上述域不匹配問題,訓(xùn)練數(shù)據(jù)(圖像或視頻或音頻)的至少兩個(gè)通用域用于對(duì)目標(biāo)數(shù)據(jù)集進(jìn)行分類。可以通過例如真實(shí)世界視頻和計(jì)算機(jī)游戲視頻、第一和第二說話者語音(用于語音識(shí)別)、標(biāo)準(zhǔn)字體文本和草書(用于手寫識(shí)別)等來建立一對(duì)訓(xùn)練數(shù)據(jù)域。
因此,由損失函數(shù)和/或?qū)嶋H神經(jīng)網(wǎng)絡(luò)建立的通用域適配模塊從深度學(xué)習(xí)的兩個(gè)訓(xùn)練域接收來自多個(gè)輸出點(diǎn)的輸入,并提供輸出測(cè)度,使得可以對(duì)神經(jīng)網(wǎng)絡(luò)的兩個(gè)軌跡中的一個(gè)以及可能兩個(gè)進(jìn)行優(yōu)化。也可以使用通用的跨域特征歸一化模塊,并將其插入到神經(jīng)網(wǎng)絡(luò)的任一層中。
因此,在一個(gè)方面,設(shè)備包括至少一個(gè)處理器和至少一個(gè)計(jì)算機(jī)存儲(chǔ)裝置,所述計(jì)算機(jī)存儲(chǔ)裝置不是瞬時(shí)信號(hào)并且包括可由至少一個(gè)處理器執(zhí)行的指令。所述指令可執(zhí)行以:訪問與第一數(shù)據(jù)類型相關(guān)聯(lián)的第一神經(jīng)網(wǎng)絡(luò);訪問與不同于第一數(shù)據(jù)類型的第二數(shù)據(jù)類型相關(guān)聯(lián)的第二神經(jīng)網(wǎng)絡(luò);將第一訓(xùn)練數(shù)據(jù)作為輸入提供給第一神經(jīng)網(wǎng)絡(luò);以及將第二訓(xùn)練數(shù)據(jù)作為輸入提供給第二神經(jīng)網(wǎng)絡(luò)。第一訓(xùn)練數(shù)據(jù)不同于第二訓(xùn)練數(shù)據(jù)。所述指令還可執(zhí)行以:識(shí)別來自第一神經(jīng)網(wǎng)絡(luò)的中間層的第一輸出,其中第一輸出是基于第一訓(xùn)練數(shù)據(jù);以及識(shí)別來自第二神經(jīng)網(wǎng)絡(luò)的中間層的第二輸出,其中第二輸出是基于第二訓(xùn)練數(shù)據(jù)。第一神經(jīng)網(wǎng)絡(luò)和第二神經(jīng)網(wǎng)絡(luò)的相應(yīng)中間層是平行的層。所述指令還可執(zhí)行以:識(shí)別用于對(duì)第一輸出和第二輸出進(jìn)行歸一化的比率;以及應(yīng)用將所述比率考慮在內(nèi)的方程式來改變第二神經(jīng)網(wǎng)絡(luò)的中間層的一個(gè)或多個(gè)權(quán)重。
在一些示例中,比率可以與平均值有關(guān)。此外,可以對(duì)第一輸出與第二輸出之間的均值和方差兩者進(jìn)行分析以應(yīng)用方程式。使用跨域批量歸一化(CDBN)可以識(shí)別比率并且可以應(yīng)用方程式。
在一些實(shí)現(xiàn)方式中,在將第二訓(xùn)練數(shù)據(jù)提供給第二神經(jīng)網(wǎng)絡(luò)之前,可以通過第一神經(jīng)網(wǎng)絡(luò)的副本建立第二神經(jīng)網(wǎng)絡(luò)。此外,第一神經(jīng)網(wǎng)絡(luò)和第二神經(jīng)網(wǎng)絡(luò)的中間層可以是除輸出層之外的層。
而且,在一些實(shí)現(xiàn)方式中,第一訓(xùn)練數(shù)據(jù)可以與第二訓(xùn)練數(shù)據(jù)相關(guān)。因此,例如,在第一神經(jīng)網(wǎng)絡(luò)和第二神經(jīng)網(wǎng)絡(luò)與動(dòng)作識(shí)別有關(guān)的情況下,第一訓(xùn)練數(shù)據(jù)可以與第二訓(xùn)練數(shù)據(jù)相關(guān),因?yàn)榈谝挥?xùn)練數(shù)據(jù)和第二訓(xùn)練數(shù)據(jù)兩者都可以與同一動(dòng)作有關(guān)。作為另一示例,在第一神經(jīng)網(wǎng)絡(luò)和第二神經(jīng)網(wǎng)絡(luò)與對(duì)象識(shí)別有關(guān)的情況下,第一訓(xùn)練數(shù)據(jù)可以與第二訓(xùn)練數(shù)據(jù)相關(guān),因?yàn)榈谝挥?xùn)練數(shù)據(jù)和第二訓(xùn)練數(shù)據(jù)兩者都可以與同一對(duì)象有關(guān)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于索尼互動(dòng)娛樂股份有限公司,未經(jīng)索尼互動(dòng)娛樂股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201980072165.0/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。





