[發(fā)明專利]通過混合時(shí)域自適應(yīng)的視頻動(dòng)作分割在審
| 申請(qǐng)?zhí)枺?/td> | 202011371776.6 | 申請(qǐng)日: | 2020-11-30 |
| 公開(公告)號(hào): | CN112528780A | 公開(公告)日: | 2021-03-19 |
| 發(fā)明(設(shè)計(jì))人: | 李抱樸;陳敏弘;包英澤 | 申請(qǐng)(專利權(quán))人: | 百度(美國)有限責(zé)任公司 |
| 主分類號(hào): | G06K9/00 | 分類號(hào): | G06K9/00;G06N3/04;G06N3/08 |
| 代理公司: | 北京清亦華知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11201 | 代理人: | 韓海花 |
| 地址: | 美國加利福尼亞*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 通過 混合 時(shí)域 自適應(yīng) 視頻 動(dòng)作 分割 | ||
1.一種用于訓(xùn)練視頻分割系統(tǒng)的計(jì)算機(jī)實(shí)施的方法,所述視頻分割系統(tǒng)用于將一組動(dòng)作標(biāo)簽分配給視頻的幀,所述方法包括:
對(duì)于來自第一組視頻數(shù)據(jù)和來自第二組視頻數(shù)據(jù)的每個(gè)輸入視頻,將所述輸入視頻的幀的一組幀級(jí)特征輸入至視頻分割網(wǎng)絡(luò),所述第一組視頻數(shù)據(jù)包括具有關(guān)聯(lián)的動(dòng)作標(biāo)簽的視頻,所述第二組視頻數(shù)據(jù)包括不具有關(guān)聯(lián)的動(dòng)作標(biāo)簽的視頻,且所述視頻分割網(wǎng)絡(luò)包括:
至少一個(gè)域自適應(yīng)時(shí)間卷積網(wǎng)絡(luò),包括:
多層時(shí)間卷積網(wǎng)絡(luò),接收與所述輸入視頻的一組幀級(jí)特征相關(guān)的輸入,并輸出一組時(shí)空細(xì)化的幀級(jí)特征;
分類層,接收所述一組時(shí)空細(xì)化的幀級(jí)特征,并輸出一組幀級(jí)預(yù)測(cè);
局部時(shí)域自適應(yīng)模型,接收所述一組時(shí)空細(xì)化的幀級(jí)特征,并輸出所述一組時(shí)空細(xì)化的幀級(jí)特征來自于所述第一組視頻數(shù)據(jù)還是所述第二組視頻數(shù)據(jù)的輸入視頻的域預(yù)測(cè);
域關(guān)注池化組件,接收所述一組時(shí)空細(xì)化的幀級(jí)特征和所述域預(yù)測(cè),并使用域關(guān)注權(quán)重將所述一組時(shí)空細(xì)化的幀級(jí)特征組合為視頻級(jí)特征;以及
全局時(shí)域自適應(yīng)模型,接收所述視頻級(jí)特征,并輸出所述視頻級(jí)特征來自于所述第一組視頻數(shù)據(jù)還是所述第二組視頻數(shù)據(jù)的輸入視頻的視頻級(jí)域預(yù)測(cè);
對(duì)于來自所述第一組視頻數(shù)據(jù)和來自所述第二組視頻數(shù)據(jù)的每個(gè)輸入視頻,輸出最終組幀級(jí)預(yù)測(cè),其中來自所述輸入視頻的一組幀中的至少一些幀的每個(gè)幀具有關(guān)聯(lián)的標(biāo)簽預(yù)測(cè);計(jì)算所述視頻分割網(wǎng)絡(luò)的損失,計(jì)算的損失包括以下中的至少一個(gè):
響應(yīng)于輸入視頻來自所述第一組視頻數(shù)據(jù),與相對(duì)于所述輸入視頻的所述關(guān)聯(lián)的動(dòng)作標(biāo)簽的所述最終組幀級(jí)預(yù)測(cè)有關(guān)的預(yù)測(cè)損失;
局部域損失,表示在預(yù)測(cè)所述一組時(shí)空細(xì)化的幀級(jí)特征來自于所述第一組視頻數(shù)據(jù)還是所述第二組視頻數(shù)據(jù)的輸入視頻時(shí)的錯(cuò)誤;以及
全局域損失,表示在預(yù)測(cè)所述視頻級(jí)特征來自于所述第一組視頻數(shù)據(jù)還是所述第二組視頻數(shù)據(jù)的輸入視頻時(shí)的錯(cuò)誤;以及
使用所述計(jì)算的損失更新所述視頻分割網(wǎng)絡(luò)。
2.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)實(shí)施的方法,其中:
所述局部時(shí)域自適應(yīng)模塊還包括梯度反轉(zhuǎn)層,所述梯度反轉(zhuǎn)層在更新所述多層時(shí)間卷積網(wǎng)絡(luò)時(shí)反轉(zhuǎn)局部域損失的梯度符號(hào);以及
所述全局時(shí)域自適應(yīng)模塊還包括梯度反轉(zhuǎn)層,所述梯度反轉(zhuǎn)層在更新所述多層時(shí)間卷積網(wǎng)絡(luò)時(shí)反轉(zhuǎn)全局域損失的梯度符號(hào)。
3.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)實(shí)施的方法,其中,所述視頻分割系統(tǒng)還包括:
特征生成器,接收所述輸入視頻,并針對(duì)每個(gè)輸入視頻將所述輸入視頻轉(zhuǎn)換為一組幀級(jí)特征。
4.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)實(shí)施的方法,其中,所述視頻分割網(wǎng)絡(luò)還包括至少一個(gè)時(shí)間卷積網(wǎng)絡(luò)階段,所述至少一個(gè)時(shí)間卷積網(wǎng)絡(luò)階段包括:
多層時(shí)間卷積網(wǎng)絡(luò),接收與所述輸入視頻的所述一組幀級(jí)特征有關(guān)的輸入,并輸出一組時(shí)空細(xì)化的幀級(jí)特征;以及
分類層,接收所述一組時(shí)空細(xì)化的幀級(jí)特征,并輸出一組幀級(jí)預(yù)測(cè)。
5.根據(jù)權(quán)利要求4所述的計(jì)算機(jī)實(shí)施的方法,其中所述視頻分割網(wǎng)絡(luò)包括:
至少一個(gè)時(shí)間卷積網(wǎng)絡(luò)階段;以及
多個(gè)域自適應(yīng)時(shí)間卷積網(wǎng)絡(luò)階段。
6.根據(jù)權(quán)利要求5所述的計(jì)算機(jī)實(shí)施的方法,其中所述視頻分割網(wǎng)絡(luò)包括:
第一時(shí)間卷積網(wǎng)絡(luò)階段;
第一域自適應(yīng)時(shí)間卷積網(wǎng)絡(luò)階段;
第二域自適應(yīng)時(shí)間卷積網(wǎng)絡(luò)階段;以及
第二時(shí)間卷積網(wǎng)絡(luò)階段,輸出所述最終組幀級(jí)預(yù)測(cè),
其中,一個(gè)階段的輸出用作下一階段的輸入。
7.根據(jù)權(quán)利要求6所述的計(jì)算機(jī)實(shí)施的方法,其中與所述輸入視頻的所述一組幀級(jí)特征有關(guān)的輸入包括:
如果所述多層時(shí)間卷積網(wǎng)絡(luò)是所述視頻分割網(wǎng)絡(luò)的第一個(gè)多層時(shí)間卷積網(wǎng)絡(luò),所述輸入視頻的所述一組幀級(jí)特征;以及
如果所述多層時(shí)間卷積網(wǎng)絡(luò)不是所述視頻分割網(wǎng)絡(luò)的第一個(gè)多層時(shí)間卷積網(wǎng)絡(luò),來自先前階段的一組幀級(jí)預(yù)測(cè)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于百度(美國)有限責(zé)任公司,未經(jīng)百度(美國)有限責(zé)任公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011371776.6/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 一種資源確定方法、相關(guān)設(shè)備及系統(tǒng)
- 一種業(yè)務(wù)信道時(shí)域位置指示方法、基站和用戶設(shè)備
- 一種配置CSI-RS的時(shí)域位置的方法、基站和用戶終端
- 一種被用于無線通信的節(jié)點(diǎn)中的方法和裝置
- 一種基于時(shí)域分析的智能移動(dòng)支付系統(tǒng)
- 一種快速傅里葉變換濾波方法
- 一種資源確定方法、相關(guān)設(shè)備及系統(tǒng)
- 一種資源確定方法、相關(guān)設(shè)備及系統(tǒng)
- 語音識(shí)別方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種時(shí)域重復(fù)傳輸方法、裝置及發(fā)射機(jī)
- 使用后向自適應(yīng)規(guī)則進(jìn)行整數(shù)數(shù)據(jù)的無損自適應(yīng)Golomb/Rice編碼和解碼
- 一種自適應(yīng)軟件UML建模及其形式化驗(yàn)證方法
- 媒體自適應(yīng)參數(shù)的調(diào)整方法、系統(tǒng)及相關(guān)設(shè)備
- 五自由度自適應(yīng)位姿調(diào)整平臺(tái)
- 采用自適應(yīng)機(jī)匣和自適應(yīng)風(fēng)扇的智能發(fā)動(dòng)機(jī)
- 一種自適應(yīng)樹木自動(dòng)涂白裝置
- 一種基于微服務(wù)的多層次自適應(yīng)方法
- 一種天然氣發(fā)動(dòng)機(jī)燃?xì)庾赃m應(yīng)控制方法及系統(tǒng)
- 一種中心自適應(yīng)的焊接跟蹤機(jī)頭
- 一種有砟軌道沉降自適應(yīng)式軌道系統(tǒng)





