[發(fā)明專利]通過混合時(shí)域自適應(yīng)的視頻動(dòng)作分割在審
| 申請(qǐng)?zhí)枺?/td> | 202011371776.6 | 申請(qǐng)日: | 2020-11-30 |
| 公開(公告)號(hào): | CN112528780A | 公開(公告)日: | 2021-03-19 |
| 發(fā)明(設(shè)計(jì))人: | 李抱樸;陳敏弘;包英澤 | 申請(qǐng)(專利權(quán))人: | 百度(美國)有限責(zé)任公司 |
| 主分類號(hào): | G06K9/00 | 分類號(hào): | G06K9/00;G06N3/04;G06N3/08 |
| 代理公司: | 北京清亦華知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11201 | 代理人: | 韓海花 |
| 地址: | 美國加利福尼亞*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 通過 混合 時(shí)域 自適應(yīng) 視頻 動(dòng)作 分割 | ||
本申請(qǐng)涉及通過混合時(shí)域自適應(yīng)的視頻動(dòng)作分割,并公開了用于訓(xùn)練視頻分割系統(tǒng)的計(jì)算機(jī)實(shí)施的方法。視頻分割系統(tǒng)用于將一組動(dòng)作標(biāo)簽分配給視頻的幀。方法包括:對(duì)于來自第一組視頻數(shù)據(jù)和來自第二組視頻數(shù)據(jù)的每個(gè)輸入視頻,將輸入視頻的幀的一組幀級(jí)特征輸入至視頻分割網(wǎng)絡(luò),第一組視頻數(shù)據(jù)包括具有關(guān)聯(lián)的動(dòng)作標(biāo)簽的視頻,第二組視頻數(shù)據(jù)包括不具有關(guān)聯(lián)的動(dòng)作標(biāo)簽的視頻;對(duì)于來自第一組視頻數(shù)據(jù)和來自第二組視頻數(shù)據(jù)的每個(gè)輸入視頻,輸出最終組幀級(jí)預(yù)測(cè),其中來自輸入視頻的一組幀中的至少一些幀的每個(gè)幀具有關(guān)聯(lián)的標(biāo)簽預(yù)測(cè);計(jì)算視頻分割網(wǎng)絡(luò)的損失;以及使用計(jì)算的損失更新視頻分割網(wǎng)絡(luò)。
技術(shù)領(lǐng)域
本公開總體上涉及用于可以提供改進(jìn)的計(jì)算機(jī)性能、特征和用途的計(jì)算機(jī)學(xué)習(xí)的系統(tǒng)和方法。更具體地,本公開涉及用于視頻動(dòng)作分割的系統(tǒng)和方法。
背景技術(shù)
視頻動(dòng)作分割對(duì)于包括視頻監(jiān)視和人類活動(dòng)的分析的廣泛應(yīng)用是重要的。給定視頻,典型的目標(biāo)是按時(shí)間同時(shí)分割視頻,并預(yù)測(cè)具有對(duì)應(yīng)動(dòng)作類別的每個(gè)分段。盡管鑒于深度神經(jīng)網(wǎng)絡(luò)的近期成功,視頻分類已經(jīng)顯示了巨大的進(jìn)步,但是在長期未修剪的視頻中在時(shí)間上定位和識(shí)別動(dòng)作片段仍然具有挑戰(zhàn)性。
動(dòng)作分割方法可以被分解為使用卷積神經(jīng)網(wǎng)絡(luò)提取低級(jí)特征和應(yīng)用高級(jí)時(shí)間模型。受到語音合成的進(jìn)步的鼓舞,最近的方法依賴于時(shí)間卷積以使用時(shí)間卷積濾波器的層次結(jié)構(gòu)來捕獲跨幀的遠(yuǎn)距離依賴性。
盡管這些時(shí)間模型的成功,但是性能增益來自于用于完全監(jiān)督學(xué)習(xí)的密集注釋的數(shù)據(jù)。由于逐幀手動(dòng)精確注釋動(dòng)作既費(fèi)時(shí)又極具挑戰(zhàn)性,這些方法不容易擴(kuò)展到大規(guī)模的現(xiàn)實(shí)世界應(yīng)用。因此,越來越多地關(guān)注利用輔助數(shù)據(jù)來緩解該問題,輔助數(shù)據(jù)在某種程度上更容易獲得。例如,一些研究人員使用動(dòng)作抄本獲得動(dòng)作發(fā)生順序的先驗(yàn)知識(shí)。然而,即使在這些輔助數(shù)據(jù)的情況下,數(shù)據(jù)量也可能受到限制。
因此,需要用于使用未標(biāo)記數(shù)據(jù)的視頻動(dòng)作分割的系統(tǒng)和方法。
發(fā)明內(nèi)容
本申請(qǐng)涉及一種用于訓(xùn)練視頻分割系統(tǒng)的計(jì)算機(jī)實(shí)施的方法,該視頻分割系統(tǒng)用于將一組動(dòng)作標(biāo)簽分配給視頻的幀。其中,方法包括:對(duì)于來自第一組視頻數(shù)據(jù)和來自第二組視頻數(shù)據(jù)的每個(gè)輸入視頻,將輸入視頻的幀的一組幀級(jí)特征輸入至視頻分割網(wǎng)絡(luò)。第一組視頻數(shù)據(jù)包括具有關(guān)聯(lián)的動(dòng)作標(biāo)簽的視頻,第二組視頻數(shù)據(jù)包括不具有關(guān)聯(lián)的動(dòng)作標(biāo)簽的視頻。該視頻分割網(wǎng)絡(luò)包括:至少一個(gè)域自適應(yīng)時(shí)間卷積網(wǎng)絡(luò)。至少一個(gè)域自適應(yīng)時(shí)間卷積網(wǎng)絡(luò)包括:多層時(shí)間卷積網(wǎng)絡(luò),接收與輸入視頻的一組幀級(jí)特征相關(guān)的輸入,并輸出一組時(shí)空細(xì)化的幀級(jí)特征;分類層,接收一組時(shí)空細(xì)化的幀級(jí)特征,并輸出一組幀級(jí)預(yù)測(cè);局部時(shí)域自適應(yīng)模型,接收一組時(shí)空細(xì)化的幀級(jí)特征,并輸出一組時(shí)空細(xì)化的幀級(jí)特征來自于第一組視頻數(shù)據(jù)還是第二組視頻數(shù)據(jù)的輸入視頻的域預(yù)測(cè);域關(guān)注池化組件,接收一組時(shí)空細(xì)化的幀級(jí)特征和域預(yù)測(cè),并使用域關(guān)注權(quán)重將一組時(shí)空細(xì)化的幀級(jí)特征組合為視頻級(jí)特征;以及全局時(shí)域自適應(yīng)模型,接收視頻級(jí)特征,并輸出視頻級(jí)特征來自于第一組視頻數(shù)據(jù)還是第二組視頻數(shù)據(jù)的輸入視頻的視頻級(jí)域預(yù)測(cè)。方法還包括:對(duì)于來自第一組視頻數(shù)據(jù)和來自第二組視頻數(shù)據(jù)的每個(gè)輸入視頻,輸出最終組幀級(jí)預(yù)測(cè),其中來自輸入視頻的一組幀中的至少一些幀的每個(gè)幀具有關(guān)聯(lián)的標(biāo)簽預(yù)測(cè);計(jì)算視頻分割網(wǎng)絡(luò)的損失;以及使用計(jì)算的損失更新視頻分割網(wǎng)絡(luò)。計(jì)算的損失包括以下中的至少一個(gè):響應(yīng)于輸入視頻來自第一組視頻數(shù)據(jù),與相對(duì)于輸入視頻的關(guān)聯(lián)的動(dòng)作標(biāo)簽的最終組幀級(jí)預(yù)測(cè)有關(guān)的預(yù)測(cè)損失;局部域損失,表示在預(yù)測(cè)一組時(shí)空細(xì)化的幀級(jí)特征來自于第一組視頻數(shù)據(jù)還是第二組視頻數(shù)據(jù)的輸入視頻時(shí)的錯(cuò)誤;以及全局域損失,表示在預(yù)測(cè)視頻級(jí)特征來自于第一組視頻數(shù)據(jù)還是第二組視頻數(shù)據(jù)的輸入視頻時(shí)的錯(cuò)誤。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于百度(美國)有限責(zé)任公司,未經(jīng)百度(美國)有限責(zé)任公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011371776.6/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 一種資源確定方法、相關(guān)設(shè)備及系統(tǒng)
- 一種業(yè)務(wù)信道時(shí)域位置指示方法、基站和用戶設(shè)備
- 一種配置CSI-RS的時(shí)域位置的方法、基站和用戶終端
- 一種被用于無線通信的節(jié)點(diǎn)中的方法和裝置
- 一種基于時(shí)域分析的智能移動(dòng)支付系統(tǒng)
- 一種快速傅里葉變換濾波方法
- 一種資源確定方法、相關(guān)設(shè)備及系統(tǒng)
- 一種資源確定方法、相關(guān)設(shè)備及系統(tǒng)
- 語音識(shí)別方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種時(shí)域重復(fù)傳輸方法、裝置及發(fā)射機(jī)
- 使用后向自適應(yīng)規(guī)則進(jìn)行整數(shù)數(shù)據(jù)的無損自適應(yīng)Golomb/Rice編碼和解碼
- 一種自適應(yīng)軟件UML建模及其形式化驗(yàn)證方法
- 媒體自適應(yīng)參數(shù)的調(diào)整方法、系統(tǒng)及相關(guān)設(shè)備
- 五自由度自適應(yīng)位姿調(diào)整平臺(tái)
- 采用自適應(yīng)機(jī)匣和自適應(yīng)風(fēng)扇的智能發(fā)動(dòng)機(jī)
- 一種自適應(yīng)樹木自動(dòng)涂白裝置
- 一種基于微服務(wù)的多層次自適應(yīng)方法
- 一種天然氣發(fā)動(dòng)機(jī)燃?xì)庾赃m應(yīng)控制方法及系統(tǒng)
- 一種中心自適應(yīng)的焊接跟蹤機(jī)頭
- 一種有砟軌道沉降自適應(yīng)式軌道系統(tǒng)





