[發(fā)明專利]基于弱監(jiān)督學(xué)習(xí)的視頻目標(biāo)分割方法在審
| 申請(qǐng)?zhí)枺?/td> | 202210361706.5 | 申請(qǐng)日: | 2022-04-07 |
| 公開(kāi)(公告)號(hào): | CN114743002A | 公開(kāi)(公告)日: | 2022-07-12 |
| 發(fā)明(設(shè)計(jì))人: | 袁春;羅莉舒;吳航昊 | 申請(qǐng)(專利權(quán))人: | 清華大學(xué)深圳國(guó)際研究生院 |
| 主分類號(hào): | G06V10/26 | 分類號(hào): | G06V10/26;G06V10/774;G06V10/776;G06V20/40;G06K9/62 |
| 代理公司: | 深圳新創(chuàng)友知識(shí)產(chǎn)權(quán)代理有限公司 44223 | 代理人: | 江耀純 |
| 地址: | 518055 廣東省深圳市*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 監(jiān)督 學(xué)習(xí) 視頻 目標(biāo) 分割 方法 | ||
1.基于弱監(jiān)督學(xué)習(xí)的視頻目標(biāo)分割方法,其特征在于,包括如下步驟:
S1、輸入原視頻和定位框:輸入原視頻,經(jīng)過(guò)抽幀得到得到各個(gè)幀的二維圖像,同時(shí)還得到各個(gè)幀的目標(biāo)定位框,進(jìn)行定位框級(jí)別的定位;根據(jù)定位框在原圖上進(jìn)行切割,得到最后的切割后的圖像;
S2、將所述切割后的圖像和所述目標(biāo)定位框輸入管道分割模型后得到當(dāng)前幀的分割掩碼即偽標(biāo)簽;
S3、用所述偽標(biāo)簽對(duì)視頻目標(biāo)分割模型進(jìn)行訓(xùn)練。
2.根據(jù)權(quán)利要求1所述的基于弱監(jiān)督學(xué)習(xí)的視頻目標(biāo)分割方法,其特征在于,步驟S1中,得到最后的切割后的圖像的方法是:根據(jù)定位框向外拓展20%的像素,在原圖上進(jìn)行切割,得到最后的切割后的圖像。
3.根據(jù)權(quán)利要求1所述的基于弱監(jiān)督學(xué)習(xí)的視頻目標(biāo)分割方法,其特征在于,所述管道分割模型是一種全卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),該架構(gòu)通過(guò)一個(gè)非本地模塊來(lái)充分利用輸入序列的時(shí)序信息,從而捕獲空間和時(shí)間中的長(zhǎng)期依賴;非本地模塊由非本地塊和拆分編碼器兩部分架構(gòu)組成,其中拆分編碼器包括詢問(wèn)編碼器和參考編碼器,該架構(gòu)能夠?qū)⑶靶驇膱D像語(yǔ)義信息和預(yù)測(cè)結(jié)果應(yīng)用在當(dāng)前幀的預(yù)測(cè)中。
4.根據(jù)權(quán)利要求3所述的基于弱監(jiān)督學(xué)習(xí)的視頻目標(biāo)分割方法,其特征在于,步驟S2中,得到當(dāng)前幀的分割掩碼包括如下步驟:
輸入當(dāng)前幀+定位框、真實(shí)分割掩碼和前一幀分割掩碼,其中當(dāng)前幀+定位框由詢問(wèn)編碼器進(jìn)行編碼,真實(shí)分割掩碼、前一幀分割掩碼由參考編碼器進(jìn)行編碼,然后詢問(wèn)編碼器和參考編碼器得到的特征圖經(jīng)非本地塊進(jìn)行處理后,再通過(guò)解碼器解碼,得到當(dāng)前幀的分割掩碼。
5.根據(jù)權(quán)利要求4所述的基于弱監(jiān)督學(xué)習(xí)的視頻目標(biāo)分割方法,其特征在于,具體的管道分割模型結(jié)構(gòu)如下:
輸入包括當(dāng)前幀加對(duì)應(yīng)定位框、前序幀加分割掩碼,將定位框作為第四通道級(jí)聯(lián)在當(dāng)前幀后,分割掩碼作為第四通道級(jí)聯(lián)在前序幀后。
6.根據(jù)權(quán)利要求5所述的基于弱監(jiān)督學(xué)習(xí)的視頻目標(biāo)分割方法,其特征在于,分割掩碼包括第一幀真實(shí)掩碼和后續(xù)幀預(yù)測(cè)結(jié)果的掩碼。
7.根據(jù)權(quán)利要求3所述的基于弱監(jiān)督學(xué)習(xí)的視頻目標(biāo)分割方法,其特征在于,對(duì)當(dāng)前幀和前序幀分別裁剪和調(diào)整大小,并分別用不同的編碼器進(jìn)行編碼,對(duì)當(dāng)前幀輸入用詢問(wèn)編碼器,對(duì)前序幀輸入用參考編碼器。
8.根據(jù)權(quán)利要求7所述的基于弱監(jiān)督學(xué)習(xí)的視頻目標(biāo)分割方法,其特征在于,在兩個(gè)編碼器分別編碼之后,將所有輸入幀的特征圖級(jí)聯(lián)起來(lái),并通過(guò)時(shí)空非本地塊,得到softmax歸一化之后的特征圖;然后,對(duì)所得的特征圖進(jìn)行上采樣解碼,最終得到當(dāng)前幀t的預(yù)測(cè)結(jié)果。
9.根據(jù)權(quán)利要求1所述的基于弱監(jiān)督學(xué)習(xí)的視頻目標(biāo)分割方法,其特征在于,步驟S3中,在訓(xùn)練階段,將交叉熵代價(jià)函數(shù)采用部分截?cái)嗟慕徊骒負(fù)p失,即部分截?cái)嗟慕徊骒卮鷥r(jià)函數(shù)。
10.基于弱監(jiān)督學(xué)習(xí)的視頻目標(biāo)分割裝置,其特征在于,使用權(quán)利要求1-9任一項(xiàng)所述的方法進(jìn)行視頻目標(biāo)分割。
11.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有一個(gè)或者多個(gè)程序,所述一個(gè)或者多個(gè)程序可被一個(gè)或者多個(gè)處理器執(zhí)行,以實(shí)現(xiàn)如權(quán)利要求1至9中任一項(xiàng)所述的方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于清華大學(xué)深圳國(guó)際研究生院,未經(jīng)清華大學(xué)深圳國(guó)際研究生院許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210361706.5/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 在即時(shí)通信中提供即時(shí)監(jiān)督功能的方法及系統(tǒng)
- 一種監(jiān)督事件的生成裝置
- 一種資產(chǎn)托管監(jiān)督任務(wù)的處理方法及裝置
- 一種監(jiān)督方法及裝置
- 基于自監(jiān)督學(xué)習(xí)的標(biāo)簽比例學(xué)習(xí)模型的訓(xùn)練方法和設(shè)備
- 一種衛(wèi)生監(jiān)督對(duì)象尋址方法、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種機(jī)器人表情調(diào)用方法和家用機(jī)器人
- 計(jì)算機(jī)視覺(jué)訓(xùn)練系統(tǒng)和用于訓(xùn)練計(jì)算機(jī)視覺(jué)系統(tǒng)的方法
- 一種基于廠區(qū)智能管理系統(tǒng)的工廠設(shè)備監(jiān)督系統(tǒng)
- 信息化綜合監(jiān)督系統(tǒng)及方法
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)





