[發(fā)明專利]圖像引導(dǎo)的視頻語義對象分割方法及裝置有效
| 申請?zhí)枺?/td> | 201710060268.8 | 申請日: | 2017-01-24 |
| 公開(公告)號: | CN106875406B | 公開(公告)日: | 2020-04-14 |
| 發(fā)明(設(shè)計)人: | 陳小武;張宇;李甲;滕煒;宋昊坤;趙沁平 | 申請(專利權(quán))人: | 北京航空航天大學(xué) |
| 主分類號: | G06T7/11 | 分類號: | G06T7/11;G06T7/194 |
| 代理公司: | 北京同立鈞成知識產(chǎn)權(quán)代理有限公司 11205 | 代理人: | 宋揚;劉芳 |
| 地址: | 100191 北京市海淀區(qū)學(xué)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 圖像 引導(dǎo) 視頻 語義 對象 分割 方法 裝置 | ||
本發(fā)明涉及一種圖像引導(dǎo)的視頻語義對象分割方法及裝置,根據(jù)給定語義類別,在樣本圖像中定位目標對象,得到對象樣例;對輸入視頻中每幀圖像進行候選區(qū)域的提??;根據(jù)對象樣例,將每幀中所提取的多個候選區(qū)域與對象樣例進行匹配,得到每個候選區(qū)域的相似度分數(shù);對每幀中各個候選區(qū)域的相似度分數(shù)進行排序,選出滿足預(yù)設(shè)候選區(qū)域個數(shù)的、相似度分數(shù)由高到低的高分候選區(qū)域;對選出的高分候選區(qū)域進行前景與背景的初始分割處理;基于初始分割后前景與背景的一致性和無二義性約束條件,對初始分割處理后的候選區(qū)域構(gòu)建優(yōu)化函數(shù),求解優(yōu)化函數(shù)得到最優(yōu)候選區(qū)域集合;將最優(yōu)候選區(qū)域?qū)?yīng)的初始前景分割傳播到整個視頻,得到輸入視頻的語義對象分割。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機視覺與多媒體分析領(lǐng)域,尤其涉及一種圖像引導(dǎo)的視頻語義對象分割方法及裝置。
背景技術(shù)
隨著計算機視覺、多媒體分析技術(shù)的發(fā)展,以直觀形象為特征的多媒體信息資源日益豐富且深受社會大眾的喜愛,如何高效地從視頻信息中定位并分割出需要的視頻資源亦成為了研究熱點。
視頻語義對象分割是一種針對特定語義類別,從輸入視頻中定位并分割出屬于該類別對象的視頻像素的技術(shù)。該技術(shù)可應(yīng)用于大規(guī)?;ヂ?lián)網(wǎng)分析,影視制作中的視頻編輯,以及基于視頻的三維建模等。目前的視頻語義對象分割方法主要為參數(shù)化方法,所謂參數(shù)化方法,就是在視頻中對對象的所處位置進行一一標注,并收集大量已經(jīng)標注了對象位置或?qū)ο筝喞膱D像視頻,從中學(xué)習(xí)出一個統(tǒng)一的、由參數(shù)作為表達形式的視覺模型,并將該視覺模型應(yīng)用于輸入的測試視頻,基于該學(xué)習(xí)得到的視覺模型對該測試視頻中的目標對象進行對象分割。例如,美國喬治亞理工大學(xué)的Kundu等人提出了基于特征空間優(yōu)化的視頻語義對象分割方法,該參數(shù)化方法通過大量精確標注的視頻幀學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)得到視覺模型。美國密西根大學(xué)的Lei等人于2016年提出了機器學(xué)習(xí)模型遞歸時域深度場(RecurrentTemporal Deep Field),并應(yīng)用于視頻語義對象分割。然而,這類參數(shù)化的方法存在以下問題:一方面,采用參數(shù)化方法需要對大量的圖像進行精確標注得到訓(xùn)練樣本,因此訓(xùn)練樣本的收集過程較為困難且耗時較長;另一方面,訓(xùn)練得到的參數(shù)模型難以根據(jù)新增加的圖像進行高效地更新和迭代,因此對于視覺資源的動態(tài)增長的適應(yīng)性不好。例如,若在已有的視覺系統(tǒng)中增加新的訓(xùn)練樣本或者語義類別,采用參數(shù)化方法則需要重新訓(xùn)練視覺模型,而該模型的訓(xùn)練過程是耗時耗力的,對于現(xiàn)代的機器學(xué)習(xí)模型,可能需要數(shù)天甚至數(shù)周的時間。
發(fā)明內(nèi)容
本發(fā)明提供一種圖像引導(dǎo)的視頻語義對象分割方法及裝置,該方法屬于非參數(shù)化的視頻語義對象分割方法,基于僅標注了語義類別標簽的樣本圖像集合得到對象樣例,并根據(jù)該對象樣例對輸入的視頻進行語義對象分割。相比現(xiàn)有技術(shù)中的參數(shù)化方法,本發(fā)明能夠充分利用互聯(lián)網(wǎng)上廣泛存在的弱標注圖像集,不需要像參數(shù)化方法那樣對訓(xùn)練樣本進行精確標注;通過建立輸入視頻與圖像集的匹配,定位視頻語義對象,省略了對視覺模型的訓(xùn)練過程,還能夠支持圖像集的動態(tài)增長,簡單且高效地實現(xiàn)對視頻的語義對象分割。
本發(fā)明提供一種圖像引導(dǎo)的視頻語義對象分割方法,包括:
根據(jù)給定的語義類別,在樣本圖像中定位出與所述語義類別對應(yīng)的目標對象,得到對象樣例;
對輸入視頻中的每幀圖像進行候選區(qū)域的提?。?/p>
根據(jù)所述對象樣例,將每幀中所提取的多個候選區(qū)域與所述對象樣例進行匹配處理,得到每個候選區(qū)域的相似度分數(shù);
對每幀中各個候選區(qū)域的相似度分數(shù)進行排序,選出滿足預(yù)設(shè)候選區(qū)域個數(shù)的、相似度分數(shù)由高到低的高分候選區(qū)域;
對選出的所述高分候選區(qū)域進行前景與背景的初始分割處理;
基于初始分割后前景與背景的一致性和無二義性約束條件,對初始分割處理后的候選區(qū)域構(gòu)建優(yōu)化函數(shù),求解所述優(yōu)化函數(shù)得到最優(yōu)的候選區(qū)域集合;
將所述最優(yōu)的候選區(qū)域?qū)?yīng)的初始前景分割傳播到整個視頻,得到所述輸入視頻的語義對象分割。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京航空航天大學(xué),未經(jīng)北京航空航天大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710060268.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設(shè)備、圖像形成系統(tǒng)和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 引導(dǎo)裝置及引導(dǎo)方法
- 引導(dǎo)系統(tǒng)以及引導(dǎo)方法
- 引導(dǎo)裝置、引導(dǎo)方法以及引導(dǎo)程序
- 車輛引導(dǎo)裝置、車輛引導(dǎo)方法和車輛引導(dǎo)程序
- 移動引導(dǎo)系統(tǒng)、移動引導(dǎo)裝置、以及移動引導(dǎo)方法
- 引導(dǎo)裝置、引導(dǎo)方法以及引導(dǎo)程序
- 路徑引導(dǎo)裝置、路徑引導(dǎo)方法以及路徑引導(dǎo)程序
- 引導(dǎo)方法及引導(dǎo)系統(tǒng)
- 引導(dǎo)裝置、引導(dǎo)方法以及引導(dǎo)程序
- 引導(dǎo)系統(tǒng)、引導(dǎo)裝置和引導(dǎo)系統(tǒng)的控制方法





