[發(fā)明專利]融合物體表觀信息和運動信息的視頻運動物體分割方法在審
| 申請?zhí)枺?/td> | 201910048996.6 | 申請日: | 2019-01-18 |
| 公開(公告)號: | CN109785327A | 公開(公告)日: | 2019-05-21 |
| 發(fā)明(設(shè)計)人: | 賴劍煌;陳子軒;郭春超;謝曉華 | 申請(專利權(quán))人: | 中山大學(xué) |
| 主分類號: | G06T7/10 | 分類號: | G06T7/10;G06T7/50;G06T7/20 |
| 代理公司: | 廣州市華學(xué)知識產(chǎn)權(quán)代理有限公司 44245 | 代理人: | 劉巧霞 |
| 地址: | 510275 廣東*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 運動信息 視頻運動 物體分割 分割 交互編碼 能量方程 視頻分割 融合 分割結(jié)構(gòu) 分割模型 深度特征 深度運動 視頻序列 深度表 準(zhǔn)確率 構(gòu)建 逐幀 視頻 圖像 優(yōu)化 | ||
本發(fā)明公開了一種融合物體表觀信息和運動信息的視頻運動物體分割方法,該方法首先通過用深度特征提取視頻的物體表觀信息以及運動信息,然后對深度表觀信息和深度運動信息進(jìn)行交互編碼得到表觀?運動信息和運動?表觀信息,再將兩者融合,得到交互編碼后的初始分割圖;視頻序列逐幀均進(jìn)行分割后得到視頻分割序列,構(gòu)建一個能量方程,以使整個視頻分割序列的能量總值最小為目標(biāo)對能量方程進(jìn)行優(yōu)化,從而生成一個視頻運動物體分割模型;根據(jù)該分割模型對初始分割圖進(jìn)一步分割,得到最終分割結(jié)構(gòu)。本發(fā)明方法擁有更為強(qiáng)大的泛化能力,在圖像質(zhì)量以及分割準(zhǔn)確率上面都有很大的提升。
技術(shù)領(lǐng)域
本發(fā)明涉及視頻圖像中物體分割研究領(lǐng)域,特別涉及一種融合物體表觀信息和運動信息的視頻運動物體分割方法。
背景技術(shù)
對視頻中的物體進(jìn)行分割,一般而言,會用到兩種信息:物體本身的表觀信息和物體隨著時間推移而發(fā)生變化的運動信息。表觀信息是視頻最基本的信息,它反映著當(dāng)前物體的外觀。運動信息則是貫穿于整個視頻的信息,記錄著物體在時間軸上的變化(位移、形變等)。傳統(tǒng)的視頻物體分割方法,一般只用了上述兩種信息中的一種。對于只提取表觀信息的模型來說,當(dāng)遇到物體顏色和背景難分或者遮擋等情況時,往往會有非常不好的表現(xiàn);而對于只提取運動信息的模型而言,當(dāng)遇到物體形變幅度較大或者缺失關(guān)鍵幀的情況時,往往會失效。因此,如何同時利用上述的兩種信息來對問題建模,得到更好的分割結(jié)果,是視頻物體分割技術(shù)的一大難點。
近來,隨著深度學(xué)習(xí)技術(shù)的蓬勃發(fā)展,很多人試圖直接用深度模型來對該問題建模,從而解決視頻物體分割問題。上述方法雖然在測試中取得了不俗的結(jié)果,然而也存在泛化能力不足等問題。歸根結(jié)底是因為視頻對于分割任務(wù)而言,實際上是相對冗余的信息。通常一整段視頻,只會出現(xiàn)寥寥幾個分割目標(biāo)物體,樣本數(shù)決定性的不足,就會導(dǎo)致用深度網(wǎng)絡(luò)直接學(xué)習(xí)視頻信息的時候,很容易出現(xiàn)過擬合的情況。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的缺點與不足,提供一種融合物體表觀信息和運動信息的視頻運動物體分割方法,該方法具有實用性強(qiáng)、分割準(zhǔn)確率高、泛化能力強(qiáng)的優(yōu)點。
本發(fā)明的目的通過以下的技術(shù)方案實現(xiàn):融合物體表觀信息和運動信息的視頻運動物體分割方法,包括步驟:
(1)通過用深度特征提取視頻的物體表觀信息以及運動信息;
(2)對深度表觀信息和深度運動信息進(jìn)行交互編碼得到表觀-運動信息和運動-表觀信息,再將兩者融合,得到交互編碼后的初始分割圖;
(3)視頻序列逐幀均進(jìn)行分割后得到視頻分割序列,構(gòu)建一個能量方程,以使整個視頻分割序列的能量總值最小為目標(biāo)對能量方程進(jìn)行優(yōu)化,從而生成一個視頻運動物體分割模型;根據(jù)該分割模型對初始分割圖進(jìn)一步分割,得到最終分割結(jié)構(gòu)。
本發(fā)明通過對物體表觀信息和物體運動信息的交互編碼,實現(xiàn)將上述兩種信息的融合,再經(jīng)過能量方程的優(yōu)化,從而生成一個分割準(zhǔn)確且泛化能力強(qiáng)的視頻運動物體分割模型。相較于一般的深度學(xué)習(xí)模型,本方法擁有更為強(qiáng)大的泛化能力;而對于傳統(tǒng)方法而言,本方法在圖像質(zhì)量以及分割準(zhǔn)確率上面都有很大的提升。
優(yōu)選的,所述步驟(1)中,通過深度顯著性分割網(wǎng)絡(luò)提取視頻的物體表觀信息。
優(yōu)選的,所述步驟(1)中,通過深度光流網(wǎng)絡(luò)提取視頻的物體運動信息。
優(yōu)選的,所述步驟(1)中,物體的表觀信息由單幀圖片生成,物體的運動信息由相鄰兩幀圖片生成。
優(yōu)選的,所述步驟(2)中,表觀-運動信息是用物體的表觀信息來對物體在視頻中的運動信息做修正,方法是:先用光流場對視頻的前一幀進(jìn)行位移,然后把位移后的視頻幀輸入到深度顯著性分割網(wǎng)絡(luò),得到的深度顯著性分割結(jié)果便是表觀-運動信息。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中山大學(xué),未經(jīng)中山大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910048996.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





