[發(fā)明專利]一種面部通話視頻的分層編碼方法有效
| 申請?zhí)枺?/td> | 202210053055.3 | 申請日: | 2022-01-18 |
| 公開(公告)號: | CN114067258B | 公開(公告)日: | 2022-05-03 |
| 發(fā)明(設(shè)計)人: | 朱樹元;劉宇;劉光輝 | 申請(專利權(quán))人: | 電子科技大學(xué) |
| 主分類號: | G06V20/40 | 分類號: | G06V20/40;G06V40/16;H04N19/70;G06T3/40;G06N3/04;G06K9/62;G06V10/80;G06V10/82 |
| 代理公司: | 電子科技大學(xué)專利中心 51203 | 代理人: | 甘茂 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 面部 通話 視頻 分層 編碼 方法 | ||
本發(fā)明屬于視頻壓縮和視頻質(zhì)量增強(qiáng)領(lǐng)域,具體提供一種面部通話視頻的分層編碼方法,用以有效提升通話視頻的重建質(zhì)量和壓縮效率。在本發(fā)明中,基于面部通話視頻的空間冗余和時間冗余較大,本發(fā)明對基礎(chǔ)層進(jìn)行高倍下采樣,在對大量冗余信息和少量非冗余信息進(jìn)行丟棄的同時,通過一定數(shù)量的高分辨率視頻幀(即增強(qiáng)層)來對這部分丟棄的信息進(jìn)行補(bǔ)全,能夠在有效提高壓縮率的同時保證優(yōu)良的通話質(zhì)量;同時,本發(fā)明將壓縮后的基礎(chǔ)層和增強(qiáng)層輸入卷積神經(jīng)網(wǎng)絡(luò),再輔以特征層用于引導(dǎo)基礎(chǔ)層和增強(qiáng)層的融合,有效提高重建視頻質(zhì)量;綜上所述,本發(fā)明通過多層編碼,能夠顯著提升面部通話視頻恢復(fù)的質(zhì)量,進(jìn)而有效提升視頻重建質(zhì)量和壓縮效率。
技術(shù)領(lǐng)域
本發(fā)明屬于視頻壓縮和視頻質(zhì)量增強(qiáng)領(lǐng)域,具體提供一種面部通話視頻的分層編碼方法。
背景技術(shù)
近年來,遠(yuǎn)程協(xié)同辦公迎來井噴式增長,以視頻通話為基礎(chǔ)的視頻會議業(yè)務(wù)日益增多;此外,社交媒體中的實時視頻交流也日漸成為網(wǎng)絡(luò)用戶溝通的主要手段。數(shù)字視頻其原始數(shù)據(jù)量巨大,需要占用較大的存儲空間和傳輸帶寬;為了節(jié)約有限的存儲和傳輸資源,通常需要對數(shù)字視頻進(jìn)行有損壓縮;壓縮率越高,所節(jié)約的存儲和傳輸資源就越多,不過帶來的壓縮失真就越大。
與普通視頻不同的是:視頻會議或視頻通話的內(nèi)容往往包含用戶面部和靜態(tài)背景,這種視頻的質(zhì)量高度依賴于網(wǎng)絡(luò)的穩(wěn)定性和帶寬;目前,弱網(wǎng)環(huán)境下的視頻通話能力無法滿足用戶的應(yīng)用需求,為了保證在帶寬有限的網(wǎng)絡(luò)上的穩(wěn)定傳輸,有必要設(shè)計一種獨特的面部通話視頻編碼方法。
發(fā)明內(nèi)容
本發(fā)明的目的在于針對上述現(xiàn)有技術(shù)提出的問題,提供一種面部通話視頻的分層編碼方法,用以有效提升通話視頻的重建質(zhì)量和壓縮效率。為實現(xiàn)該目的,本發(fā)明采用的技術(shù)方法如下:
一種面部通話視頻的分層編碼方法,其特征在于,包括以下步驟:
步驟1、編碼,具體為:
步驟1.1、采用深度卷積神經(jīng)網(wǎng)絡(luò)提取通話視頻幀的面部特征點得到面部特征點矩陣;
步驟1.2、利用面部特征點從待壓縮的通話視頻中提取關(guān)鍵幀;
步驟1.3、對通話視頻進(jìn)行高倍下采樣,再采用HEVC壓縮得到基礎(chǔ)層,并再次提取基礎(chǔ)層的面部特征點得到面部特征點矩陣;
步驟1.4、將步驟1.1所得面部特征點矩陣與步驟1.3所得面部特征點矩陣做差,將所得殘差編碼作為特征層;
步驟1.5、將關(guān)鍵幀插入基礎(chǔ)層的插值序列采用HEVC壓縮得到增強(qiáng)層;
步驟2、解碼,具體為:
步驟2.1、分別對基礎(chǔ)層、特征層、增強(qiáng)層數(shù)據(jù)進(jìn)行解碼;
步驟2.2、將解碼后基礎(chǔ)層、特征層、增強(qiáng)層數(shù)據(jù)輸入至多層視頻重建網(wǎng)絡(luò),由多層視頻重建網(wǎng)絡(luò)輸出重建面部視頻。
進(jìn)一步的,所述步驟2.2中,多層視頻重建網(wǎng)絡(luò)由特征提取模塊、特征融合模塊和圖像重建模塊組成;其中,
所述特征提取模塊由基礎(chǔ)層通道分支、增強(qiáng)層通道分支與特征層通道分支組成,基礎(chǔ)層通道分支的輸入為基礎(chǔ)層圖像Ib、輸出為Fb,增強(qiáng)層通道分支的輸入為關(guān)鍵幀圖像Ie、輸出為Fe,特征層通道分支的輸入為面部特征點圖像If、輸出為Ff;所述基礎(chǔ)層通道分支與增強(qiáng)層通道分支的網(wǎng)絡(luò)結(jié)構(gòu)相同,均由網(wǎng)絡(luò)單元U1、網(wǎng)絡(luò)單元U2、網(wǎng)絡(luò)單元U3依次連接組成,網(wǎng)絡(luò)單元U1、網(wǎng)絡(luò)單元U2與網(wǎng)絡(luò)單元U3結(jié)構(gòu)相同,均為:輸入Uin經(jīng)過CONV3×3×64+ReLU+Dilated-CONV3×3×64_2+BatchNorm+ReLU+Dilated-CONV3×3×64_2+BatchNorm+ReLU后輸出Umid、網(wǎng)絡(luò)單元U的輸出為Uout=Umid+Uin;所述特征層通道分支為:CONV 1×1×64+ReLU+CONV 1×1×64+ReLU+CONV 1×1×64+ReLU;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于電子科技大學(xué),未經(jīng)電子科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210053055.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





