[發明專利]一種基于短時時空融合網絡和長時序列融合網絡的無參考視頻質量評價方法在審
| 申請號: | 202110992742.7 | 申請日: | 2021-08-27 |
| 公開(公告)號: | CN113784113A | 公開(公告)日: | 2021-12-10 |
| 發明(設計)人: | 史萍;王雪婷;潘達 | 申請(專利權)人: | 中國傳媒大學 |
| 主分類號: | H04N17/00 | 分類號: | H04N17/00;G06N3/04;G06N3/08 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 沈波 |
| 地址: | 100024 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 時時 融合 網絡 時序 參考 視頻 質量 評價 方法 | ||
1.一種基于短時時空融合網絡和長時序列融合網絡的無參考視頻質量評價方法,其特征在于:該方法包括以下步驟:
步驟1,由視頻得到視頻幀;
對于一個視頻,需要通過切分成幀、等間隔下采樣操作得到獨立的視頻幀,并以此作為VQA模型的輸入;
步驟2,搭建并訓練短時時空融合網絡;
搭建并訓練基于卷積神經網絡CNN的短時時空融合網絡,其輸入為步驟1得到獨立的視頻幀,輸出為64維的特征向量和初步預測的質量得分;
步驟3,得到若干視頻段的特征序列和視頻段中各幀相互的影響因子;
通過訓練好的短時時空融合網絡,對每個視頻幀生成一個64維的特征向量和初步預測的質量得分,并將特征向量按照時間順序組合成特征序列,將初步預測的質量得分在先驗知識的指導下轉化成各幀彼此之間的影響因子;
步驟4,搭建并訓練長時序列融合網絡;
搭建并訓練基于圖卷積網絡GCN的長時序列融合網絡,輸入為步驟3輸出的定長特征序列和各幀彼此之間的影響因子,輸出為視頻的質量分數;
步驟5,進行視頻的質量評價;
對一段視頻進行切幀、采樣、提取特征、質量評價。
2.根據權利要求1所述的一種基于短時時空融合網絡和長時序列融合網絡的無參考視頻質量評價方法,其特征在于:由視頻得到視頻幀的步驟如下,
步驟1.1,提取視頻幀,將完整的視頻序列從YUV等格式轉化成BMP格式,逐幀保存;
步驟1.2,采樣視頻幀,以4為間隔選取視頻幀,其他視頻幀由于冗余直接丟棄;
步驟1.3,生成亮度圖,將三通道的彩色視頻幀轉化成只有Y通道的亮度圖。
3.根據權利要求1所述的一種基于短時時空融合網絡和長時序列融合網絡的無參考視頻質量評價方法,其特征在于:搭建并訓練短時時空融合網絡的步驟如下,
步驟2.1,使用UNet作為提取空間特征的網絡,將步驟1.2生成的視頻幀作為此網絡的輸入,大小為[Batch-Size×3×Width×Height],訓練網絡用到的標簽為特征相似性指數方法FSIM中的梯度幅值GM相似性;網絡的輸出為預測得到的GM相似性,大小為[Batch-Size×1×Width×Height];
步驟2.2,使用預訓練完成的PWCNet作為提取時間特征的網絡,將步驟1.2生成的視頻幀作為此網絡的輸入,大小為[Batch-Size×3×Width×Height];將預測得到的光流圖轉化為亮度圖作為網絡的輸出,大小為[Batch-Size×1×Width×Height];
步驟2.3,搭建提取時空特征向量和初步質量分數的網絡,網絡的輸入有兩個,分別是步驟1.3生成的視頻幀亮度圖和步驟2.1生成的空間特征、步驟2.2生成的時間特征的組合,大小均為[Batch-Size×2×Width×Height],網絡由5個卷積結構和4個全連接層構成,每個卷積結構由卷積層、池化層、正則化層和激活函數構成,卷積核個數分別為32、64、64、128、128,卷積核大小為3×3,池化層步長為2×2;全連接層的大小分別為1024、256、64和1;將第三、第四個全連接層的輸出均作為網絡的輸出,第三層的輸出為64維的特征向量,大小為[Batch-Size×64×1],第四層的輸出為初步預測的質量得分,大小為[Batch-Size×1×1];
步驟2.4,在步驟2.1至2.3的基礎上搭建短時時空融合網絡,網絡的輸入為步驟1.2生成的視頻幀,大小為[Batch-Size×3×Width×Height],先將該輸入分別通過步驟2.1和2.2獲得空間特征和時間特征,再將步驟1.3生成的亮度圖分別與這兩種特征相組合通過步驟2.3獲得網絡的輸出:特征向量和初步預測的質量得分,二者的大小分別為[Batch-Size×64×1]和[Batch-Size×1×1];
步驟2.5,準備訓練數據,將步驟1.2生成的視頻幀作為步驟2.4所建網絡的輸入,其標簽為當前視頻的主觀質量得分;
步驟2.6,訓練短時時空融合網絡,輸入為步驟1.2生成的視頻幀,輸出為特征向量和初步預測的質量得分,使用MSE Loss比較標簽和初步預測的質量得分并對網絡進行訓練。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國傳媒大學,未經中國傳媒大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110992742.7/1.html,轉載請聲明來源鉆瓜專利網。





