[發明專利]基于多模態學習的無參考合成視頻質量評價方法在審
| 申請號: | 202211058103.4 | 申請日: | 2022-08-30 |
| 公開(公告)號: | CN115423769A | 公開(公告)日: | 2022-12-02 |
| 發明(設計)人: | 彭宗舉;金充充;陳曄曜;陳芬;陳小松;王玲 | 申請(專利權)人: | 重慶理工大學 |
| 主分類號: | G06T7/00 | 分類號: | G06T7/00;G06N3/08;G06N3/04 |
| 代理公司: | 重慶博凱知識產權代理有限公司 50212 | 代理人: | 張乙山 |
| 地址: | 400054 重*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 多模態 學習 參考 合成 視頻 質量 評價 方法 | ||
1.基于多模態學習的無參考合成視頻質量評價方法,其特征在于,包括:
S1:獲取待評價的虛擬視點視頻;
S2:基于光流估計將待評價的虛擬視點視頻分解成若干個時空域的圖像;
S3:將各個時空域的圖像輸入至預訓練的卷積神經網絡學習模型,提取虛擬視點視頻的深度特征;
S4:將各個時空域的圖像輸入至經過訓練的稀疏字典學習模型,提取虛擬視點視頻的稀疏特征;
S5:基于虛擬視點視頻的深度特征和稀疏特征進行加權回歸,進而計算對應的虛擬視點質量評價分數作為待評價虛擬視點視頻的質量評價結果。
2.如權利要求1所述的基于多模態學習的無參考合成視頻質量評價方法,其特征在于:步驟S2中,基于光流估計將虛擬視點視頻分解成空間域、垂直時域和水平時域三個時空域的圖像;
其中,虛擬視點視頻表示為寬度為W、高度為H、幀長為N的三維數據;
空間域的圖像表示由N幅W×H大小的圖像組成;
垂直時域的圖像表示由WVD幅N×H大小的圖像組成;
水平時域的圖像表示由HHD幅W×N大小的圖像組成。
3.如權利要求2所述的基于多模態學習的無參考合成視頻質量評價方法,其特征在于:步驟S2中,通過如下步驟確定垂直時域和水平時域的圖像位置和圖像數量:
S201:估計空間域中第1幀和第k幀的光流圖、第k+1幀和第2k幀的光流圖、第2k+1幀和第3k幀的光流圖,依次類推得到若干張光流圖;其中,k表示前后幀重復的自適應幀間隔閾值;
S202:計算每張光流圖中的最大像素值,并基于各張光流圖中最大像素值的坐標(x,y)分別定位垂直時域中第x張圖像和水平時域中第y張圖像的圖像位置;
S203:基于空間域的圖像數量N和自適應幀間隔閾值k確定垂直時域的圖像數量WVD和水平時域的圖像數量HHD;其中,WVD=HHD=N/k。
4.如權利要求2所述的基于多模態學習的無參考合成視頻質量評價方法,其特征在于:步驟S3中,將預訓練的ResNet-50網絡作為預訓練的卷積神經網絡學習模型;
將空間域、垂直時域和水平時域的圖像輸入預訓練的ResNet-50網絡中,分別提取得到空間域的深度特征、垂直時域的深度特征和水平時域的深度特征。
5.如權利要求4所述的基于多模態學習的無參考合成視頻質量評價方法,其特征在于:通過如下公式表示空間域的深度特征FSD,de、垂直時域的深度特征FVD,de和水平時域的深度特征FHD,de:
式中:N、WVD、HHD分別表示空間域、垂直時域和水平時域的圖像數量;表示第t1張圖像的第2048個卷積神經元,t1為空間域中的圖像數量索引,t1=1,2,...,N;表示第t2張圖像的第2048個卷積神經元,t2為垂直時域中的圖像數量索引,t2=1,2,...,WVD;表示第t3張圖像的第2048個卷積神經元,t3為水平時域中的圖像數量索引,t3=1,2,...,HHD。
6.如權利要求2所述的基于多模態學習的無參考合成視頻質量評價方法,其特征在于:步驟S4中,通過如下步驟訓練稀疏字典學習模型:
S401:獲取自然視頻作為訓練樣本;
S402:將訓練樣本分解成空間域、垂直時域和水平時域三個時空域的訓練圖像;
S403:分別將空間域、垂直時域和水平時域三個時空域的訓練圖像劃分為圖像塊進行字典訓練,得到空間域字典、垂直時域字典和水平時域字典并構成稀疏字典學習模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶理工大學,未經重慶理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211058103.4/1.html,轉載請聲明來源鉆瓜專利網。





