[發明專利]基于深度學習的快速壓縮立體視頻質量評價方法有效
| 申請號: | 201910034440.1 | 申請日: | 2019-01-15 |
| 公開(公告)號: | CN109831664B | 公開(公告)日: | 2020-11-27 |
| 發明(設計)人: | 李素梅;馬帥 | 申請(專利權)人: | 天津大學 |
| 主分類號: | H04N17/00 | 分類號: | H04N17/00;H04N13/106;H04N13/15;H04N13/156;G06T7/00;G06K9/00 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 劉國威 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 學習 快速 壓縮 立體 視頻 質量 評價 方法 | ||
1.一種基于深度學習的快速壓縮立體視頻質量評價方法,其特征是,首先,對立體視頻的左右視點進行融合,得到單視點視頻,然后提取單視點視頻中的關鍵幀,關鍵幀與部分非關鍵幀一起作為卷積神經網絡CNN的輸入,最后得到立體視頻的質量;其中,對立體視頻的左右視點進行融合具體是采用雙目融合算法,其具體步驟是,對于立體視頻的每一幀,轉換RGB彩色空間到YIQ彩色空間,分別在Y,I,Q三個通道內做小波變換,小波函數采用Daubechies函數,通過小波變換得到每個通道的四個系數:低頻系數、水平高頻系數、豎直高頻系數和對角高頻系數,然后根據公式:
選擇融合圖像每個通道的四個系數,其中,Selectt(i,j)代表在單視點視頻第t幀的第(i,j)個像素點的融合系數,coff_lt(i,j)代表左視點第t幀的第(i,j)個像素點的系數,coff_rt(i,j)代表右視點第t幀的第(i,j)個像素點的系數,d代表梯度,var代表方差,每個通道的四個系數都按照公式(1)所示進行選擇,然后,根據選出來的四個系數,對每個顏色通道做小波反變換,最后將YIQ顏色空間轉換成RGB顏色空間,得到單視點視頻的每一幀。
2.如權利要求1所述的基于深度學習的快速壓縮立體視頻質量評價方法,其特征是,提取單視點視頻中的關鍵幀具體步驟:首先將視頻的每一幀二值化,選取前景區域作為基本的塊,根據公式Block difference=histogram of 1st-histogram of 2nd計算相鄰幀對應塊的塊差別,其中,Block difference代表塊差別,histogram of 1st代表前一幀相應塊的x2直方圖,histogram of 2nd代表后一幀相應塊的x2直方圖,再根據公式Threshold=mean deviation+(a*standard deviation)計算閾值,其中,mean deviation代表所有幀塊差別的均值,standard deviation代表所有幀塊差別的方差,a為常數,這里取1,如果這一幀的塊差別大于閾值,即判斷為是關鍵幀。
3.如權利要求1所述的基于深度學習的快速壓縮立體視頻質量評價方法,其特征是,卷積神經網絡CNN選用在大數據集Imagenet上訓練好的網絡模型Alexnet,具體進行遷移學習:修改Alexnet最后一層的輸出為5,代表立體視頻的五種質量,用立體視頻的數據集微調Alexnet網絡,得到立體視頻的質量。
4.如權利要求1所述的基于深度學習的快速壓縮立體視頻質量評價方法,其特征是,進一步地,關鍵幀的獲取具體步驟如下:
(a)讀入視頻的每一幀,選取每一幀不同的前景區域作為不同的塊;
(b)計算每個塊的x2直方圖,根據公式(2)計算相鄰幀對應塊的塊差別;
Block difference=histogram of 1st-histogram of 2nd (2)
其中,Block difference代表塊差別,histogram of 1st代表前一幀相應塊的x2直方圖,histogram of 2nd代表后一幀相應塊的x2直方圖;
(c)計算所有幀塊差別的均值mean deviation;
(d)計算所有幀塊差別的方差standard deviation;
(e)根據公式(3)計算閾值,如果這一幀塊差別的值大于閾值,則判定為關鍵幀;
Threshold=mean deviation+(a*standard deviation) (3)
其中,Threshold為閾值,a為常數;
所述卷積神經網絡CNN具體為Alexnet網絡,Alexnet網絡共有8層,包括五個卷積層和三個全連接層,在第一個、第二個、第五個卷積層后面各有一個池化層,卷積層的定義如公式(4)所示:
Fi(Y)=RELU(Wi*Fi-1(Y)+Bi) (4)
其中,Wi和Bi分別代表第i個卷積層的卷積核和偏置,Fi是第i個卷積層的輸出,RELU是激活函數,*代表卷積操作;
池化層的定義如公式(5)所示:
P=Max{pk|k=1,2,3,…,N} (5)
其中,pk是特征圖中第k個位置的值,N是池化層中卷積核的大小,P是最大池化的結果,即池化層的輸出。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910034440.1/1.html,轉載請聲明來源鉆瓜專利網。





