[發(fā)明專利]基于雙目融合網絡與顯著性的立體視頻質量評價方法在審
| 申請?zhí)枺?/td> | 202011111464.1 | 申請日: | 2020-10-16 |
| 公開(公告)號: | CN112437291A | 公開(公告)日: | 2021-03-02 |
| 發(fā)明(設計)人: | 李素梅;李玟;馬帥 | 申請(專利權)人: | 天津大學 |
| 主分類號: | H04N17/00 | 分類號: | H04N17/00;H04N13/106;G06N3/08;G06N3/04;G06K9/62 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 劉國威 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 雙目 融合 網絡 顯著 立體 視頻 質量 評價 方法 | ||
本發(fā)明屬于視頻和圖像處理領域,為建立一種有效的基于雙目融合網絡與顯著性的立體視頻質量評價方法,且貼合人眼對立體視覺的感知,本發(fā)明,基于雙目融合網絡與顯著性的立體視頻質量評價方法,首先,對立體視頻的每一幀,通過計算其空間顯著性與時間顯著性生成顯著性圖片,并將得到的順序排列的顯著性圖片稱為左視頻時空顯著性特征流與右視頻時空顯著性特征流;然后,將左、右視頻時空顯著性特征流分別作為網絡的兩個輸入;然后,網絡自主地提取融合后的綜合特征;最后全連接層將高維的綜合特征映射到輸出域,得到立體視頻的質量分數。本發(fā)明主要應用于視頻和圖像處理場合。
技術領域
本發(fā)明屬于視頻和圖像處理領域,涉及到視頻時空顯著性的計算,以及深度學習在立體視頻質量評價中的應用。具體涉及基于雙目融合網絡與顯著性的立體視頻質量評價方法。
背景技術
隨著立體視頻的廣泛應用,一系列立體視頻處理技術隨之而來,但任何處理技術都有可能對立體內容造成不同程度的失真,從而影響人們對立體視頻的感知。因此,有必要找到一個有效的立體視頻質量評價算法,來評價立體視頻的質量。一個有效的立體視頻質量評價方法不僅可以衡量立體視頻的失真程度,而且可以為當代3D技術的發(fā)展提供技術支持。
目前,存在的立體視頻質量評價方法可被分為三類:傳統(tǒng)的方法、基于稀疏的方法和基于深度學習的方法。在傳統(tǒng)方法中,最近的文章類似于[1]-[5]。不同的空間特征,時間特征和深度特征被提取,通過不同方式結合后獲得立體視頻的質量。在基于稀疏的方法中,[6]將從稀疏字典和堆疊自動編碼器中提取的特征提供給支持向量機(SVM),以獲得最終質量分數。然而,傳統(tǒng)方法和稀疏表示的方法都不符合大腦分層次提取視覺信息的事實[7]。因此,開始有研究者選擇使用深度學習完成立體視頻質量評價任務。在基于深度學習的方法中,文獻[8]分別設計了雙流深度神經網絡來評估左視圖和右視圖的質量,通過組合左視圖和右視圖質量以獲得立體視頻質量。文獻[9]通過搭建3D CNN網絡來自動提取立體視頻中的時空信息。
以上文獻均使用了不同的方法來處理兩視點間的相關性。在深度學習的方法中,[8]在最后一步結合了左右質量,[9]將左右視點進行簡單的“加和”或“做差”,然后像2D視頻一樣處理得到質量分數。這些處理方式似乎稍微簡單,并忽略了左視圖和右視圖之間的相關性。同樣,無論是傳統(tǒng)方法還是稀疏表示方法,它們對兩個視圖都有類似的處理方式。文章[6]首先融合了左右視圖,文章[1][2][3][4]在最后一步中結合了左視圖和右視圖的質量,且忽視了大腦的視覺融合機制。
本發(fā)明的設計靈感來源于大腦皮層對3D視覺信號的響應原理,立體視覺感知是大腦長期處理的結果,并且融合感知始終存在于從低層到高層的大腦皮層當中。當人腦處理立體視覺信號時,雙目視差最初形成于初級視覺皮層V1區(qū)域[10]。進一步地,在次級視覺皮層區(qū)域V2中選擇性增強深度感知。然后,3D視覺刺激導致視覺皮層的V3區(qū)域激活[11]。V4視覺區(qū)域在精細的深度感知與3D成像方面起著至關重要的作用[12]。此外,雙目競爭還涉及V1,V2,V3和V4區(qū)域神經元活性的增強[13]。并且當發(fā)生雙目競爭時,應通過分配不同的權重來融合左右視圖信號[15][16]。因此,本發(fā)明將“加權模塊”嵌入到融合網絡中來盡可能地模仿雙目競爭。“加權模塊”由文獻[14]中的SE塊來實現,用以對來自不同視點的特征圖加權。
本發(fā)明選擇時空顯著性特征流作為網絡的輸入以反映視頻時間與空間上的相關性。時空顯著性特征流通過計算視頻的時間顯著性與空間顯著性得到,這也與空間與時間不是互相獨立的理論是一致的。因為空間像素的變化為時域提供了運動信息與注意機制,反過來,時間流反映了視頻中的空間顯著性。
本發(fā)明提出了一種基于雙目融合網絡與顯著性的立體視頻質量評價方法。首先,提出的雙目融合網絡盡可能地模仿了從低層到高層的融合感知過程,同時,在每次融合之前為不同視圖的特征圖指定不同的權重,以盡可能地模仿雙目競爭。另外,本發(fā)明將時空顯著性特征流作為網絡的輸入,確保網絡能夠綜合性地學習與分析空間、時間與深度特征。
發(fā)明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011111464.1/2.html,轉載請聲明來源鉆瓜專利網。





