[發明專利]基于多層注意力和BiGRU的專業立體視頻舒適度分類方法有效
| 申請號: | 202110016985.7 | 申請日: | 2021-01-07 |
| 公開(公告)號: | CN112613486B | 公開(公告)日: | 2023-08-08 |
| 發明(設計)人: | 牛玉貞;鄭愈明;彭丹泓 | 申請(專利權)人: | 福州大學 |
| 主分類號: | G06V20/40 | 分類號: | G06V20/40;G06V10/26;G06N3/048;G06V10/82;G06V10/762;G06N3/084;G06N5/04 |
| 代理公司: | 福州元創專利商標代理有限公司 35100 | 代理人: | 陳明鑫;蔡學俊 |
| 地址: | 350108 福建省福州市*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 多層 注意力 bigru 專業 立體 視頻 舒適 分類 方法 | ||
1.一種基于多層注意力和BiGRU的專業立體視頻舒適度分類方法,其特征在于,包括如下步驟:
步驟S1、對訓練視頻集合和待預測視頻集合進行場景分割并通過預處理得到視差圖;
步驟S2、幀級處理,將訓練視頻集合中的立體視頻左視圖和對應的視差圖作為雙流輸入進行幀級處理,使用時間推理網絡從多個時間尺度對每個鏡頭內幀間的時序關系進行感知;所述步驟S2具體包括以下步驟:
步驟S21、對一個鏡頭內的幀進行稀疏采樣,隨機選取順序的8幀;
步驟S22、從采樣出來的8幀中隨機抽取順序的a幀使用預訓練的時間推理網絡分別對a幀之間的時序關系進行感知,且a的取值范圍在2-8之間;給定視頻V,兩幀之間的時序關系T2(V)表示成下式:
其中,fi和fj分別表示的是使用包括AlexNet、VGG、GoogLeNet、ResNet或BN-Inception的基礎特征提取網絡提取出的視頻第i幀和第j幀的特征,是一個兩層的多層感知機,每層有256個單元,θ是多層感知機的參數;3-8幀間的時序關系T3(V)、T4(V)、T5(V)、T6(V)、T7(V)和T8(V)分別表示成下式:
其中,fi、fj、fk、fl、fm、fn、fo和fp表示的是使用包括AlexNet、VGG、GoogLeNet、ResNet或BN-Inception的基礎特征提取網絡提取出的視頻第i幀、第j幀、第k幀、第l幀、第m幀、第n幀、第o幀和第p幀的特征,表示用于提取a幀之間時序關系的一個兩層的多層感知機,每層有256個單元,θ是多層感知機的參數;
步驟S23、將鏡頭內各種時間尺度的幀間時序關系進行拼接得到幀級特征Tall(V),計算公式如下所示:
Tall(V)=[T2(V),T3(V),T4(V),T5(V),T6(V),T7(V),T8(V)]
步驟S3、幀級注意力處理,對每個鏡頭內幀間的時序關系進行加權求和得到最終的幀級特征;
步驟S4、鏡頭級處理,使用循環神經網絡雙向門控循環單元對連續多個鏡頭的幀級特征進行感知,輸出隱藏狀態集合;
步驟S5、鏡頭級注意力處理,對步驟S4輸出的隱藏狀態集合進行加權求和得到最終的鏡頭級特征;
步驟S6、雙流融合,使用通道注意力網絡對步驟S5輸出的鏡頭級特征進行融合得到最終的隱藏狀態;
步驟S7、最終的隱藏狀態經過分類網絡輸出分類概率,并將專業立體視頻分類為適合兒童觀看或僅適合成人觀看,從步驟S2至此即得到構建好的專業立體視頻視覺舒適度分類模型;對所述專業立體視頻視覺舒適度分類模型進行訓練,訓練過程中通過求解最小化損失函數,學習到專業立體視頻視覺舒適度分類模型的最優參數,并保存訓好的模型;
步驟S8、將待測試視頻集合的左視圖和對應的視差圖輸入訓練好的模型中進行分類預測。
2.根據權利要求1所述的基于多層注意力和BiGRU的專業立體視頻舒適度分類方法,其特征在于,所述步驟S1具體包括以下步驟:
步驟S11、使用多媒體視頻處理工具將視頻分割成一幀幀圖像;
步驟S12、利用鏡頭劃分算法將立體視頻劃分為互不重疊的視頻片段,每一個片段稱為一個鏡頭;
步驟S13、將每一幀分割為左、右視圖,使用SiftFlow算法計算左右視圖中對應像素點的水平位移,作為視差圖。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福州大學,未經福州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110016985.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:電機伸縮式按摩的控制系統
- 下一篇:一種基于FPGA的逆時偏移成像方法
- 基于Smi2Vec的BiGRU藥物毒性預測系統及預測方法
- 基于RoBERTa-BiGRU-LAN模型的中文命名實體識別方法及裝置
- 一種基于ERNIE-BiGRU的中文文本分類方法
- 基于深度學習的預測化合物蛋白質親和力新型編碼方案、計算機設備、存儲介質
- 一種基于BiGRU的智能電表計量模塊故障預測與診斷方法
- 基于邊緣注意力機制的預測化合物蛋白質親和力方法、計算機設備、存儲介質
- 一種預測化合物蛋白質親和力的新型深度學習模型、計算機設備、存儲介質
- 基于單獨注意力機制的預測化合物蛋白質親和力方法、計算機設備、存儲介質
- 一種基于ATAE-BiGRU的文本方面情感分類方法及系統
- 一種基于自注意力機制和BiGRU的文本分類方法





