[發明專利]一種基于深度學習的視頻理解方法在審
| 申請號: | 201711053056.3 | 申請日: | 2017-10-31 |
| 公開(公告)號: | CN107909014A | 公開(公告)日: | 2018-04-13 |
| 發明(設計)人: | 蘇育挺;劉瑤瑤;劉安安 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62 |
| 代理公司: | 天津市北洋有限責任專利代理事務所12201 | 代理人: | 杜文茹 |
| 地址: | 300192*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 視頻 理解 方法 | ||
技術領域
本發明涉及一種視頻理解方法。特別是涉及一種基于深度學習的視頻理解方法。
背景技術
隨著互聯網的快速發展,人類逐漸進入大數據的時代。網絡上存在著大量的圖片和視頻數據。這些數據的來源也各不相同,絕大部分數據沒有相關的文字描述。這樣,我們大規模地處理這些數據時,就有著相當大的困難。對于人類而言,根據圖片或者視頻的內容寫出一段對應的描述性文字是很容易的,但對于計算機進行這樣的任務就具有相當大的難度。圖片/視頻描述(image/video caption)這一課題就是由此進入了人們的視野。這是一個融合計算機視覺、自然語言處理和機器學習的綜合問題,它類似于翻譯一副圖片/視頻為一段描述文字。最初的視頻描述問題是用于道路監控系統之中的,Kollnig等人在1994年的文章中就提出了用一系列動詞和短句替代數字來表述車輛的活動情況。這類問題被稱為逆好萊塢問題(inverse Hollywood problem)。當時,人們處理這類問題的思路是將圖像語義分為底層特征層,對象層和概念層。先識別出圖像中關鍵的對象,再通過環境和對象預測發生的事情,最后整合為一句話。
近年來,隨著大數據和深度網絡在機器翻譯領域的應用,圖片和視頻描述這一研究課題迎來了新的突破。Subhashini Venugopalan等人在2015ICCV上所發表的《Sequence to Sequence–Video to Text》(如Venugopalan S,Rohrbach M,Donahue J,et al.Sequence to Sequence--Video to Text[C]//IEEE International Conference on Computer Vision.IEEE,2015:4534-4542)引入LSTM網絡來處理視頻描述問題,使得深度學習的方法在該領域得以應用。
研究圖片和視頻描述問題,一方面為互聯網上大量無標簽的圖片和視頻數據的處理、整合和利用提供了可能;一方面也為使用深度網絡處理語言文字類問題,實現深度網絡中圖像視頻數據與文字數據的相互轉換提供了思路。
從實際的應用角度而言,圖片視頻描述的研究,可以應用于大量監控視頻的處理,如道路交通監控、機場和火車站的安全監控等等。亦可以用于視覺障礙人士獲取信息。隨著社交網絡的發展,YouTube、Facebook等社交媒體上有用戶上傳的大量圖片視頻,很多都是未經描述的。使用圖片和視頻描述技術對這些數據進行初步處理有利于這些數據進一步的分類和整合。
從科研角度而言,當下這一課題結合了深度學習方法和語言學知識,是一類多學科融合性問題。這一問題的研究有利于為深度網絡在其他領域的應用提供參考,也對機器翻譯等其他語言學問題的研究提供了新的思路。使用卷積神經網絡處理二維圖片數據的研究已經很多了,但是使用深度網絡處理視頻數據的方法還處于有待提高的階段。視頻描述的研究對于如何整合時域信息以達到有效地利用提供了大量的參照樣本。
發明內容
本發明所要解決的技術問題是,提供一種基于深度學習的視頻理解方法,能夠基于深度學習網絡進行端到端的優化,并基于視頻的時間維度信息和圖像信息進行處理,大幅提高視頻理解輸出信息的有效性和準確率。
本發明所采用的技術方案是:一種基于深度學習的視頻理解方法,包括如下步驟:
1)通過訓練獲取基于LSTM網絡的模型,包括:
(1)使用C3D算法取得圖像特征;
(2)使用PCA算法進行降維處理,將特征向量的維數由4096降至128,并進行時域混疊和歸一化,得到歸一化后的特征向量;
(3)使用MSR-VTT數據庫在LSTM網絡中進行訓練,得到LSTM網絡模型,具體是對每個視頻圖像序列x歸一化后的特征向量,按視頻圖像序列x分組,將分組后的特征向量和MSR-VTT數據庫中對應的語句信息均輸入LSTM網絡,訓練得到基于LSTM網絡的模型;
2)通過基于LSTM網絡的模型,得到待測視頻圖像序列的語句信息,包括:
(1)使用C3D算法取得待測視頻圖像序列的特征向量;
(2)使用PCA算法進行降維處理,將特征向量的維數由4096降至128,并進行時域混疊和歸一化,得到歸一化后的特征向量;
(3)通過基于LSTM網絡的模型,得到待測視頻圖像序列的輸出的語句。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711053056.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:寵物喂食的方法、裝置以及寵物喂食機
- 下一篇:一種熱塑性摩擦連接器





