[發明專利]一種基于深度學習的視頻GIS數據檢索方法在審
| 申請號: | 201810162847.8 | 申請日: | 2018-02-26 |
| 公開(公告)號: | CN108280233A | 公開(公告)日: | 2018-07-13 |
| 發明(設計)人: | 鄒志強;戴海宏;吳家皋;何旭;熊俊杰;索玉聰 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06N3/04;G06N3/08 |
| 代理公司: | 南京瑞弘專利商標事務所(普通合伙) 32249 | 代理人: | 楊曉玲 |
| 地址: | 210023 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 視頻 檢索 幀圖像 卷積神經網絡 歐式距離 粗檢索 第一層 幀差 關鍵幀提取 存儲開銷 漢明距離 深度特征 時間采樣 視頻鏡頭 特征表示 關鍵幀 候選池 激活層 池化 分層 哈希 卷積 映射 過濾 學習 | ||
1.一種基于深度學習的視頻GIS數據檢索方法,其特征在于,包括以下步驟:
a.關鍵幀提取
在對視頻GIS數據進行空間和時間采樣下,計算視頻GIS幀幀差的歐式距離,并對視頻鏡頭進行關鍵幀提取;
b.深度特征提取
建立由卷積層、激活層和池化層交替構成的深度卷積神經網絡模型,對輸入的視頻GIS幀圖像進行層層映射,得到各層對于視頻GIS幀圖像不同的表示形式,實現視頻GIS幀圖像的深度特征表示;
c.分層檢索
所述檢索過程包括粗檢索和精檢索:第一層將深度卷積神經網絡模型學習到的高維特征向量轉化成二值碼,然后使用漢明距離度量二值碼之間的相似性,得到候選相似關鍵幀的候選池;第二層將待檢索的視頻GIS幀圖像與候選池中的視頻GIS幀圖像用歐式距離度量它們之間的相似性,最終得到前m個相似的檢索結果。
2.根據權利要求1所述的一種基于深度學習的視頻GIS數據檢索方法,其特征在于,所述a.關鍵幀提取具體包括:
輸入:視頻鏡頭V={V1,V2,...Vn},選取的關鍵幀數:K;
輸出:視頻的關鍵幀;
a1.采用歐式距離來計算相鄰關鍵幀的幀差,設置循環變量i從1到n-2,n表示鏡頭的總幀數;
a2.當i=n-2時,表示鏡頭的所有視頻GIS幀已經遍歷結束,輸出視頻GIS幀差的歐式距離,結束循環,否則繼續執行a1;
a3.計算幀差歐式距離的極值、最大值、最小值及中間值;
a4.若極值>中間值,則篩選出極值,否則刪除小于等于中間值的極值點;
a5.若選取的關鍵幀數K>篩選的極值點的個數,則選取篩選的極值作為關鍵幀,否則,選取篩選的極值中前K幀作為關鍵幀。
3.根據權利要求1所述的一種基于深度學習的視頻GIS數據檢索方法,其特征在于,所述b.深度特征提取具體包括:
b1.訓練前統一圖像的尺寸:采用centerCrop的方法將圖像尺寸統一到224*224,即先按照最小邊縮放到224的比例系數,并進行整體縮放,接著對長邊以中心為基準向兩邊分別做等長裁剪,保留224的尺寸;
b2.建立深度卷積神經網絡模型:包括5段卷積和3個全連接層,每段卷積內有2-3個卷積層,同時每段卷積尾部連接一個最大池化層來縮小圖片的尺寸;每個卷積層有3*3的過濾器,然后使用激活函數ReLU,由激活函數完成非線性變換,增強本模型對特征的學習能力;
b3.損失函數及優化方法:在上述模型構建后,需要訓練該模型,其中選用categorical_crossentropy損失函數,通過隨機梯度下降法進行參數尋優以最小化損失函數,其中學習率為0.1,衰減項1e-6,動量0.9,使用nesterov最優梯度優化算法;
b4.基于模型提取特征:在提取特征時,通過b1.將圖像縮放到一個統一的尺寸,并將圖像輸入上述模型中進行計算,同時訓練卷積神經網絡,最終得到高維的特征向量;在初始化階段,首先對視頻GIS關鍵幀庫進行特征提取操作,生成高維實值特征,從而構造一個特征數據庫;當進行視頻GIS數據檢索時,對待檢索的視頻GIS幀圖像進行特征提取操作,生成待檢索特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810162847.8/1.html,轉載請聲明來源鉆瓜專利網。





