[發明專利]一種基于多級預測架構的視頻描述方法及系統有效
| 申請號: | 201910947833.1 | 申請日: | 2019-10-08 |
| 公開(公告)號: | CN110674783B | 公開(公告)日: | 2022-06-28 |
| 發明(設計)人: | 尹曉雅;李銳;于治樓 | 申請(專利權)人: | 山東浪潮科學研究院有限公司 |
| 主分類號: | G06V20/40 | 分類號: | G06V20/40;G06V10/774;G06V10/82;G06F40/289;G06N3/04 |
| 代理公司: | 濟南信達專利事務所有限公司 37100 | 代理人: | 孫園園 |
| 地址: | 250100 山東省濟*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 多級 預測 架構 視頻 描述 方法 系統 | ||
1.一種基于多級預測架構的視頻描述方法,其特征在于,該方法具體步驟如下:
S1、獲取原始數據:將獲取的原始監控視頻切割成短視頻,短視頻是每隔相等短時間間隔抽取幀進行分析,并在每段短視頻中通過人工進行標注,同時將短視頻劃分為訓練集和測試集;
S2、使用nltk對描述進行篩選分詞:對每段短視頻中的人工標注進行篩選分詞,將標注篩分成單詞;
S3、制作單詞表:根據篩分完成的訓練集的標注制作單詞表,按照標注中單詞次數由高到低排序組成單詞表;
S4、預訓練YOLO:使用訓練好的訓練集模型提取k個顯著區域;具體步驟如下:
S401、使用目標檢測網絡YOLO來提取幀中的顯著區域,確定所有待定區域的邊界框;
S402、采用非極大值抑制方法對所有待定區域進行篩選;
S403、對篩選后得到的感興趣的區域采用分類網絡,用分類網絡的最后一層卷積層表示顯著區域的語義特征向量;
S404、最終使用空間自適應平均池將語義特征向量調整為固定大小的空間表示向量;
S5、通過多層解碼器LSTM及堆疊注意力機制得到語言描述:采用一種由粗粒度到細粒度的框架,使用編碼器提取一組顯著的圖像區域,每個區域由一個特征向量表示,再將提取到的特征向量序列通過一層粗粒度解碼器LSTM和兩層細粒度解碼器LSTM,經過堆疊注意力機制得到語言描述;具體如下:
第一階段是粗粒度解碼器LSTM:全局視覺向量,結合最后一層細粒度解碼器LSTM的輸出一同作為輸入,得到粗粒度解碼器LSTM的隱藏狀態和第一層粗粒度的語言描述;
第二階段是第一層細粒度解碼器LSTM:通過堆疊注意力機制,計算注意力權值,將加權平均后的視覺向量作為輸入,結合上一層的隱藏狀態一同作為輸入,得到第一層細粒度的隱藏狀態和第一層細粒度的語言描述;
第三階段是第二層細粒度解碼器LSTM:通過堆疊注意力機制,計算堆疊注意力權重,將加權平均后的視覺向量作為輸入,結合上一層的隱藏狀態一同作為輸入,得到最終最精細的語言描述;
S6、將得到的語言描述分別與真實標注計算交叉熵,同時將得到的語言描述的和作為總體損失;其中,交叉熵函數使用tensorflow庫中的交叉熵損失函數;
將得到的第一層粗粒度的語言描述、第一層細粒度的語言描述和最終最精細的語言描述分別與真實標注計算交叉熵,同時將得到的第一層粗粒度的語言描述、第一層細粒度的語言描述和最終最精細的語言描述的和作為總體損失。
2.根據權利要求1所述的基于多級預測架構的視頻描述方法,其特征在于,所述步驟S1獲取原始數據中短視頻每段的時長為10-20秒;訓練集和測試集的劃分比例為8:2。
3.根據權利要求1所述的基于多級預測架構的視頻描述方法,其特征在于,所述步驟S2使用nltk對描述進行篩選分詞是判斷標注是英文還是中文:
若是英文,則根據空格劃分;
若是中文,則根據自帶的語料庫進行劃分;其中,nltk為python中自帶的語料庫。
4.一種基于多級預測架構的視頻描述系統,其特征在于,該系統包括,
原始數據獲取模塊,用于將獲取的原始監控視頻切割成短視頻,短視頻是每隔相等短時間間隔抽取幀進行分析,并在每段短視頻中通過人工進行標注,同時將短視頻劃分為訓練集和測試集;
篩選分詞模塊,用于使用nltk對描述進行篩選分詞,對每段短視頻中的人工標注進行篩選分詞,將標注篩分成單詞;
單詞表制作模塊,用于根據篩分完成的訓練集的標注制作單詞表,按照標注中單詞次數由高到低排序組成單詞表;
YOLO預訓練模塊,用于使用訓練好的訓練集模型提取k個顯著區域;
語言描述獲取模塊,用于通過多層解碼器LSTM及堆疊注意力機制得到語言描述,具體采用一種由粗粒度到細粒度的框架,使用編碼器提取一組顯著的圖像區域,每個區域由一個特征向量表示,再將提取到的特征向量序列通過一層粗粒度解碼器LSTM和兩層細粒度解碼器LSTM,經過堆疊注意力機制得到語言描述;其中,語言描述獲取模塊包括如下三個階段:
第一階段粗粒度解碼器LSTM:從全局圖像特征預測粗粒度描述,將編碼器階段得到的所有顯著區域的向量表示采用平均池化得到一個完整的全局視覺表示向量,結合最后一層細粒度解碼器LSTM的輸出一同作為輸入,得到第一層粗粒度的隱藏狀態和第一層粗粒度的語言描述;
第二階段第一層細粒度解碼器LSTM:通過堆疊注意力機制,過濾噪聲,強調詳細的視覺信息;結合上一層當前時刻的隱藏狀態,計算當前層當前時刻的對每個區域的注意力權值,將加權平均后的視覺向量作為輸入,結合上一層的隱藏狀態一同作為輸入,得到第一層細粒度的隱藏狀態和第一層細粒度的語言描述;
第三階段第二層細粒度解碼器LSTM:該階段會得到比第一層細粒度解碼器LSTM更加精細的描述以及注意力權重;結合上一層當前時刻的隱藏狀態和上一層加權后視覺向量,計算當前層當前時刻的堆疊注意力權重,將加權平均后的視覺向量作為輸入,結合上一層的隱藏狀態一同作為輸入,得到最終最精細的語言描述;
梯度計算模塊,用于將得到的語言描述分別與真實標注計算交叉熵,同時將得到的語言描述的和作為總體損失。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東浪潮科學研究院有限公司,未經山東浪潮科學研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910947833.1/1.html,轉載請聲明來源鉆瓜專利網。





