[發(fā)明專利]視頻特征提取方法及應(yīng)用該方法的視頻量化方法在審
| 申請?zhí)枺?/td> | 202010771697.8 | 申請日: | 2020-08-04 |
| 公開(公告)號: | CN111897995A | 公開(公告)日: | 2020-11-06 |
| 發(fā)明(設(shè)計)人: | 宋井寬;郎睿敏;朱筱蘇;高聯(lián)麗 | 申請(專利權(quán))人: | 成都井之麗科技有限公司;電子科技大學(xué) |
| 主分類號: | G06F16/73 | 分類號: | G06F16/73;G06F16/783;G06F17/16;G06N3/04 |
| 代理公司: | 成都希盛知識產(chǎn)權(quán)代理有限公司 51226 | 代理人: | 陳澤斌 |
| 地址: | 610000 四川省成都*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 視頻 特征 提取 方法 應(yīng)用 量化 | ||
本發(fā)明涉及計算機視覺技術(shù)領(lǐng)域,尤其涉及視頻特征提取方法及應(yīng)用該方法的視頻量化方法,提供了一種視頻特征提取方法,以解決有效獲得包含豐富上下文信息的視頻特征的技術(shù)問題,同時提供了一種應(yīng)用上述視頻特征提取方法的視頻量化方法。視頻特征提取方法包括:從目標(biāo)視頻中提取原始視覺特征并構(gòu)建原始特征矩陣,所述原始特征矩陣包含每幀采樣圖像的空間信息和每幀采樣圖像之間的時序信息;根據(jù)原始特征矩陣生成采樣圖像空間注意力熱度圖和采樣圖像時序注意力熱度圖;以及將原始特征矩陣、采樣圖像空間注意力熱度圖、采樣圖像時序注意力熱度圖相加融合得到目標(biāo)特征矩陣。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機視覺技術(shù)領(lǐng)域,尤其涉及視頻特征提取方法及應(yīng)用該方法的視頻量化方法。
背景技術(shù)
視頻檢索是計算機視覺中的一個基礎(chǔ)又富有挑戰(zhàn)性的問題,其目的是從海量的視頻庫中檢索出與輸入視頻最相似的視頻。而無監(jiān)督的視頻量化檢索則是通過將原始無標(biāo)簽的視頻的視覺特征壓縮成緊湊的二進制碼來實現(xiàn)視頻的快速檢索。
目前已知的一種無監(jiān)督的視頻量化檢索方法是先使用卷積神經(jīng)網(wǎng)絡(luò)提取視頻每幀圖片的視覺特征信息,再使用循環(huán)神經(jīng)網(wǎng)絡(luò)處理這些幀的特征得到視頻特征,然后使用哈希算法將特征信息壓縮至極短的二進制編碼,以此縮減數(shù)據(jù)庫體積,加快檢索速度。
上述方法存在兩方面問題。第一,通過卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的方式難以獲取長時間范圍的信息,因此難以保留視頻的上下文信息,無法獲取更好的視頻特征。第二,在大規(guī)模的視頻庫下,視頻特征十分復(fù)雜,哈希算法難以獲得好的準(zhǔn)確率。
發(fā)明創(chuàng)造內(nèi)容
本發(fā)明所要解決的技術(shù)問題是:提供一種視頻特征提取方法,以解決有效獲得包含豐富上下文信息的視頻特征的技術(shù)問題,以及提供一種應(yīng)用上述視頻特征提取方法的視頻量化方法。
本發(fā)明解決上述技術(shù)問題所采用的技術(shù)方案是:一種視頻特征提取方法,包括:從目標(biāo)視頻中提取原始視覺特征并構(gòu)建原始特征矩陣,所述原始特征矩陣包含每幀采樣圖像的空間信息和每幀采樣圖像之間的時序信息;根據(jù)原始特征矩陣生成采樣圖像空間注意力熱度圖和采樣圖像時序注意力熱度圖;以及將原始特征矩陣、采樣圖像空間注意力熱度圖、采樣圖像時序注意力熱度圖相加融合得到目標(biāo)特征矩陣。
根據(jù)本說明書提供的實施例,根據(jù)原始特征矩陣生成采樣圖像空間注意力熱度圖包括:根據(jù)原始特征矩陣生成表示每幀采樣圖像中每個像素點和與該像素點處于同一行的其他所有像素點之間信息依賴關(guān)系的行維度注意力熱度圖;和根據(jù)原始特征矩陣生成表示每幀采樣圖像中每個像素點和與該像素點處于同一列的其他所有像素點之間信息依賴關(guān)系的列維度注意力熱度圖。
根據(jù)本說明書提供的實施例,根據(jù)原始特征矩陣生成采樣圖像時序注意力熱度圖包括:根據(jù)原始特征矩陣生成表示每幀采樣圖像中每個像素點和與該像素點處于同一時序的其他所有像素點之間信息依賴關(guān)系的時序維度注意力熱度圖。
根據(jù)本說明書提供的實施例,若設(shè)目標(biāo)視頻的原始特征矩陣Oi∈RT′×h×w×c,其中h為視頻每幀圖像的高度、w為視頻每幀圖像的寬度、c為視頻每幀圖像的通道數(shù)、T′為采樣圖像幀數(shù)。則,根據(jù)原始特征矩陣生成表示每幀采樣圖像中每個像素點和與該像素點處于同一行的其他所有像素點之間信息依賴關(guān)系的行維度注意力熱度圖包括:將原始特征矩陣重塑為{T′×h}×w×c;分別采用三個尺寸為c*1*1的卷積核對重塑后的矩陣進行卷積操作,得到三個維度均為{T′×h}×w×c的特征矩陣rθ,rρ,rγ,其中c*1*1為通道數(shù)*高度*寬度;將所述三個特征矩陣rθ,rρ,rγ按公式進行運算,得到行維度注意力熱度圖r,其中是特征矩陣rγ的轉(zhuǎn)置矩陣。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于成都井之麗科技有限公司;電子科技大學(xué),未經(jīng)成都井之麗科技有限公司;電子科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010771697.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





