[發(fā)明專利]基于單幀和連續(xù)多幀抽樣并行的視頻搜索方法有效
| 申請?zhí)枺?/td> | 202010713098.0 | 申請日: | 2020-07-22 |
| 公開(公告)號: | CN111813996B | 公開(公告)日: | 2022-03-01 |
| 發(fā)明(設(shè)計)人: | 梁敏 | 申請(專利權(quán))人: | 四川長虹電器股份有限公司 |
| 主分類號: | G06F16/783 | 分類號: | G06F16/783;G06N3/04 |
| 代理公司: | 四川省成都市天策商標(biāo)專利事務(wù)所(有限合伙) 51213 | 代理人: | 陳藝文 |
| 地址: | 621000 四*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 連續(xù) 抽樣 并行 視頻 搜索 方法 | ||
本發(fā)明公開了一種基于單幀和連續(xù)多幀抽樣并行的視頻搜索方法,包括:訓(xùn)練多路神經(jīng)網(wǎng)絡(luò);將待搜索視屏按時序分堆處理為多個視頻堆,對每個視頻堆的幀隨機連續(xù)采樣得到若干幀,得到堆采樣視頻數(shù)據(jù)集,再對每個視屏堆分別進(jìn)行隨機圖像幀采樣,每個視屏堆隨機采樣獲取一個單幀,得到單幀采樣視屏數(shù)據(jù)集;將所述堆采樣視頻數(shù)據(jù)集和單幀采樣視屏數(shù)據(jù)集分別輸入到所述多路神經(jīng)網(wǎng)絡(luò)中進(jìn)行堆采樣特征向量的獲取以及單幀采樣特征向量的獲取,并利用該多路神經(jīng)網(wǎng)絡(luò)將提取的圖像特征向量抽取得到最終的視頻特征進(jìn)行視頻搜索;本發(fā)明可提高視頻搜索的準(zhǔn)確性。
技術(shù)領(lǐng)域
本發(fā)明涉及人工智能計算機視覺處理技術(shù)領(lǐng)域,特別是一種基于單幀和連續(xù)多幀抽樣并行的視頻搜索方法。
背景技術(shù)
隨著傳統(tǒng)實體經(jīng)濟(jì)越來越智能化,人們開始不斷使用快速發(fā)展的互聯(lián)網(wǎng)技術(shù),以此來提高日常的生活品質(zhì)。視頻搜索作為智能終端目前的主要功能之一,在現(xiàn)實中的使用頻率越來越高,而對于視頻的搜索多基于文字信息和圖片信息。針對圖片信息的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中,依賴單幀的神經(jīng)網(wǎng)絡(luò)搜索的網(wǎng)絡(luò)越來越多,但是當(dāng)前網(wǎng)絡(luò)的效果并不好,搜索系統(tǒng)在進(jìn)行圖像特征提取時,所使用的單幀內(nèi)容采樣零散隨機,并沒有覆蓋整個視頻,因此丟失了較多的信息,使得網(wǎng)絡(luò)本身對于本身視頻信息的獲取有偏差。
現(xiàn)有利用神經(jīng)網(wǎng)絡(luò)依賴提取圖像幀特征來搜索視頻的方法,在采樣時均是采集一定數(shù)量的圖像幀,再將它們作為單幀考慮成獨立的圖片來提取共同特征,再去和目標(biāo)視頻進(jìn)行比對后確定搜索對象。這種方法有兩個問題:首先,采樣圖像幀時,采樣間隔過大,或是幀數(shù)采集數(shù)量過少,都會導(dǎo)致模型本身對于原視頻的特征捕獲不夠準(zhǔn)確,對圖像之間相關(guān)性較強的部分不能有效捕捉。其次,目前方法提取的特征較少,比較適應(yīng)采樣的圖像幀局部特征有微小變化的情況,相對的容錯率較低,對于圖像特征的提取和統(tǒng)計都容易產(chǎn)生一定的偏差。圖像特征的提取效果直接影響視頻識別的效率,所以目前的方案缺陷降低了視頻搜索的準(zhǔn)確率。
發(fā)明內(nèi)容
為解決現(xiàn)有技術(shù)中存在的問題,本發(fā)明的目的是提供一種基于單幀和連續(xù)多幀抽樣并行的視頻搜索方法,首先對視頻流采樣,采樣方式分為堆采樣和單幀采樣兩種;單幀采樣以單個圖像幀為采樣輸出(RGB圖像),表示視頻中某一幀的靜態(tài)信息;堆采樣是以單幀為基準(zhǔn),采樣時序連續(xù)的多幀圖像(RGB)堆疊在一起為輸入;將兩路采樣數(shù)據(jù)的特征向量,分別輸入到神經(jīng)網(wǎng)絡(luò)訓(xùn)練,將提取的圖像特征向量抽取得到最終的視頻特征進(jìn)行視頻搜索,提高視頻搜索的準(zhǔn)確性。
為實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案是:一種基于單幀和連續(xù)多幀抽樣并行的視頻搜索方法,包括:
訓(xùn)練多路神經(jīng)網(wǎng)絡(luò);
將待搜索視屏按時序分堆處理為多個視頻堆,對每個視頻堆的幀隨機連續(xù)采樣得到若干幀,得到堆采樣視頻數(shù)據(jù)集,再對每個視屏堆分別進(jìn)行隨機圖像幀采樣,每個視屏堆隨機采樣獲取一個單幀,得到單幀采樣視屏數(shù)據(jù)集;
將所述堆采樣視頻數(shù)據(jù)集和單幀采樣視屏數(shù)據(jù)集分別輸入到所述多路神經(jīng)網(wǎng)絡(luò)中進(jìn)行堆采樣特征向量的獲取以及單幀采樣特征向量的獲取,并利用該多路神經(jīng)網(wǎng)絡(luò)將提取的圖像特征向量抽取得到最終的視頻特征進(jìn)行視頻搜索。
作為一種優(yōu)選的實施方式,訓(xùn)練多路神經(jīng)網(wǎng)絡(luò)具體包括以下步驟:
數(shù)據(jù)的隨機采樣,按間隔將數(shù)據(jù)分為多堆進(jìn)行數(shù)據(jù)采樣,將基于單幀和連續(xù)多幀抽樣取樣的數(shù)據(jù)放到接下來每一路神經(jīng)網(wǎng)絡(luò)之中進(jìn)行特征向量提取;
將每一堆數(shù)據(jù)都放入一路神經(jīng)網(wǎng)絡(luò)之中,訓(xùn)練提取特征的卷積層,一路神經(jīng)網(wǎng)絡(luò)有多個由殘差模塊組成的卷積層,最終將由卷積層提取出一定的相應(yīng)特征;
對于每一路神經(jīng)網(wǎng)絡(luò),最后將接入一個全連接層,對于輸入的特征圖進(jìn)行一定程度地分類,最后得出該視頻在各種類上的得分;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于四川長虹電器股份有限公司,未經(jīng)四川長虹電器股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010713098.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





