[發(fā)明專利]一種基于多尺度受約束自注意機(jī)制的視頻顯著性物體檢測的方法有效
| 申請?zhí)枺?/td> | 202010024556.X | 申請日: | 2020-01-10 |
| 公開(公告)號: | CN111242003B | 公開(公告)日: | 2022-05-27 |
| 發(fā)明(設(shè)計)人: | 程明明;顧宇超;盧少平 | 申請(專利權(quán))人: | 南開大學(xué) |
| 主分類號: | G06V20/40 | 分類號: | G06V20/40;G06V10/46;G06V10/82;G06V10/75;G06N3/04;G06N3/08 |
| 代理公司: | 天津耀達(dá)律師事務(wù)所 12223 | 代理人: | 侯力 |
| 地址: | 300071*** | 國省代碼: | 天津;12 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 尺度 約束 注意 機(jī)制 視頻 顯著 物體 檢測 方法 | ||
1.一種基于多尺度受約束自注意機(jī)制的視頻顯著性物體檢測的方法,其特征在于:包括空間特征訓(xùn)練,時序特征訓(xùn)練,模型部署三步,該方法的具體步驟如下:
第1步、空間特征訓(xùn)練;
第1.1步、收集圖像顯著性數(shù)據(jù)集;
第1.2步、對圖像顯著性數(shù)據(jù)集進(jìn)行預(yù)處理,包括隨機(jī)翻轉(zhuǎn),尺度變換;
第1.3步、利用圖像顯著性數(shù)據(jù)集和BP算法訓(xùn)練主干網(wǎng)絡(luò),獲得圖像顯著性特征提取網(wǎng)絡(luò);
第2步、時序特征訓(xùn)練;
第2.1步、收集視頻顯著性數(shù)據(jù)集;
第2.2步、對視頻顯著性數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng),包括隨機(jī)翻轉(zhuǎn),不同間隔長度抽取訓(xùn)練幀;
第2.3步、訓(xùn)練中,在視頻顯著性數(shù)據(jù)集中抽取一段視頻幀,通過神經(jīng)網(wǎng)絡(luò)逐幀提取出空間特征;
第2.4步、對提取的空間特征進(jìn)行分組,為每一組設(shè)置不同尺度的窗口;
第2.5步、對經(jīng)過分組的每一組空間特征,由于物體在幀間不會出現(xiàn)較大位移,通過衡量特征圖上每個位置的特征和在相鄰幀上與該位置空間相鄰區(qū)域特征的相似性,生成每個位置的注意力圖,其中,該空間相鄰區(qū)域的大小由第2.4步預(yù)先設(shè)置的尺度窗口給出;
第2.6步、對經(jīng)過分組的每一組空間特征,對于特征圖上每個位置,通過第2.5步生成的注意力圖加權(quán)收集周圍幀的時序信息,求得該位置的時空特征;
第2.7步、將不同組求取的時空特征進(jìn)行線性融合,將融合的時空特征通過解碼器獲得預(yù)測的顯著性結(jié)果;
第2.8步、重復(fù)上述訓(xùn)練過程直到收斂,獲得經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)參數(shù);
第3步、模型部署;
第3.1步、獲取待檢測視頻;
第3.2步、對待檢測視頻進(jìn)行分幀,將獲得的幀按給定數(shù)量構(gòu)成小批量的數(shù)據(jù);
第3.3步、初始化神經(jīng)網(wǎng)絡(luò),加載第2.8步訓(xùn)練好的參數(shù);
第3.4步、對第3.2步構(gòu)成的每個小批量的數(shù)據(jù)進(jìn)行視頻顯著性預(yù)測,并合成檢測結(jié)果視頻。
2.根據(jù)權(quán)利要求1所述的基于多尺度受約束自注意機(jī)制的視頻顯著性物體檢測的方法,其特征在于所述的第2.4步包含以下子步驟:對輸入視頻片段的空間特征X,X的大小為T*H*W,其中T,H,W分別代表該視頻空間特征的幀數(shù),長度,寬度,特征通道數(shù)量用C表示;我們使用三個1*1*1大小的卷積核對視頻片段的空間特征X進(jìn)行卷積,將X線性投影到三個子空間Q、K、V,Q、K、V分別代表詢問特征、度量特征、值特征;將Q,K,V沿特征通道拆分成g個特征組,每個特征組有C/g維特征,對每個特征組的特征Qi,Ki,Vi,其中i代表第i組特征,給定不同的窗口半徑參數(shù)ri和窗口空洞參數(shù)di,初始化不同大小的窗口;該窗口在時序的維度是全局的,在空間的維度上是以詢問點(diǎn)為中心的區(qū)域,所以,該窗口很好地定位詢問位置在時序上下文中的位置,有助于幀間信息傳遞。
3.根據(jù)權(quán)利要求2所述的基于多尺度受約束自注意機(jī)制的視頻顯著性物體檢測的方法,其特征在于,所述的第2.5步包含以下子步驟:對經(jīng)過分組的第i組詢問特征Qi,遍歷所有的空間位置,提取每個位置的特征向量,作為詢問特征向量,通過第2.4步初始化的窗口,提取該窗口中每個元素特征的度量特征Kj并和詢問特征Qi進(jìn)行點(diǎn)積運(yùn)算,求得相似度,生成每一個詢問位置的注意力圖。
4.根據(jù)權(quán)利要求2或3所述的基于多尺度受約束自注意機(jī)制的視頻顯著性物體檢測的方法,其特征在于,所述的第2.6步包含以下步驟:對經(jīng)過分組的第i組詢問特征Qi,遍歷所有的空間位置,通過第2.5步生成的注意力圖加權(quán)求和Vi中在窗口范圍內(nèi)的特征。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南開大學(xué),未經(jīng)南開大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010024556.X/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





