[發(fā)明專利]一種基于層次類(lèi)別模型的弱監(jiān)督時(shí)序行為定位方法有效
| 申請(qǐng)?zhí)枺?/td> | 202110315302.8 | 申請(qǐng)日: | 2021-03-24 |
| 公開(kāi)(公告)號(hào): | CN113221633B | 公開(kāi)(公告)日: | 2023-09-19 |
| 發(fā)明(設(shè)計(jì))人: | 王楠楠;李國(guó)璋;高新波;李潔;程德;朱明瑞;丁鑫棚 | 申請(qǐng)(專利權(quán))人: | 西安電子科技大學(xué) |
| 主分類(lèi)號(hào): | G06V40/20 | 分類(lèi)號(hào): | G06V40/20;G06V10/762;G06V10/774;G06V20/40;G06V10/764;G06V10/82;G06N3/0464;G06N3/08 |
| 代理公司: | 西安嘉思特知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 61230 | 代理人: | 劉長(zhǎng)春 |
| 地址: | 710000 陜*** | 國(guó)省代碼: | 陜西;61 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 層次 類(lèi)別 模型 監(jiān)督 時(shí)序 行為 定位 方法 | ||
本發(fā)明公開(kāi)了一種基于層次類(lèi)別模型的弱監(jiān)督時(shí)序行為定位方法,包括:獲取包括多個(gè)視頻的訓(xùn)練數(shù)據(jù)集,其中,每個(gè)視頻中包括已標(biāo)注的行為類(lèi)別標(biāo)簽;利用經(jīng)訓(xùn)練的深度3D卷積神經(jīng)網(wǎng)絡(luò)獲得所述視頻的視頻特征;對(duì)所述視頻特征進(jìn)行層次聚類(lèi),獲取所述視頻的多層次類(lèi)別;利用所述訓(xùn)練數(shù)據(jù)集中多個(gè)視頻的多層次類(lèi)別訓(xùn)練由多個(gè)分類(lèi)模塊構(gòu)成的深度神經(jīng)網(wǎng)絡(luò)模型,獲得經(jīng)訓(xùn)練的所述深度神經(jīng)網(wǎng)絡(luò)模型;利用所述經(jīng)訓(xùn)練的預(yù)測(cè)網(wǎng)絡(luò)對(duì)待定位視頻進(jìn)行預(yù)測(cè),獲得所述待定位視頻中的行為片段。本發(fā)明的方法充分利用動(dòng)作間的類(lèi)間共性信息,可以挖掘到視頻中更多的動(dòng)作區(qū)域,獲取更完整的行為定位結(jié)果。
技術(shù)領(lǐng)域
本發(fā)明屬于視頻處理技術(shù)領(lǐng)域,具體涉及一種基于層次類(lèi)別模型的弱監(jiān)督時(shí)序行為定位方法,主要用于在未修剪的視頻中定位行為的開(kāi)始及結(jié)束時(shí)間,可用于社會(huì)公共安全領(lǐng)域如行為定位與識(shí)別以及數(shù)字娛樂(lè)領(lǐng)域等。
背景技術(shù)
時(shí)序行為定位任務(wù)的目標(biāo)是在未修剪的視頻中識(shí)別出發(fā)生的行為并定位出行為的開(kāi)始時(shí)間和結(jié)束時(shí)間,是計(jì)算機(jī)視覺(jué)領(lǐng)域中的一個(gè)基礎(chǔ)問(wèn)題。在未修剪的視頻中進(jìn)行時(shí)序行為定位的算法在社會(huì)公共安全與數(shù)字娛樂(lè)等方面具有廣泛的應(yīng)用價(jià)值。例如,在社會(huì)公共安全場(chǎng)景中,許多安防監(jiān)控場(chǎng)景中存在著安防人員面對(duì)許多的攝像頭組成的視頻墻,由于安防人員數(shù)量太少并且注意力有限,不能實(shí)時(shí)關(guān)注太多的監(jiān)控畫(huà)面,很多時(shí)候需要后續(xù)回放視頻進(jìn)行行為和事件的定位,這需要大量的人力物力。此時(shí),我們可以利用視頻時(shí)序定位技術(shù)對(duì)這些未修剪視頻進(jìn)行處理,依靠算法獲取行為的位置,減少時(shí)間和資源的浪費(fèi)。
許多視頻時(shí)序行為定位方法盡管取得了非常精確的結(jié)果,但是需要具有幀級(jí)標(biāo)簽的訓(xùn)練數(shù)據(jù),而獲取幀級(jí)別的標(biāo)簽非常耗時(shí)耗力,因此提出了弱監(jiān)督的方案,即僅使用視頻級(jí)標(biāo)簽以減少標(biāo)注耗費(fèi)。此外,視頻時(shí)序行為定位算法也可以用于數(shù)字娛樂(lè)等場(chǎng)景中,例如可以作為體育視頻精彩片段定位等。因此,視頻時(shí)序行為定位算法的研究具有重要的意義。
Liu等人提出了一種弱監(jiān)督時(shí)序行為定位方法,通過(guò)一個(gè)帶有多樣性損失的多分支網(wǎng)絡(luò)結(jié)構(gòu)用于動(dòng)作的完整性建模,以及一個(gè)困難負(fù)樣本視頻生成的方法用于分離上下文,實(shí)現(xiàn)弱監(jiān)督時(shí)序行為定位。Shi等人提出了利用生成式注意力模型解決動(dòng)作與其時(shí)間上下文的混淆問(wèn)題,實(shí)現(xiàn)弱監(jiān)督時(shí)序行為定位。Kyle等人提出了一種對(duì)抗性背景感知損失,通過(guò)對(duì)抗擦除的機(jī)制挖掘視頻中更多的動(dòng)作部分,并通過(guò)三元組損失實(shí)現(xiàn)動(dòng)作與背景的分離。上述現(xiàn)有的弱監(jiān)督時(shí)序行為定位方法都僅僅只利用原始的視頻類(lèi)別訓(xùn)練單一的分類(lèi)模型,使網(wǎng)絡(luò)僅能關(guān)注視頻幀序列中最具有類(lèi)間區(qū)分性的部分。相似的動(dòng)作之間存在共享的子動(dòng)作,這些子動(dòng)作類(lèi)間區(qū)分性不高,無(wú)法被分類(lèi)模型關(guān)注,導(dǎo)致了時(shí)序行為定位的不完整。
發(fā)明內(nèi)容
為了解決現(xiàn)有技術(shù)中存在的上述問(wèn)題,本發(fā)明提供了一種基于層次類(lèi)別模型的弱監(jiān)督時(shí)序行為定位方法。本發(fā)明要解決的技術(shù)問(wèn)題通過(guò)以下技術(shù)方案實(shí)現(xiàn):
本發(fā)明提供了一種基于層次類(lèi)別模型的弱監(jiān)督時(shí)序行為定位方法,包括:
S1:獲取包括多個(gè)視頻的訓(xùn)練數(shù)據(jù)集,其中,每個(gè)視頻中包括已標(biāo)注的行為類(lèi)別標(biāo)簽;
S2:利用經(jīng)訓(xùn)練的深度3D卷積神經(jīng)網(wǎng)絡(luò)獲得所述視頻的視頻特征;
S3:對(duì)所述視頻特征進(jìn)行層次聚類(lèi),獲取所述視頻的多層次類(lèi)別;
S4:利用所述訓(xùn)練數(shù)據(jù)集中多個(gè)視頻的多層次類(lèi)別訓(xùn)練由多個(gè)分類(lèi)模塊構(gòu)成的深度神經(jīng)網(wǎng)絡(luò)模型,獲得經(jīng)訓(xùn)練的所述深度神經(jīng)網(wǎng)絡(luò)模型;
S5:利用所述經(jīng)訓(xùn)練的預(yù)測(cè)網(wǎng)絡(luò)對(duì)待定位視頻進(jìn)行預(yù)測(cè),獲得所述待定位視頻中的行為片段。
在本發(fā)明的一個(gè)實(shí)施例中,所述S2包括:
S21:將所述視頻平均劃分為多個(gè)視頻片段,利用光流估計(jì)算法獲得每個(gè)視頻片段的光流幀;
S22:從每個(gè)視頻片段中分別任選一幀作為當(dāng)前視頻片段的RGB幀;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安電子科技大學(xué),未經(jīng)西安電子科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110315302.8/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 類(lèi)別生成程序、類(lèi)別生成裝置以及類(lèi)別生成方法
- 顧客類(lèi)別分析裝置、顧客類(lèi)別分析系統(tǒng)以及顧客類(lèi)別分析方法
- 顧客類(lèi)別分析裝置、顧客類(lèi)別分析系統(tǒng)以及顧客類(lèi)別分析方法
- 語(yǔ)義類(lèi)別分類(lèi)
- 類(lèi)別管理
- 圖像解析裝置及圖像解析方法
- 類(lèi)別的編碼方法及裝置
- 電子書(shū)頁(yè)面展示方法、計(jì)算設(shè)備及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 交易控制方法及裝置
- 一種圖像搜索方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)





