[發(fā)明專利]一種基于音視頻多模態(tài)時(shí)序預(yù)測(cè)的視頻數(shù)據(jù)特征提取方法有效
| 申請(qǐng)?zhí)枺?/td> | 202110268187.3 | 申請(qǐng)日: | 2021-03-12 |
| 公開(公告)號(hào): | CN112906624B | 公開(公告)日: | 2022-09-13 |
| 發(fā)明(設(shè)計(jì))人: | 陳雁翔;趙鵬鋮;朱玉鵬;盛振濤 | 申請(qǐng)(專利權(quán))人: | 合肥工業(yè)大學(xué) |
| 主分類號(hào): | G06V20/40 | 分類號(hào): | G06V20/40 |
| 代理公司: | 安徽省合肥新安專利代理有限責(zé)任公司 34101 | 代理人: | 陸麗莉;何梅生 |
| 地址: | 230009 安*** | 國(guó)省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 視頻 多模態(tài) 時(shí)序 預(yù)測(cè) 數(shù)據(jù) 特征 提取 方法 | ||
本發(fā)明公開了一種基于音視頻多模態(tài)時(shí)序預(yù)測(cè)的視頻數(shù)據(jù)特征提取方法,包括:1利用視頻采集裝置獲取視頻數(shù)據(jù)集,構(gòu)建音視頻雙流數(shù)據(jù)對(duì);2對(duì)視頻流中每個(gè)視頻幀,音頻流中每個(gè)音頻片段,采用一系列各自模態(tài)下的數(shù)據(jù)增強(qiáng)操作,并將一維音頻轉(zhuǎn)為二維頻譜圖;3構(gòu)建音視頻多模態(tài)預(yù)測(cè)模型,包括視頻流特征提取網(wǎng)絡(luò)單元、音頻流特征提取網(wǎng)絡(luò)單元、時(shí)序信息聚合網(wǎng)絡(luò)單元、多模態(tài)交互預(yù)測(cè)網(wǎng)絡(luò)單元;4根據(jù)多模態(tài)交互預(yù)測(cè)得到的不確定特征,計(jì)算音視頻多模態(tài)預(yù)測(cè)總損失并優(yōu)化網(wǎng)絡(luò)。本發(fā)明能利用視頻自身時(shí)序性,結(jié)合音視頻雙流之間交互,自監(jiān)督式有效挖掘視頻有用信息,從而提高特征提取的有效性,并有助于視頻理解、聲源定位、異常檢測(cè)等實(shí)際下游任務(wù)。
技術(shù)領(lǐng)域
本發(fā)明涉及視頻數(shù)據(jù)處理分析領(lǐng)域,特別涉及一種音視頻多模態(tài)時(shí)序預(yù)測(cè)的視頻數(shù)據(jù)特征提取方法。
背景技術(shù)
在當(dāng)今互聯(lián)網(wǎng)大數(shù)據(jù)背景下,對(duì)特定數(shù)據(jù)進(jìn)行處理分析,變得越來(lái)越重要。這種數(shù)據(jù)分析在人工智能某些領(lǐng)域又可被稱作“表征學(xué)習(xí)”,即從數(shù)據(jù)中抽取有用信息,機(jī)器學(xué)習(xí)尤其是深度學(xué)習(xí)的算法很大程度上依賴于數(shù)據(jù)表征,因而如何利用互聯(lián)網(wǎng)上海量數(shù)據(jù),自監(jiān)督式挖掘其自身潛在有效信息,受到研究者們的廣泛關(guān)注。眾所周知,人的認(rèn)知是結(jié)合多個(gè)模態(tài)信息感知下做出的反應(yīng),其中視聽覺通常相互并存,例如,狂風(fēng)呼嘯,樹葉枝頭飛舞,該視覺場(chǎng)景下,常常伴隨著樹葉沙沙作響聲,故而利用這種視聽覺協(xié)同并存關(guān)系,將會(huì)在一定程度上提升機(jī)器的音視頻數(shù)據(jù)表征能力,讓機(jī)器為下游多模態(tài)實(shí)際任務(wù)提供幫助,例如在聲源定位時(shí),利用聲音信息定位視頻中處在較遠(yuǎn)的聲源,除此之外還有助于諸如視頻理解、異常檢測(cè)等任務(wù)的性能提升。
當(dāng)前視頻數(shù)據(jù)自監(jiān)督表征學(xué)習(xí)方法,一般分為單模態(tài)即視頻流學(xué)習(xí)和多模態(tài)學(xué)習(xí)。單模態(tài)下常常仿照?qǐng)D像領(lǐng)域,例如對(duì)視頻片段中缺失幀的生成、視頻速率預(yù)測(cè)等,然而對(duì)于視頻的理解,僅靠視頻流單一模態(tài)遠(yuǎn)遠(yuǎn)是不夠的,例如被觀測(cè)者的大笑聲、背景歡快音樂聲都有助于提高一段搞笑視頻的分類準(zhǔn)確度;而對(duì)于后者多模態(tài)視頻表征學(xué)習(xí),有研究者利用聚類結(jié)果構(gòu)建偽標(biāo)簽,相互指導(dǎo)特征分類,這種聚類方法的性能嚴(yán)重依賴于所選擇的聚類方法或需要提前設(shè)定類別簇個(gè)數(shù);除此之外,大部分研究者都采用另一模態(tài)為音頻流或光流的多模態(tài)表征學(xué)習(xí)方法,其中光流信息的提取耗時(shí),且光流好壞,取決于所選擇的光流提取網(wǎng)絡(luò)的性能,而對(duì)于音視頻的表征學(xué)習(xí),通常采用雙流間的時(shí)序?qū)R,引入大量負(fù)例對(duì),進(jìn)行自監(jiān)督式對(duì)比學(xué)習(xí),然而現(xiàn)有的音視頻多模態(tài)數(shù)據(jù)特征提取方法,忽略了音視頻間的時(shí)序性,即未考慮幀與幀之間的聯(lián)系,而時(shí)序性正是視頻相較于圖像其本身特有的性質(zhì),幀間獨(dú)立處理會(huì)導(dǎo)致一些重要的時(shí)序連貫信息丟失,使得機(jī)器對(duì)于視頻的理解有限,并且?guī)脑肼曅畔⒑苋菀讓?dǎo)致動(dòng)作識(shí)別精度降低,而時(shí)序信息的丟失會(huì)降低視頻動(dòng)作的精準(zhǔn)分類,以及降低模型的噪聲魯棒性。
發(fā)明內(nèi)容
本發(fā)明是為了解決上述現(xiàn)有技術(shù)存在的不足之處,提出一種基于音視頻多模態(tài)時(shí)序預(yù)測(cè)的視頻數(shù)據(jù)特征提取方法,以期能利用視頻自身時(shí)序性,并結(jié)合音視頻雙流之間交互,自監(jiān)督式有效挖掘視頻有用信息,從而提高特征提取的有效性,并有助于視頻理解、聲源定位、異常檢測(cè)等實(shí)際下游任務(wù)。
為實(shí)現(xiàn)上述目的,本發(fā)明采用以下技術(shù)方案:
本發(fā)明一種基于音視頻多模態(tài)時(shí)序預(yù)測(cè)的視頻數(shù)據(jù)特征提取方法的特點(diǎn)包括以下步驟:
步驟1.利用視頻采集裝置獲取視頻數(shù)據(jù)集,記為X={X1,X2,...,Xi,...,XN},Xi代表第i個(gè)視頻,1≤i≤N,N表示視頻總個(gè)數(shù),對(duì)所述視頻數(shù)據(jù)集X提取音頻流A和視頻流V,記為其中,表示第i個(gè)視頻Xi的音頻流,表示第i個(gè)視頻Xi的視頻流;令表示第i個(gè)音視頻數(shù)據(jù)對(duì),從而構(gòu)建音視頻數(shù)據(jù)對(duì)集合S={S1,S2,...,Si,...,SN};
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于合肥工業(yè)大學(xué),未經(jīng)合肥工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110268187.3/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 用于智能機(jī)器人系統(tǒng)多模態(tài)輸出的方法及裝置
- 一種基于深度學(xué)習(xí)的多模態(tài)醫(yī)學(xué)影像識(shí)別方法及裝置
- 一種基于多模態(tài)生成式對(duì)抗網(wǎng)絡(luò)的云圖分類方法
- 一種基于多模態(tài)信息的食道功能性疾病診斷系統(tǒng)
- 一種有監(jiān)督的快速離散多模態(tài)哈希檢索方法和系統(tǒng)
- 一種多模態(tài)數(shù)據(jù)處理方法及系統(tǒng)
- 一種基于多模態(tài)學(xué)習(xí)的電力攻擊識(shí)別方法
- 多源多模態(tài)數(shù)據(jù)的處理系統(tǒng)及應(yīng)用該系統(tǒng)的方法
- 一種基于門機(jī)制多模態(tài)融合的情感分析方法
- 面向?qū)捰蝻w行的多模態(tài)精確劃分方法
- 一種LED顯示系統(tǒng)的數(shù)據(jù)通信方法
- 用于顯示器的時(shí)序控制器
- 基于靜態(tài)分析的異步電路時(shí)序檢查方法
- 時(shí)序信號(hào)生成方法、裝置、邏輯電路板及存儲(chǔ)介質(zhì)
- 一種視頻的時(shí)序動(dòng)作檢測(cè)方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 調(diào)整時(shí)序的方法、裝置、計(jì)算機(jī)設(shè)備及介質(zhì)
- 一種時(shí)序分析方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 基于人工智能的數(shù)據(jù)檢測(cè)方法、裝置、服務(wù)器及存儲(chǔ)介質(zhì)
- 一種時(shí)序電路優(yōu)化方法、裝置及其存儲(chǔ)介質(zhì)
- 一種基于分布式的靜態(tài)時(shí)序分析方法





