[發(fā)明專利]一種基于稀疏自編碼器的多視頻摘要方法有效
| 申請(qǐng)?zhí)枺?/td> | 201711113383.3 | 申請(qǐng)日: | 2017-11-10 |
| 公開(公告)號(hào): | CN107911755B | 公開(公告)日: | 2020-10-20 |
| 發(fā)明(設(shè)計(jì))人: | 冀中;馬亞茹 | 申請(qǐng)(專利權(quán))人: | 天津大學(xué) |
| 主分類號(hào): | H04N21/8549 | 分類號(hào): | H04N21/8549 |
| 代理公司: | 天津市北洋有限責(zé)任專利代理事務(wù)所 12201 | 代理人: | 杜文茹 |
| 地址: | 300192*** | 國(guó)省代碼: | 天津;12 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 稀疏 編碼器 視頻 摘要 方法 | ||
一種基于稀疏自編碼器的多視頻摘要方法,包括:提取視頻幀的視覺特征;將視頻幀的視覺特征輸入到稀疏自編碼器,通過(guò)稀疏自編碼器分別學(xué)習(xí)得到:視頻幀的壓縮表示即隱層的神經(jīng)元的表征,輸入層和隱層之間的連接權(quán)重,以及隱層和輸出層的連接權(quán)重;利用獲得的輸入層和隱層之間的連接權(quán)重生成權(quán)重曲線;選擇權(quán)重曲線的各局部最大值作為關(guān)鍵幀集合;對(duì)關(guān)鍵幀進(jìn)行排序,實(shí)現(xiàn)摘要。本發(fā)明針對(duì)現(xiàn)有的多視頻摘要數(shù)據(jù)集的特點(diǎn),設(shè)計(jì)適用于該特點(diǎn)的基于帶權(quán)重的原型分析方法的多視頻摘要技術(shù),使之在有效的先驗(yàn)信息的輔助下,充分地利用數(shù)據(jù)的特有信息。
技術(shù)領(lǐng)域
本發(fā)明涉及一種多視頻摘要方法。特別是涉及一種基于稀疏自編碼器的多視頻摘要方法.
背景技術(shù)
隨著信息技術(shù)的快速發(fā)展,視頻數(shù)據(jù)大量涌現(xiàn),成為人們獲取信息的重要途徑之一。然而,由于視頻數(shù)量的劇增,大量視頻數(shù)據(jù)中出現(xiàn)冗余和重復(fù)的信息,這使用戶快速獲取所需信息變得困難。因此,在這種情況下,迫切需要一種能對(duì)同一主題下的海量視頻數(shù)據(jù)進(jìn)行整合、分析的技術(shù),來(lái)滿足人們想要快捷、準(zhǔn)確地瀏覽視頻主要信息的需求,提高人們獲取信息的能力。多視頻摘要技術(shù)作為解決上述問(wèn)題的有效途徑之一,在過(guò)去的幾十年里引起了越來(lái)越多的研究人員的關(guān)注。多視頻摘要技術(shù)是一種基于內(nèi)容的視頻數(shù)據(jù)壓縮技術(shù),旨在將同一事件下的相關(guān)主題的多個(gè)視頻進(jìn)行分析、整合,提取出多個(gè)視頻中的主要內(nèi)容,并將提取的內(nèi)容按照某種邏輯關(guān)系呈現(xiàn)給用戶。目前對(duì)于多視頻摘要主要從三個(gè)方面進(jìn)行分析:1)覆蓋率;2)新穎性;3)重要性。覆蓋率指的是所提取的視頻內(nèi)容能夠覆蓋同一主題下多個(gè)視頻的主要內(nèi)容。冗余性指的是去除多視頻摘要中的重復(fù)的、冗余的信息。重要性指的則是根據(jù)某些先驗(yàn)信息提取視頻集中重要的關(guān)鍵鏡頭,從而提取出多個(gè)視頻中重要的內(nèi)容。
盡管許多單視頻摘要已經(jīng)提出,但是對(duì)于多視頻摘要方法的研究卻較少,仍處于初步階段。這主要有兩個(gè)原因:1)一是由于同一事件下多個(gè)視頻主題的多樣性以及視頻之間主題的交叉性。主題多樣性指的是同一事件下的多個(gè)視頻的信息側(cè)重點(diǎn)不同,具有多個(gè)子主題。而主題交叉性是指同一事件下的視頻之間內(nèi)容具有交叉性,既有相似的內(nèi)容,也有不同的信息內(nèi)容。2)二是由于多視頻數(shù)據(jù)對(duì)同一內(nèi)容所表現(xiàn)出來(lái)的音頻信息,文本信息和視覺信息可能存在較大差別。這些原因使得多視頻摘要的研究難于傳統(tǒng)的單視頻摘要。
在過(guò)去的幾十年中,人們針對(duì)多視頻數(shù)據(jù)集的特點(diǎn),提出了一些多視頻摘要的方法。其中,基于復(fù)雜的圖聚類的多視頻摘要方法是一個(gè)比較經(jīng)典的方法。該類方法通過(guò)提取視頻相應(yīng)腳本信息的關(guān)鍵詞和視頻的關(guān)鍵幀,構(gòu)建復(fù)雜的圖,并在此基礎(chǔ)上利用圖聚類算法實(shí)現(xiàn)摘要。但是該方法主要針對(duì)新聞視頻,對(duì)于沒有視頻腳本信息的視頻集該方法就失去了意義。另外由于同一主題下的多個(gè)視頻包含的內(nèi)容具有多樣性和冗余性,僅用聚類的方法雖然滿足了視頻內(nèi)容的最大覆蓋條件,但只用視頻的視覺信息聚類效果較差,結(jié)合其他模態(tài)雖有一定的幫助,但復(fù)雜度較大。
多視頻摘要中存在多種模態(tài)的信息,如視頻的文本信息、視覺信息、音頻信息等。Balanced AV-MMR(Balanced Audio Video Maximal Marginal Relevance)算法結(jié)合視覺、音頻信息,在最大邊距相關(guān)的思想下設(shè)計(jì)了迭代選擇關(guān)鍵鏡頭的多視頻摘要算法。
近年來(lái),人們提出了一些新穎的方法。其中,利用視頻的視覺共現(xiàn)特性(visualCo-occurrence)實(shí)現(xiàn)多視頻摘要是其中一個(gè)較新穎的方法。該方法認(rèn)為重要的視覺概念(concepts)往往重復(fù)出現(xiàn)在同一主題下的多個(gè)視頻中,并根據(jù)這一特點(diǎn)提出了最大二元組查找算法(Maximal Biclique Finding),提取多視頻的稀疏共現(xiàn)模式,從而實(shí)現(xiàn)多視頻摘要。但是該方法僅適用于特定的數(shù)據(jù)集,對(duì)于視頻中重復(fù)性較小的視頻集,該方法就失去了意義。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于天津大學(xué),未經(jīng)天津大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711113383.3/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
H04N 圖像通信,如電視
H04N21-00 可選的內(nèi)容分發(fā),例如交互式電視,VOD〔視頻點(diǎn)播〕
H04N21-20 .專門適用于內(nèi)容分發(fā)的專用服務(wù)器,例如:VOD服務(wù)器;其操作
H04N21-40 .專門適用于接收內(nèi)容或者與內(nèi)容交互的客戶端設(shè)備,如STB[機(jī)頂盒];相關(guān)操作
H04N21-60 .用于在服務(wù)器和客戶端之間或者在遠(yuǎn)程客戶端之間的視頻分配的網(wǎng)絡(luò)結(jié)構(gòu)或者處理
H04N21-80 .通過(guò)內(nèi)容產(chǎn)生器獨(dú)立于分配過(guò)程實(shí)現(xiàn)的內(nèi)容或附加數(shù)據(jù)的生成或處理;內(nèi)容本身
H04N21-81 ..其單媒體部件





