[發(fā)明專利]基于查詢的無(wú)監(jiān)督深度學(xué)習(xí)的多視頻摘要方法有效
| 申請(qǐng)?zhí)枺?/td> | 201910023842.1 | 申請(qǐng)日: | 2019-01-10 |
| 公開(kāi)(公告)號(hào): | CN109857906B | 公開(kāi)(公告)日: | 2023-04-07 |
| 發(fā)明(設(shè)計(jì))人: | 冀中;張媛媛;龐彥偉 | 申請(qǐng)(專利權(quán))人: | 天津大學(xué) |
| 主分類號(hào): | G06F16/738 | 分類號(hào): | G06F16/738;G06V10/762;G06V10/82;G06V20/40;G06N3/0464;G06N3/0442;G06N3/08 |
| 代理公司: | 天津市北洋有限責(zé)任專利代理事務(wù)所 12201 | 代理人: | 劉國(guó)威 |
| 地址: | 300072*** | 國(guó)省代碼: | 天津;12 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 查詢 監(jiān)督 深度 學(xué)習(xí) 視頻 摘要 方法 | ||
本發(fā)明涉及視頻摘要處理,為提出一種能夠結(jié)合視頻的視覺(jué)信息和與主題相關(guān)的先驗(yàn)信息,利用受限玻爾茲曼機(jī)思想的多視頻摘要方法,本發(fā)明基于查詢的無(wú)監(jiān)督深度學(xué)習(xí)的多視頻摘要方法,首先對(duì)同一查詢事件下的多視頻進(jìn)行鏡頭檢測(cè)預(yù)處理獲取候選關(guān)鍵幀;然后將融合的視頻特征作為可見(jiàn)層Hsupgt;0/supgt;輸入到深層架構(gòu)以構(gòu)造具有隱藏層Hsupgt;1/supgt;的多層受限玻爾茲曼機(jī)RBM,在第一層RBM進(jìn)行兩個(gè)不同的過(guò)程,包括:基于查詢的初始權(quán)重設(shè)置和查詢導(dǎo)向懲罰過(guò)程;隨后通過(guò)低層參數(shù)自下而上連接到RBM網(wǎng)絡(luò)的第二、三層;在基于深層體系結(jié)構(gòu)的概念提取之后,通過(guò)更高層的隱藏層Hsupgt;3/supgt;輸出簡(jiǎn)潔且有意義的多視頻摘要。本發(fā)明主要應(yīng)用于視頻摘要處理。
技術(shù)領(lǐng)域
本發(fā)明涉及視頻摘要處理。特別是涉及對(duì)具有冗余性,交叉性等特點(diǎn)的多媒體視頻數(shù)據(jù),通過(guò)無(wú)監(jiān)督深度學(xué)習(xí)(受限玻爾茲曼機(jī))方法對(duì)多視頻關(guān)鍵鏡頭進(jìn)行分析,再結(jié)合網(wǎng)絡(luò)圖像的輔助信息進(jìn)行摘要獲取的基于查詢的無(wú)監(jiān)督深度學(xué)習(xí)的多視頻摘要方法。具體講,涉及查詢的無(wú)監(jiān)督深度學(xué)習(xí)的多視頻摘要方法。
背景技術(shù)
隨著技術(shù)的發(fā)展,在線視頻的數(shù)量正以飛快的速度增長(zhǎng),用戶也可以使用自己的移動(dòng)設(shè)備方便地上傳個(gè)人視頻到共享網(wǎng)站。記錄同一事件、同一場(chǎng)景的視頻可能存在大量的冗余信息,這對(duì)用戶捕捉重要信息帶來(lái)了困難。因此對(duì)大量的視頻集中提取出有意義的部分,使用戶快速獲取視頻信息的重要內(nèi)容的技術(shù)是迫切需求的。視頻摘要是通過(guò)將一個(gè)或多個(gè)視頻轉(zhuǎn)換為精簡(jiǎn)視頻來(lái)滿足此要求的技術(shù),引起了越來(lái)越多的研究人員的關(guān)注。多視頻摘要技術(shù)旨在針對(duì)某個(gè)查詢主題下的大量視頻,提取出和檢索主題內(nèi)容相關(guān)的且有意義的部分,并以一定的邏輯形式呈現(xiàn)出來(lái),目的是通過(guò)簡(jiǎn)潔而又涵蓋主題內(nèi)容的概要幫助用戶更好地了解視頻集的重要信息。視頻摘要的方法也可以分為兩類:基于關(guān)鍵幀的視頻摘要和基于視頻剪輯的視頻摘要。不管是哪類方法,根本目的都是一樣的,就是使用戶在最短的時(shí)間獲取原始視頻中最大的信息量。多視頻摘要需要滿足的基本要求:1)最大信息覆蓋率;2)重要性;3)主題相關(guān)性。最大信息覆蓋率指的是所提取的視頻內(nèi)容能夠覆蓋同一主題下多個(gè)視頻的主要內(nèi)容。重要性指的則是根據(jù)某些先驗(yàn)信息提取視頻集中重要的關(guān)鍵鏡頭,從而提取出多個(gè)視頻中重要的內(nèi)容。主題相關(guān)性指的是要保證獲取的視頻摘要并能準(zhǔn)確的反映查詢主題的內(nèi)容。對(duì)于單視頻摘要,目前有很多實(shí)現(xiàn)方法。但是多視頻數(shù)據(jù)集的處理就比較困難。一方面多視頻數(shù)據(jù)集存在較大的冗余性:大量同性質(zhì)的網(wǎng)站提供相同或者類似的視頻資源,用戶可以上傳自己的視頻數(shù)據(jù)。另一方面多視頻數(shù)據(jù)集同一內(nèi)容所表現(xiàn)出來(lái)的音頻信息,文本信息和視覺(jué)信息可能存在較大差別。因此多視頻摘要技術(shù)相對(duì)于單個(gè)視頻摘要獲取就存在比較大的困難。
作為一個(gè)更具挑戰(zhàn)性的任務(wù),研究學(xué)者針對(duì)多視頻數(shù)據(jù)集提出了一些比較可行的方法。其中聚類的方法或者圖模型法在原始搜索結(jié)果中分析和發(fā)現(xiàn)視覺(jué)相似的圖像作為搜索樣例原型是一種比較常用的方法。傳統(tǒng)的聚類方法不能解決多視頻數(shù)據(jù)集在同一主題下內(nèi)容多樣且冗余所帶來(lái)的困難。只考慮視覺(jué)上的信息效果較差,需要結(jié)合多視頻的多模態(tài)信息進(jìn)行摘要的獲取。
針對(duì)同一主題下的多視頻數(shù)據(jù)集,利用視頻的視覺(jué)共現(xiàn)特性(visual?Co-occurrence)實(shí)現(xiàn)多視頻摘要是一種比較新穎的方法。該方法認(rèn)為重要的視覺(jué)概念往往重復(fù)出現(xiàn)在同一主題下的多個(gè)視頻中,并根據(jù)這一特點(diǎn)提出了最大二元組查找算法(MaximalBiclique?Finding),提取多視頻的稀疏共現(xiàn)模式,從而實(shí)現(xiàn)多視頻摘要。但是該方法僅適用于特定的數(shù)據(jù)集,對(duì)于視頻中重復(fù)性較小的視頻集,該方法就失去了意義。
此外,相關(guān)學(xué)者利用多視頻中的文本,音頻等多模態(tài)信息,判斷視頻中的重要信息,生成多視頻摘要。目前,由于多視頻數(shù)據(jù)的復(fù)雜性,多視頻摘要技術(shù)的方法還有待提升。因此,如何借助已有的多視頻信息對(duì)數(shù)據(jù)集進(jìn)行視頻結(jié)構(gòu)和內(nèi)容的分析,更好地實(shí)現(xiàn)多視頻摘要,成為目前相關(guān)學(xué)者研究的熱點(diǎn)。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問(wèn)題是:針對(duì)多媒體視頻數(shù)據(jù)的冗余信息、重復(fù)信息較多等特點(diǎn),提供一種能夠結(jié)合視頻的視覺(jué)信息和與主題相關(guān)的先驗(yàn)信息,利用受限玻爾茲曼機(jī)思想的多視頻摘要方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于天津大學(xué),未經(jīng)天津大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910023842.1/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 上一篇:一種視頻編輯方法及終端設(shè)備
- 下一篇:視頻定位方法和裝置
- 帶有前處理和后處理的數(shù)據(jù)庫(kù)復(fù)合查詢系統(tǒng)及方法
- 數(shù)據(jù)庫(kù)查詢的方法和系統(tǒng)
- 查詢系統(tǒng)、查詢終端以及查詢方法
- 交易信息查詢方法、查詢裝置及查詢系統(tǒng)
- 數(shù)據(jù)查詢與結(jié)果生成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 在RDF數(shù)據(jù)集上進(jìn)行OPTIONAL查詢的方法及存儲(chǔ)介質(zhì)
- 一種多表關(guān)聯(lián)查詢方法、裝置及設(shè)備
- 一種基于Impala的查詢方法和裝置
- 從查詢生成子查詢
- 一種基于通用查詢語(yǔ)言的查詢方法及查詢系統(tǒng)
- 在即時(shí)通信中提供即時(shí)監(jiān)督功能的方法及系統(tǒng)
- 一種監(jiān)督事件的生成裝置
- 一種資產(chǎn)托管監(jiān)督任務(wù)的處理方法及裝置
- 一種監(jiān)督方法及裝置
- 基于自監(jiān)督學(xué)習(xí)的標(biāo)簽比例學(xué)習(xí)模型的訓(xùn)練方法和設(shè)備
- 一種衛(wèi)生監(jiān)督對(duì)象尋址方法、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種機(jī)器人表情調(diào)用方法和家用機(jī)器人
- 計(jì)算機(jī)視覺(jué)訓(xùn)練系統(tǒng)和用于訓(xùn)練計(jì)算機(jī)視覺(jué)系統(tǒng)的方法
- 一種基于廠區(qū)智能管理系統(tǒng)的工廠設(shè)備監(jiān)督系統(tǒng)
- 信息化綜合監(jiān)督系統(tǒng)及方法





