[發(fā)明專利]一種基于多概念知識挖掘的視頻描述生成方法及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202210375021.6 | 申請日: | 2022-04-11 |
| 公開(公告)號: | CN114743143A | 公開(公告)日: | 2022-07-12 |
| 發(fā)明(設(shè)計)人: | 王瀚漓;張沁宇 | 申請(專利權(quán))人: | 同濟(jì)大學(xué) |
| 主分類號: | G06V20/40 | 分類號: | G06V20/40;G06V10/774;G06V10/764;G06K9/62;G06F40/30 |
| 代理公司: | 上海科盛知識產(chǎn)權(quán)代理有限公司 31225 | 代理人: | 翁惠瑜 |
| 地址: | 200092 *** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 概念 知識 挖掘 視頻 描述 生成 方法 存儲 介質(zhì) | ||
本發(fā)明涉及一種基于多概念知識挖掘的視頻描述生成方法及存儲介質(zhì),所述方法包括:獲取待處理的輸入視頻,對所述輸入視頻進(jìn)行視覺特征和語義標(biāo)簽提取,并對所述語義標(biāo)簽進(jìn)行優(yōu)化,獲得先驗語義標(biāo)簽,以所提取的視覺特征和所述先驗語義標(biāo)簽作為基于Transformer結(jié)構(gòu)的視頻描述生成模型的輸入,獲得對應(yīng)的描述結(jié)果,其中,所述視覺特征包括2D特征和3D特征;所述視頻描述生成模型訓(xùn)練時,從訓(xùn)練樣本中進(jìn)行視頻?文本知識、視頻?視頻知識和文本?文本知識的挖掘,優(yōu)化視頻描述生成模型中多頭自注意力層的參數(shù)和詞嵌入層的參數(shù)。與現(xiàn)有技術(shù)相比,本發(fā)明具有主題相關(guān)度強、語義豐富度高、訓(xùn)練速度快等優(yōu)點。
技術(shù)領(lǐng)域
本發(fā)明涉及視頻描述生成領(lǐng)域,尤其是涉及一種基于多概念知識挖掘的視頻描述生成方法及存儲介質(zhì)。
背景技術(shù)
隨著視頻在網(wǎng)絡(luò)上的占有量越來越大,新的市場和應(yīng)用前景逐漸被開辟,使用計算機自動對視頻數(shù)據(jù)進(jìn)行理解分析并處理成為了目前需要解決的技術(shù)需求。視頻描述生成作為視頻理解的關(guān)鍵任務(wù)之一,旨在用自然語言的形式描述一段視頻中發(fā)生的事情。該任務(wù)在嬰幼兒早期教育、視障人士輔助設(shè)備開發(fā)和人機交互等領(lǐng)域具備廣闊的應(yīng)用前景。由于同時涉及計算機視覺和自然語言處理兩個領(lǐng)域,對具有時序性的視頻信息建模和自然語言描述語句生成存在一定的技術(shù)難度,相比于單領(lǐng)域或者靜態(tài)的圖像視覺任務(wù)的成果,視頻描述生成任務(wù)依然存在一定的發(fā)展空間。
由于單模態(tài)的信息無法充分表征視頻中的信息,基于多模態(tài)信息的視頻描述生成方法是目前的主流方法,如CN113806587A公開的一種多模態(tài)特征融合的視頻描述文本生成方法。現(xiàn)有許多方法主要通過優(yōu)化視頻特征和文本序列的處理或是添加額外的模態(tài)信息來獲得先驗知識以輔助模型生成描述語句,然而此類方法提取的先驗知識僅側(cè)重于視頻內(nèi)容中的單個組成元素,如主體或行為,無法覆蓋視頻中的全部內(nèi)容。因此,研究如何充分利用多模態(tài)的信息并從中挖掘出更多更準(zhǔn)確的知識以引導(dǎo)模型生成語法更準(zhǔn)確、語義更豐富的視頻描述語句,對于提高視頻描述生成任務(wù)的性能具有重大的意義。
發(fā)明內(nèi)容
本發(fā)明的目的就是為了克服上述現(xiàn)有技術(shù)存在的缺陷而提供一種主題相關(guān)度強、語義豐富度高、訓(xùn)練速度快的基于多概念知識挖掘的視頻描述生成方法及存儲介質(zhì)。
本發(fā)明的目的可以通過以下技術(shù)方案來實現(xiàn):
一種基于多概念知識挖掘的視頻描述生成方法,包括:獲取待處理的輸入視頻,對所述輸入視頻進(jìn)行視覺特征和語義標(biāo)簽提取,并對所述語義標(biāo)簽進(jìn)行優(yōu)化,獲得先驗語義標(biāo)簽,以所提取的視覺特征和所述先驗語義標(biāo)簽作為基于Transformer結(jié)構(gòu)的視頻描述生成模型的輸入,獲得對應(yīng)的描述結(jié)果,其中,所述視覺特征包括2D特征和3D特征;
所述視頻描述生成模型訓(xùn)練時,從訓(xùn)練樣本中進(jìn)行視頻-文本知識、視頻-視頻知識和文本-文本知識的挖掘,優(yōu)化視頻描述生成模型中多頭自注意力層的參數(shù)和詞嵌入層的參數(shù)。
進(jìn)一步地,所述語義標(biāo)簽包括圖像分類預(yù)測標(biāo)簽、行為識別預(yù)測標(biāo)簽、目標(biāo)檢測預(yù)測標(biāo)簽以及各標(biāo)簽對應(yīng)的概率值。
進(jìn)一步地,所述視覺特征和語義標(biāo)簽的提取以及所述視頻-文本知識的挖掘基于外部的預(yù)訓(xùn)練模型實現(xiàn),所述視頻-視頻知識和文本-文本知識的挖掘基于目標(biāo)數(shù)據(jù)集語料庫訓(xùn)練實現(xiàn)。
進(jìn)一步地,所述視頻-視頻知識和文本-文本知識的挖掘具體為:
將訓(xùn)練樣本中的2D特征和3D特征分別通過一個獨立的編碼器,輸出2D特征編碼和3D特征編碼并進(jìn)行拼接,進(jìn)行視頻描述生成任務(wù)的預(yù)訓(xùn)練,訓(xùn)練完成后,提取每個編碼器中多頭注意力層的參數(shù)和詞嵌入層的參數(shù);
基于詞嵌入層的參數(shù)進(jìn)行計算得到目標(biāo)數(shù)據(jù)集語料庫中各單詞之間的局部語義相似度;
使用訓(xùn)練樣本中的2D特征和3D特征進(jìn)行視頻多標(biāo)簽分類任務(wù)的預(yù)訓(xùn)練,訓(xùn)練過程中的損失函數(shù)基于所述局部語義相似度構(gòu)建。
進(jìn)一步地,所述損失函數(shù)表示為:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于同濟(jì)大學(xué),未經(jīng)同濟(jì)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210375021.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





