[發(fā)明專利]視頻描述生成方法、裝置、設(shè)備以及存儲(chǔ)介質(zhì)有效

申請(qǐng)?zhí)枺?/td>	202210271140.7	申請(qǐng)日：	2022-03-18
公開（公告）號(hào)：	CN114661953B	公開（公告）日：	2023-05-16
發(fā)明（設(shè)計(jì)）人：	汪琦;馮知凡;柴春光;朱勇	申請(qǐng)（專利權(quán)）人：	北京百度網(wǎng)訊科技有限公司
主分類號(hào)：	G06F16/78	分類號(hào)：	G06F16/78
代理公司：	北京同立鈞成知識(shí)產(chǎn)權(quán)代理有限公司 11205	代理人：	李興福;臧建明
地址：	100085 北京市***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	視頻描述生成方法裝置設(shè)備以及存儲(chǔ) 介質(zhì)
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本公開提供了視頻描述生成方法、裝置、設(shè)備以及存儲(chǔ)介質(zhì)，涉及人工智能領(lǐng)域，尤其涉及知識(shí)圖譜、深度學(xué)習(xí)、計(jì)算機(jī)視覺、視頻處理等技術(shù)領(lǐng)域。具體實(shí)現(xiàn)方案為：獲取待處理的目標(biāo)視頻，通過提取目標(biāo)視頻的視覺特征，并根據(jù)目標(biāo)視頻的視覺特征獲取目標(biāo)視頻的知識(shí)增強(qiáng)特征，再將目標(biāo)視頻的視覺特征以及知識(shí)增強(qiáng)特征作為視頻描述生成模型的輸入，獲取模型輸出的目標(biāo)視頻對(duì)應(yīng)的視頻描述文本。其中，目標(biāo)視頻的知識(shí)增強(qiáng)特征包括目標(biāo)視頻的事件特征以及目標(biāo)視頻中目標(biāo)對(duì)象之間的關(guān)系特征的至少一項(xiàng)。上述過程引入知識(shí)增強(qiáng)特征，可提升模型對(duì)視頻語義的深層理解，從而生成高質(zhì)量的視頻描述文本。

技術(shù)領(lǐng)域

本公開涉及人工智能領(lǐng)域的知識(shí)圖譜、深度學(xué)習(xí)、計(jì)算機(jī)視覺、視頻處理等技術(shù)領(lǐng)域，尤其涉及一種視頻描述生成方法、裝置、設(shè)備以及存儲(chǔ)介質(zhì)。

背景技術(shù)

視頻描述生成(video?captioning)是利用機(jī)器學(xué)習(xí)技術(shù)，將視頻生成對(duì)應(yīng)的自然語言語句，其廣泛適用于人機(jī)交互場景，如幫助視力受損人員進(jìn)行視頻內(nèi)容的描述、視頻標(biāo)題或摘要生成等。

相關(guān)技術(shù)中，視頻描述生成大多是基于序列到序列(sequence?to?sequence)的生成方法，其主要做法是采用編碼器-解碼器(encoder-decode)框架，通過編碼器編碼視頻，再通過解碼器生成文本序列。然而，相關(guān)技術(shù)對(duì)視頻的特征分析不夠全面，進(jìn)而影響視頻描述的質(zhì)量。

發(fā)明內(nèi)容

本公開提供了一種視頻描述生成方法、裝置、設(shè)備以及存儲(chǔ)介質(zhì)。

根據(jù)本公開的第一方面，提供了一種視頻描述生成方法，包括：

獲取待處理的目標(biāo)視頻，所述目標(biāo)視頻包括多個(gè)目標(biāo)對(duì)象；

提取所述目標(biāo)視頻的視覺特征；

根據(jù)所述目標(biāo)視頻的視覺特征獲取所述目標(biāo)視頻的知識(shí)增強(qiáng)特征，所述知識(shí)增強(qiáng)特征包括所述目標(biāo)視頻的事件特征以及所述目標(biāo)視頻中目標(biāo)對(duì)象之間的關(guān)系特征的至少一項(xiàng)；

將所述目標(biāo)視頻的所述視覺特征以及所述知識(shí)增強(qiáng)特征輸入視頻描述生成模型，得到所述目標(biāo)視頻對(duì)應(yīng)的視頻描述文本。

根據(jù)本公開的第二方面，提供了一種視頻描述生成裝置，包括：

獲取模塊，用于獲取待處理的目標(biāo)視頻，所述目標(biāo)視頻包括多個(gè)目標(biāo)對(duì)象；

特征提取模塊，用于提取所述目標(biāo)視頻的視覺特征；

特征分析模塊，用于根據(jù)所述目標(biāo)視頻的視覺特征獲取所述目標(biāo)視頻的知識(shí)增強(qiáng)特征，所述知識(shí)增強(qiáng)特征包括所述目標(biāo)視頻的事件特征以及所述目標(biāo)視頻中目標(biāo)對(duì)象之間的關(guān)系特征的至少一項(xiàng)；

處理模塊，用于將所述目標(biāo)視頻的所述視覺特征以及所述知識(shí)增強(qiáng)特征輸入視頻描述生成模型，得到所述目標(biāo)視頻對(duì)應(yīng)的視頻描述文本。

根據(jù)本公開的第三方面，提供了一種電子設(shè)備，包括：

至少一個(gè)處理器；以及

與所述至少一個(gè)處理器通信連接的存儲(chǔ)器；其中，

所述存儲(chǔ)器存儲(chǔ)有可被所述至少一個(gè)處理器執(zhí)行的指令，所述指令被所述至少一個(gè)處理器執(zhí)行，以使所述至少一個(gè)處理器能夠執(zhí)行第一方面所述的方法。

根據(jù)本公開的第四方面，提供了一種存儲(chǔ)有計(jì)算機(jī)指令的非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其中，所述計(jì)算機(jī)指令用于使所述計(jì)算機(jī)執(zhí)行第一方面所述的方法。

根據(jù)本公開的第五方面，提供了一種計(jì)算機(jī)程序產(chǎn)品，所述計(jì)算機(jī)程序產(chǎn)品包括：計(jì)算機(jī)程序，所述計(jì)算機(jī)程序存儲(chǔ)在可讀存儲(chǔ)介質(zhì)中，電子設(shè)備的至少一個(gè)處理器可以從所述可讀存儲(chǔ)介質(zhì)讀取所述計(jì)算機(jī)程序，所述至少一個(gè)處理器執(zhí)行所述計(jì)算機(jī)程序使得電子設(shè)備執(zhí)行第一方面所述的方法。

根據(jù)本公開的技術(shù)可提高視頻描述文本的質(zhì)量。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京百度網(wǎng)訊科技有限公司，未經(jīng)北京百度網(wǎng)訊科技有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202210271140.7/2.html，轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。