[發明專利]視頻描述文本生成方法、裝置、設備和介質有效

申請號：	201910542820.6	申請日：	2019-06-21
公開（公告）號：	CN110263218B	公開（公告）日：	2022-02-25
發明（設計）人：	卞東海;蔣帥;陳思姣;曾啟飛;羅雨;彭衛華	申請（專利權）人：	北京百度網訊科技有限公司
主分類號：	G06F16/78	分類號：	G06F16/78
代理公司：	北京品源專利代理有限公司 11332	代理人：	孟金喆
地址：	100085 北京市***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	視頻描述文本生成方法裝置設備介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明實施例公開了一種視頻描述文本生成方法、裝置、設備和介質，涉及數字圖像處理與自然語言處理領域。該方法包括：根據預設描述詞語與待描述視頻的相關度，從所述預設描述詞語中確定候選描述詞語；根據所述待描述視頻的視覺特征，從所述候選描述詞語中選擇目標描述文本中的各位置詞語，以生成所述待描述視頻的目標描述文本。本發明實施例提供一種視頻描述文本生成方法、裝置、設備和介質，以提高視頻描述文本的準確率。

技術領域

本發明實施例涉及數字圖像處理與自然語言處理領域，尤其涉及一種視頻描述文本生成方法、裝置、設備和介質。

背景技術

目前，視頻資源已經變成人們獲取信息最流行和喜愛的方式，尤其是在一些視頻APP出現后，每天刷視頻已經成為很多人必不可少的休閑娛樂方式。為了更好的服務于用戶，需要將視頻中最核心的信息用文本形式表達,以便進行推薦展示。因此必須有一種方法能夠對于給定的視頻輸出該視頻的核心內容信息。

將視頻內容用文本描述的專業術語是“video2caption”，它是計算機視覺領域當前最熱的研究方向之一。目前video2caption的方法大致分為2大類：一類是基于模板形式，算法首先根據視頻預測有哪些主謂賓信息，然后根據這些主謂賓和模板信息構造視頻描述文本；另外一類是基于生成的形式，該形式一般是采用深度學習的方法，輸入視頻，深度學習神經網絡直接輸出視頻的描述文本，而不需要構建模板信息。

現有方法的主要問題在于：描述生成效果差，巨大的詞匯搜索空間使得詞匯的選擇變得十分困難，導致最終生成的質量不盡人意。

發明內容

本發明實施例提供一種視頻描述文本生成方法、裝置、設備和介質，以提高視頻描述文本的準確率。

第一方面，本發明實施例提供了一種視頻描述文本生成方法，該方法包括：

根據預設描述詞語與待描述視頻的相關度，從所述預設描述詞語中確定候選描述詞語，其中所述候選描述詞語的數量小于所述預設描述詞語的數量；

根據所述待描述視頻的視覺特征，從所述候選描述詞語中選擇目標描述文本中的各位置詞語，以生成所述待描述視頻的目標描述文本。

第二方面，本發明實施例還提供了一種視頻描述文本生成裝置，該裝置包括：

候選詞語確定模塊，用于根據預設描述詞語與待描述視頻的相關度，從所述預設描述詞語中確定候選描述詞語，其中所述候選描述詞語的數量小于所述預設描述詞語的數量；

描述文本生成模塊，用于根據所述待描述視頻的視覺特征，從所述候選描述詞語中選擇目標描述文本中的各位置詞語，以生成所述待描述視頻的目標描述文本。

第三方面，本發明實施例還提供了一種電子設備，所述設備包括：

一個或多個處理器；

存儲裝置，用于存儲一個或多個程序，