[發明專利]視頻描述文本生成方法、裝置、設備和介質有效
| 申請號: | 201910542820.6 | 申請日: | 2019-06-21 |
| 公開(公告)號: | CN110263218B | 公開(公告)日: | 2022-02-25 |
| 發明(設計)人: | 卞東海;蔣帥;陳思姣;曾啟飛;羅雨;彭衛華 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F16/78 | 分類號: | G06F16/78 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 孟金喆 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 視頻 描述 文本 生成 方法 裝置 設備 介質 | ||
本發明實施例公開了一種視頻描述文本生成方法、裝置、設備和介質,涉及數字圖像處理與自然語言處理領域。該方法包括:根據預設描述詞語與待描述視頻的相關度,從所述預設描述詞語中確定候選描述詞語;根據所述待描述視頻的視覺特征,從所述候選描述詞語中選擇目標描述文本中的各位置詞語,以生成所述待描述視頻的目標描述文本。本發明實施例提供一種視頻描述文本生成方法、裝置、設備和介質,以提高視頻描述文本的準確率。
技術領域
本發明實施例涉及數字圖像處理與自然語言處理領域,尤其涉及一種視頻描述文本生成方法、裝置、設備和介質。
背景技術
目前,視頻資源已經變成人們獲取信息最流行和喜愛的方式,尤其是在一些視頻APP出現后,每天刷視頻已經成為很多人必不可少的休閑娛樂方式。為了更好的服務于用戶,需要將視頻中最核心的信息用文本形式表達,以便進行推薦展示。因此必須有一種方法能夠對于給定的視頻輸出該視頻的核心內容信息。
將視頻內容用文本描述的專業術語是“video2caption”,它是計算機視覺領域當前最熱的研究方向之一。目前video2caption的方法大致分為2大類:一類是基于模板形式,算法首先根據視頻預測有哪些主謂賓信息,然后根據這些主謂賓和模板信息構造視頻描述文本;另外一類是基于生成的形式,該形式一般是采用深度學習的方法,輸入視頻,深度學習神經網絡直接輸出視頻的描述文本,而不需要構建模板信息。
現有方法的主要問題在于:描述生成效果差,巨大的詞匯搜索空間使得詞匯的選擇變得十分困難,導致最終生成的質量不盡人意。
發明內容
本發明實施例提供一種視頻描述文本生成方法、裝置、設備和介質,以提高視頻描述文本的準確率。
第一方面,本發明實施例提供了一種視頻描述文本生成方法,該方法包括:
根據預設描述詞語與待描述視頻的相關度,從所述預設描述詞語中確定候選描述詞語,其中所述候選描述詞語的數量小于所述預設描述詞語的數量;
根據所述待描述視頻的視覺特征,從所述候選描述詞語中選擇目標描述文本中的各位置詞語,以生成所述待描述視頻的目標描述文本。
第二方面,本發明實施例還提供了一種視頻描述文本生成裝置,該裝置包括:
候選詞語確定模塊,用于根據預設描述詞語與待描述視頻的相關度,從所述預設描述詞語中確定候選描述詞語,其中所述候選描述詞語的數量小于所述預設描述詞語的數量;
描述文本生成模塊,用于根據所述待描述視頻的視覺特征,從所述候選描述詞語中選擇目標描述文本中的各位置詞語,以生成所述待描述視頻的目標描述文本。
第三方面,本發明實施例還提供了一種電子設備,所述設備包括:
一個或多個處理器;
存儲裝置,用于存儲一個或多個程序,
當所述一個或多個程序被所述一個或多個處理器執行,使得所述一個或多個處理器實現如本發明實施例中任一項所述的視頻描述文本生成方法。
第四方面,本實施例還提供了一種可讀存儲介質,其上存儲有計算機程序,其特征在于,該程序被處理器執行時實現如本發明實施例中任一項所述的視頻描述文本生成方法。
本發明實施例通過從所述預設描述詞語中確定候選描述詞語,其中所述候選描述詞語的數量小于所述預設描述詞語的數量;根據所述待描述視頻的視覺特征,從所述候選描述詞語中,而非全量的預設描述詞語中,選擇目標描述文本中的各位置詞語,從而縮小詞語搜索空間。
通過根據預設描述詞語與待描述視頻的相關度,從所述預設描述詞語中確定候選描述詞語,使得搜索空間中包括待描述視頻的相關詞語。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910542820.6/2.html,轉載請聲明來源鉆瓜專利網。





