[發明專利]旁白添加方法、旁白添加裝置及存儲介質有效
| 申請號: | 202011052217.9 | 申請日: | 2020-09-29 |
| 公開(公告)號: | CN112235517B | 公開(公告)日: | 2023-09-12 |
| 發明(設計)人: | 崔志 | 申請(專利權)人: | 北京小米松果電子有限公司 |
| 主分類號: | H04N5/262 | 分類號: | H04N5/262;H04N5/265 |
| 代理公司: | 北京鉦霖知識產權代理有限公司 11722 | 代理人: | 李志新;劉亞平 |
| 地址: | 100085 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 旁白 添加 方法 裝置 存儲 介質 | ||
本公開是關于一種旁白添加方法、旁白添加裝置及存儲介質。旁白添加方法包括:獲取視頻流,并實時抽取所述視頻流中包括的視頻幀圖像;將實時抽取到的視頻幀圖像輸入預設對象檢測模型,通過所述對象檢測模型檢測所述視頻幀圖像中存在的對象;將所述各對象的對象向量輸入預設的旁白生成模型,以生成所述視頻幀圖像的旁白;將生成的旁白關聯至所述視頻幀圖像中。通過本公開,可智能地生成表達視頻幀圖像所傳遞情感的旁白,提升旁白制作效率,提升用戶對視頻的觀賞體驗。
技術領域
本公開涉及圖像處理技術領域,尤其涉及旁白添加方法、旁白添加裝置及存儲介質。
背景技術
隨著終端技術的發展,人們已越來越習慣通過終端拍攝視頻,以記錄生活中的點滴。
為了增加拍攝視頻的趣味性以及增加對拍攝視頻主題的情感表達,在拍攝視頻后,用戶往往需要利用第三方軟件將用戶手動編輯好的文本插入到視頻中,使得用戶可以隨時獲取到視頻對應的情感表達信息,提高視頻的顯示效果。
然而,當用戶拍攝有多個視頻,用戶對拍攝的多個視頻逐個編輯文本,并將編輯后的文本與拍攝視頻合成時,操作繁瑣,旁白制作效率低下。
發明內容
為克服相關技術中存在的問題,本公開提供一種旁白添加方法、旁白添加裝置及存儲介質。
根據本公開實施例的第一方面,提供一種旁白添加方法,旁白添加方法包括:獲取視頻流,并實時抽取所述視頻流中包括的視頻幀圖像;將實時抽取到的視頻幀圖像輸入預設對象檢測模型,通過所述對象檢測模型檢測所述視頻幀圖像中存在的對象;將所述各對象的對象向量輸入預設的旁白生成模型,以生成所述視頻幀圖像的旁白;將生成的旁白關聯至所述視頻幀圖像中。
在一示例中,所述旁白生成模型采用如下方式訓練得到:收集視頻樣本文件以及與視頻樣本文件對應的旁白文件;根據旁白文件中的時間戳信息,截取與旁白同一時間的視頻幀圖像,得到視頻幀圖像樣本;將同一時間的視頻幀圖像樣本和旁白相關聯,得到與視頻幀圖像樣本關聯的旁白;將視頻幀圖像樣本輸入所述對象檢測模型,根據所述對象檢測模型檢測得到的視頻幀圖像樣本中對象的對象向量;將視頻幀圖像樣本、與視頻幀圖像樣本關聯的旁白,以及視頻幀圖像樣本中對象的對象向量作為第一數據集,通過所述第一數據集,訓練得到所述旁白生成模型。
在一示例中,通過所述第一數據集,訓練得到所述旁白生成模型,包括:將所述視頻幀圖像樣本中對象的對象向量輸入序列到序列模型,通過所述序列到序列模型,對所述視頻幀圖像樣本中對象的對象向量進行預測,得到預測旁白;基于損失函數調節所述序列到序列模型,直到通過所述序列到序列模型預測的旁白與所述視頻幀圖像樣本關聯的旁白達到預設相似度,得到滿足損失值的旁白生成模型。
在一示例中,所述對象檢測模型采用如下方式訓練得到:調用第二數據集,所述第二數據集包括圖像樣本以及圖像樣本中對象所處的位置區域;基于所述第二數據集,訓練得到所述對象檢測模型。
根據本公開實施例的第二方面,提供一種旁白添加裝置,所述旁白添加裝置包括:獲取單元,被配置為獲取視頻流,并實時抽取所述視頻流中包括的視頻幀圖像;檢測單元,被配置為將實時抽取到的視頻幀圖像輸入預設對象檢測模型,通過所述對象檢測模型檢測所述視頻幀圖像中存在的對象;生成單元,被配置為將所述各對象的對象向量輸入預設的旁白生成模型,以生成所述視頻幀圖像的旁白;關聯單元,被配置為將生成的旁白關聯至所述視頻幀圖像中。
在一示例中,所述裝置還包括訓練單元;所述訓練單元采用如下方式訓練得到旁白生成模型:收集視頻樣本文件以及與視頻樣本文件對應的旁白文件;根據旁白文件中的時間戳信息,截取與旁白同一時間的視頻幀圖像,得到視頻幀圖像樣本;將同一時間的視頻幀圖像樣本和旁白相關聯,得到與視頻幀圖像樣本關聯的旁白;將視頻幀圖像樣本輸入所述對象檢測模型,根據所述對象檢測模型檢測得到的視頻幀圖像樣本中對象的對象向量;將視頻幀圖像樣本、與視頻幀圖像樣本關聯的旁白,以及視頻幀圖像樣本中對象的對象向量作為第一數據集,通過所述第一數據集,訓練得到所述旁白生成模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京小米松果電子有限公司,未經北京小米松果電子有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011052217.9/2.html,轉載請聲明來源鉆瓜專利網。





