[發(fā)明專利]旁白添加方法、旁白添加裝置及存儲(chǔ)介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 202011052217.9 | 申請(qǐng)日: | 2020-09-29 |
| 公開(kāi)(公告)號(hào): | CN112235517B | 公開(kāi)(公告)日: | 2023-09-12 |
| 發(fā)明(設(shè)計(jì))人: | 崔志 | 申請(qǐng)(專利權(quán))人: | 北京小米松果電子有限公司 |
| 主分類號(hào): | H04N5/262 | 分類號(hào): | H04N5/262;H04N5/265 |
| 代理公司: | 北京鉦霖知識(shí)產(chǎn)權(quán)代理有限公司 11722 | 代理人: | 李志新;劉亞平 |
| 地址: | 100085 北京市海淀*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 旁白 添加 方法 裝置 存儲(chǔ) 介質(zhì) | ||
1.一種旁白添加方法,其特征在于,所述方法包括:
獲取視頻流,并實(shí)時(shí)抽取所述視頻流中包括的視頻幀圖像;
將實(shí)時(shí)抽取到的視頻幀圖像輸入預(yù)設(shè)對(duì)象檢測(cè)模型,通過(guò)所述對(duì)象檢測(cè)模型檢測(cè)所述視頻幀圖像中存在的對(duì)象,所述對(duì)象包括視頻幀圖像中的物體或人物;
將各對(duì)象的對(duì)象向量輸入預(yù)設(shè)的旁白生成模型,以生成所述視頻幀圖像的旁白;
將生成的旁白關(guān)聯(lián)至所述視頻幀圖像中;
所述旁白生成模型采用如下方式訓(xùn)練得到:
收集視頻樣本文件以及與視頻樣本文件對(duì)應(yīng)的旁白文件;
根據(jù)旁白文件中的時(shí)間戳信息,截取與旁白同一時(shí)間的視頻幀圖像,得到視頻幀圖像樣本;
將同一時(shí)間的視頻幀圖像樣本和旁白相關(guān)聯(lián),得到與視頻幀圖像樣本關(guān)聯(lián)的旁白;
將視頻幀圖像樣本輸入所述對(duì)象檢測(cè)模型,根據(jù)所述對(duì)象檢測(cè)模型檢測(cè)得到的視頻幀圖像樣本中對(duì)象的對(duì)象向量;
將視頻幀圖像樣本、與視頻幀圖像樣本關(guān)聯(lián)的旁白,以及視頻幀圖像樣本中對(duì)象的對(duì)象向量作為第一訓(xùn)練數(shù)據(jù)集,通過(guò)所述第一訓(xùn)練數(shù)據(jù)集,訓(xùn)練得到所述旁白生成模型。
2.根據(jù)權(quán)利要求1所述的旁白添加方法,其特征在于,通過(guò)所述第一訓(xùn)練數(shù)據(jù)集訓(xùn)練得到所述旁白生成模型,包括:
將所述視頻幀圖像樣本中對(duì)象的對(duì)象向量輸入序列到序列模型,通過(guò)所述序列到序列模型,對(duì)所述視頻幀圖像樣本中對(duì)象的對(duì)象向量進(jìn)行預(yù)測(cè),得到預(yù)測(cè)旁白;
基于損失函數(shù)調(diào)節(jié)所述序列到序列模型,直到通過(guò)所述序列到序列模型預(yù)測(cè)的旁白與所述視頻幀圖像樣本關(guān)聯(lián)的旁白達(dá)到預(yù)設(shè)相似度,得到滿足損失值的旁白生成模型。
3.根據(jù)權(quán)利要求1所述的旁白添加方法,其特征在于,所述對(duì)象檢測(cè)模型采用如下方式訓(xùn)練得到:
調(diào)用第二數(shù)據(jù)集,所述第二數(shù)據(jù)集包括圖像樣本以及圖像樣本中對(duì)象所處的位置區(qū)域;
基于所述第二數(shù)據(jù)集,訓(xùn)練得到所述對(duì)象檢測(cè)模型。
4.一種旁白添加裝置,其特征在于,所述裝置包括:
獲取單元,被配置為獲取視頻流,并實(shí)時(shí)抽取所述視頻流中包括的視頻幀圖像;
檢測(cè)單元,被配置為將實(shí)時(shí)抽取到的視頻幀圖像輸入預(yù)設(shè)對(duì)象檢測(cè)模型,通過(guò)所述對(duì)象檢測(cè)模型檢測(cè)所述視頻幀圖像中存在的對(duì)象,所述對(duì)象包括視頻幀圖像中的物體或人物;
生成單元,被配置為將各對(duì)象的對(duì)象向量輸入預(yù)設(shè)的旁白生成模型,以生成所述視頻幀圖像的旁白;
關(guān)聯(lián)單元,被配置為將生成的旁白關(guān)聯(lián)至所述視頻幀圖像中;
訓(xùn)練單元:收集視頻樣本文件以及與視頻樣本文件對(duì)應(yīng)的旁白文件,根據(jù)旁白文件中的時(shí)間戳信息,截取與旁白同一時(shí)間的視頻幀圖像,得到視頻幀圖像樣本,將同一時(shí)間的視頻幀圖像樣本和旁白相關(guān)聯(lián),得到與視頻幀圖像樣本關(guān)聯(lián)的旁白,將視頻幀圖像樣本輸入所述對(duì)象檢測(cè)模型,根據(jù)所述對(duì)象檢測(cè)模型檢測(cè)得到的視頻幀圖像樣本中對(duì)象的對(duì)象向量,將視頻幀圖像樣本、與視頻幀圖像樣本關(guān)聯(lián)的旁白,以及視頻幀圖像樣本中對(duì)象的對(duì)象向量作為第一數(shù)據(jù)集,通過(guò)所述第一數(shù)據(jù)集,訓(xùn)練得到所述旁白生成模型。
5.根據(jù)權(quán)利要求4所述的旁白添加裝置,其特征在于,所述訓(xùn)練單元采用如下方式通過(guò)所述第一數(shù)據(jù)集訓(xùn)練得到所述旁白生成模型:
將所述視頻幀圖像樣本中對(duì)象的對(duì)象向量輸入序列到序列模型,通過(guò)所述序列到序列模型,對(duì)所述視頻幀圖像樣本中對(duì)象的對(duì)象向量進(jìn)行預(yù)測(cè),得到預(yù)測(cè)旁白;
基于損失函數(shù)調(diào)節(jié)所述序列到序列模型,直到通過(guò)所述序列到序列模型預(yù)測(cè)的旁白與所述視頻幀圖像樣本關(guān)聯(lián)的旁白達(dá)到預(yù)設(shè)相似度,得到滿足損失值的旁白生成模型。
6.根據(jù)權(quán)利要求4所述的旁白添加裝置,其特征在于,所述裝置還包括訓(xùn)練單元;
所述訓(xùn)練單元采用如下方式訓(xùn)練得到所述對(duì)象檢測(cè)模型:
調(diào)用第二數(shù)據(jù)集,所述第二數(shù)據(jù)集包括圖像樣本以及圖像樣本中對(duì)象所處的位置區(qū)域;
基于所述第二數(shù)據(jù)集,訓(xùn)練得到所述對(duì)象檢測(cè)模型。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京小米松果電子有限公司,未經(jīng)北京小米松果電子有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011052217.9/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





