[發(fā)明專利]視頻合成方法、裝置、設(shè)備及存儲介質(zhì)有效

申請?zhí)枺?/td>	202010611693.3	申請日：	2020-06-30
公開（公告）號：	CN111741326B	公開（公告）日：	2023-08-18
發(fā)明（設(shè)計）人：	董霙;劉炳楠	申請（專利權(quán)）人：	騰訊科技（深圳）有限公司
主分類號：	H04N21/233	分類號：	H04N21/233;H04N21/234;H04N21/2187;H04N5/262
代理公司：	北京三高永信知識產(chǎn)權(quán)代理有限責(zé)任公司 11138	代理人：	張所明
地址：	518057 廣東省深圳***	國省代碼：	廣東;44
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	視頻合成方法裝置設(shè)備存儲介質(zhì)
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種視頻合成方法，其特征在于，所述方法包括：

獲取文本；

獲取所述文本對應(yīng)的音頻，對所述音頻進(jìn)行處理，得到所述音頻中的音素序列對應(yīng)的n種口型標(biāo)識和各個口型標(biāo)識的口型時間點(diǎn)信息，n為正整數(shù)；

獲取標(biāo)準(zhǔn)化口型序列幀和含有主播形象的視頻，所述標(biāo)準(zhǔn)化口型序列幀包括所述n種口型標(biāo)識對應(yīng)的口型視頻幀；

從所述標(biāo)準(zhǔn)化口型序列幀中獲取所述n種口型標(biāo)識對應(yīng)的口型視頻幀；

根據(jù)相鄰口型之間的相鄰口型時間點(diǎn)信息，對相鄰的所述口型視頻幀的時長進(jìn)行變速處理，得到處理后的口型視頻幀；

按照各個口型標(biāo)識的口型時間點(diǎn)信息，將所述各個口型標(biāo)識對應(yīng)的所述處理后的口型視頻幀進(jìn)行融合；以及，當(dāng)相鄰口型為不同類型且第二個口型為非終結(jié)口型時，截取所述第二個口型的處理后的口型視頻幀在時間上的中間部分的視頻幀作為過渡序列幀與所述相鄰口型的處理后的口型視頻幀進(jìn)行融合；

確定得到融合后的口型視頻幀；

將所述融合后的口型視頻幀貼合在所述含有主播形象的視頻的視頻幀中的主播的嘴部，得到主播視頻。

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述將所述融合后的口型視頻幀貼合在所述含有主播形象的視頻的視頻幀中的主播的嘴部，得到主播視頻，包括：

從所述含有主播形象的視頻中截取第一時長的視頻，所述第一時長是所述文本對應(yīng)的音頻的時長，所述第一時長的視頻包括含有所述主播的嘴部的視頻幀；

將所述融合后的口型視頻幀貼合在含有所述主播的嘴部的視頻幀中，得到所述主播視頻。

3.根據(jù)權(quán)利要求1或2所述的方法，其特征在于，所述獲取所述文本對應(yīng)的音頻，對所述音頻進(jìn)行處理，得到所述音頻中的音素序列對應(yīng)的n種口型標(biāo)識和各個口型標(biāo)識的口型時間點(diǎn)信息，包括：

根據(jù)所述文本得到所述文本對應(yīng)的音頻，對所述音頻進(jìn)行處理，得到所述音頻中的音素序列；

根據(jù)口型分配規(guī)則對所述音素序列進(jìn)行劃分，得到所述音素序列對應(yīng)的n種口型，所述n種口型對應(yīng)有所述n種口型標(biāo)識；

調(diào)用音素時間點(diǎn)預(yù)測模型對所述文本對應(yīng)的音頻和所述音素序列進(jìn)行識別，得到所述音素序列對應(yīng)的所述各個口型標(biāo)識的口型時間點(diǎn)信息，所述口型時間點(diǎn)信息包括所述各個口型標(biāo)識出現(xiàn)的開始時間和結(jié)束時間。

4.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述音素時間點(diǎn)預(yù)測模型是通過如下方式訓(xùn)練得到的：

獲取樣本文本和樣本音頻，所述樣本音頻中的樣本音素序列標(biāo)定有所述各個口型標(biāo)識的口型時間點(diǎn)信息；

對所述樣本音素序列和所述樣本音頻進(jìn)行特征提取，得到所述樣本音素序列對應(yīng)的第一特征向量和所述樣本音頻對應(yīng)的第二特征向量；

將所述第一特征向量和所述第二特征向量輸入至所述音素時間點(diǎn)預(yù)測模型中，得到所述樣本音素序列對應(yīng)的所述各個口型標(biāo)識的預(yù)測口型時間點(diǎn)信息；

根據(jù)所述各個口型標(biāo)識的口型時間點(diǎn)信息和所述各個口型標(biāo)識的預(yù)測口型時間點(diǎn)信息對所述音素時間點(diǎn)預(yù)測模型進(jìn)行訓(xùn)練，得到訓(xùn)練后的音素時間點(diǎn)預(yù)測模型。

5.根據(jù)權(quán)利要求1或2所述的方法，其特征在于，所述方法還包括：

將所述主播視頻作為第一視頻元素嵌入至第二視頻元素中，所述第二視頻元素的類型與所述第一視頻元素的類型不同；

根據(jù)嵌入后的所述第二視頻元素合成混合視頻。

6.根據(jù)權(quán)利要求1或2所述的方法，其特征在于，所述獲取標(biāo)準(zhǔn)化口型序列幀和含有主播形象的視頻之前，包括：

采集真人主播的影像視頻，所述真人主播的面部設(shè)置有跟蹤點(diǎn)，所述跟蹤點(diǎn)用于記錄所述面部的變化軌跡；

根據(jù)所述跟蹤點(diǎn)得到所述真人主播的面部移動數(shù)據(jù)和旋轉(zhuǎn)角度數(shù)據(jù)；

根據(jù)所述面部移動數(shù)據(jù)和所述旋轉(zhuǎn)角度數(shù)據(jù)構(gòu)建與所述真人主播對應(yīng)的主播形象；

根據(jù)所述主播形象生成含有所述主播形象的視頻。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費(fèi)下載。

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技（深圳）有限公司，未經(jīng)騰訊科技（深圳）有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010611693.3/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。