[發(fā)明專利]基于轉(zhuǎn)換系統(tǒng)的視頻語(yǔ)音同步方法、裝置、電子設(shè)備在審
| 申請(qǐng)?zhí)枺?/td> | 202310633229.8 | 申請(qǐng)日: | 2023-05-31 |
| 公開(公告)號(hào): | CN116631434A | 公開(公告)日: | 2023-08-22 |
| 發(fā)明(設(shè)計(jì))人: | 張旭龍;王健宗;程寧 | 申請(qǐng)(專利權(quán))人: | 平安科技(深圳)有限公司 |
| 主分類號(hào): | G10L21/10 | 分類號(hào): | G10L21/10;G06V40/16;G06V40/20;G10L21/18;G10L25/57;G10L15/26;G10L15/02;G10L13/08;G10L13/10;G10L13/02 |
| 代理公司: | 廣州嘉權(quán)專利商標(biāo)事務(wù)所有限公司 44205 | 代理人: | 廖慧賢 |
| 地址: | 518000 廣東省深圳市福田區(qū)福*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 轉(zhuǎn)換 系統(tǒng) 視頻 語(yǔ)音 同步 方法 裝置 電子設(shè)備 | ||
1.一種基于轉(zhuǎn)換系統(tǒng)的視頻語(yǔ)音同步方法,其特征在于,所述方法包括:
基于所述轉(zhuǎn)換系統(tǒng)對(duì)視頻中的音頻進(jìn)行提取,得到原始語(yǔ)音文本以及語(yǔ)音特征信息;
將所述原始語(yǔ)音文本輸入預(yù)設(shè)翻譯模型進(jìn)行翻譯,得到與所述原始語(yǔ)音文本對(duì)應(yīng)的目標(biāo)語(yǔ)音信息;
根據(jù)所述語(yǔ)音特征信息對(duì)所述目標(biāo)語(yǔ)音信息進(jìn)行調(diào)整,得到目標(biāo)合成語(yǔ)音;
基于所述轉(zhuǎn)換系統(tǒng)對(duì)所述視頻進(jìn)行人臉檢測(cè),得到說(shuō)話人的面部特征;
將所述面部特征和所述目標(biāo)合成語(yǔ)音輸入訓(xùn)練好的對(duì)抗網(wǎng)絡(luò)模型進(jìn)行語(yǔ)音同步,得到所述說(shuō)話人的嘴唇運(yùn)動(dòng)幀;
根據(jù)所述嘴唇運(yùn)動(dòng)幀更新所述視頻,得到目標(biāo)視頻。
2.根據(jù)權(quán)利要求1所述的基于轉(zhuǎn)換系統(tǒng)的視頻語(yǔ)音同步方法,其特征在于,所述轉(zhuǎn)換系統(tǒng)包括自動(dòng)語(yǔ)音識(shí)別模型;所述基于所述轉(zhuǎn)換系統(tǒng)對(duì)視頻中的音頻進(jìn)行提取,得到原始語(yǔ)音文本以及語(yǔ)音特征信息,包括:
基于所述自動(dòng)語(yǔ)音識(shí)別模型對(duì)視頻中的音頻進(jìn)行重音檢測(cè),得到攜帶重音信息的原始語(yǔ)音文本;
對(duì)所述原始語(yǔ)音文本進(jìn)行特征提取,得到說(shuō)話人的音色信息、韻律信息以及音調(diào)信息;
根據(jù)所述音色信息、所述韻律信息以及所述音調(diào)信息生成語(yǔ)音特征信息。
3.根據(jù)權(quán)利要求2所述的基于轉(zhuǎn)換系統(tǒng)的視頻語(yǔ)音同步方法,其特征在于,所述將所述原始語(yǔ)音文本輸入預(yù)設(shè)翻譯模型進(jìn)行翻譯,得到與所述原始語(yǔ)音文本對(duì)應(yīng)的目標(biāo)語(yǔ)音信息,包括:
將所述原始語(yǔ)音文本輸入預(yù)設(shè)翻譯模型,使得所述預(yù)設(shè)翻譯模型根據(jù)所述重音信息對(duì)所述原始語(yǔ)音文本進(jìn)行翻譯,得到所述目標(biāo)語(yǔ)音信息。
4.根據(jù)權(quán)利要求2所述的基于轉(zhuǎn)換系統(tǒng)的視頻語(yǔ)音同步方法,其特征在于,所述轉(zhuǎn)換系統(tǒng)包括語(yǔ)音合成模型和語(yǔ)音轉(zhuǎn)換模型;所述根據(jù)所述語(yǔ)音特征信息對(duì)所述目標(biāo)語(yǔ)音信息進(jìn)行調(diào)整,得到目標(biāo)合成語(yǔ)音,包括:
將所述語(yǔ)音特征信息輸入所述語(yǔ)音轉(zhuǎn)換模型進(jìn)行語(yǔ)音轉(zhuǎn)換,得到轉(zhuǎn)換序列;
將所述轉(zhuǎn)換序列以及所述目標(biāo)語(yǔ)音信息輸入所述語(yǔ)音合成模型,使得所述語(yǔ)音合成模型根據(jù)所述重音信息將所述目標(biāo)語(yǔ)音信息映射至所述轉(zhuǎn)換序列,得到所述目標(biāo)合成語(yǔ)音。
5.根據(jù)權(quán)利要求4所述的基于轉(zhuǎn)換系統(tǒng)的視頻語(yǔ)音同步方法,其特征在于,所述語(yǔ)音轉(zhuǎn)換模型包括音高編碼器、韻律編碼器和音色編碼器;所述將所述語(yǔ)音特征信息輸入所述語(yǔ)音轉(zhuǎn)換模型進(jìn)行語(yǔ)音轉(zhuǎn)換,得到轉(zhuǎn)換序列,包括:
將所述音色信息輸入所述音色編碼器進(jìn)行音色轉(zhuǎn)換,得到音色序列;
將所述韻律信息輸入所述韻律編碼器進(jìn)行語(yǔ)音嵌入,得到韻律序列;
將所述音調(diào)信息輸入所述音高編碼器進(jìn)行音調(diào)預(yù)測(cè),得到音調(diào)序列;
根據(jù)所述音色序列、所述韻律序列和所述音調(diào)序列生成所述轉(zhuǎn)換序列。
6.根據(jù)權(quán)利要求1所述的基于轉(zhuǎn)換系統(tǒng)的視頻語(yǔ)音同步方法,其特征在于,所述基于所述轉(zhuǎn)換系統(tǒng)對(duì)所述視頻進(jìn)行人臉檢測(cè),得到說(shuō)話人的面部特征,包括:
基于所述轉(zhuǎn)換系統(tǒng)對(duì)所述視頻進(jìn)行分割,得到所述視頻的視頻幀;
對(duì)所述視頻幀進(jìn)行人臉檢測(cè),得到說(shuō)話人的面部信息;
對(duì)所述面部信息進(jìn)行特征分割,得到所述說(shuō)話人的唇部區(qū)域、眼部區(qū)域以及鼻部區(qū)域;
根據(jù)所述唇部區(qū)域、所述眼部區(qū)域和所述鼻部區(qū)域生成所述面部特征。
7.根據(jù)權(quán)利要求6所述的基于轉(zhuǎn)換系統(tǒng)的視頻語(yǔ)音同步方法,其特征在于,所述對(duì)抗網(wǎng)絡(luò)模型包括唇生成模型;所述將所述面部特征和所述目標(biāo)合成語(yǔ)音輸入訓(xùn)練好的對(duì)抗網(wǎng)絡(luò)模型進(jìn)行語(yǔ)音同步,得到所述說(shuō)話人的嘴唇運(yùn)動(dòng)幀,包括:
將所述面部特征輸入所述唇生成模型,使得所述唇生成模型對(duì)所述唇部區(qū)域進(jìn)行特征提取,得到唇形特征;
根據(jù)所述目標(biāo)合成語(yǔ)音生成目標(biāo)唇形幀;
根據(jù)所述目標(biāo)唇形幀對(duì)所述唇形特征進(jìn)行語(yǔ)音同步,生成所述說(shuō)話人的嘴唇運(yùn)動(dòng)幀。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于平安科技(深圳)有限公司,未經(jīng)平安科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310633229.8/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
- 圖像轉(zhuǎn)換設(shè)備、圖像轉(zhuǎn)換電路及圖像轉(zhuǎn)換方法
- 數(shù)模轉(zhuǎn)換電路及轉(zhuǎn)換方法
- 轉(zhuǎn)換設(shè)備和轉(zhuǎn)換方法
- 占空比轉(zhuǎn)換電路及轉(zhuǎn)換方法
- 通信轉(zhuǎn)換方法、轉(zhuǎn)換裝置及轉(zhuǎn)換系統(tǒng)
- 模數(shù)轉(zhuǎn)換和模數(shù)轉(zhuǎn)換方法
- 轉(zhuǎn)換模塊以及轉(zhuǎn)換電路
- 熱電轉(zhuǎn)換材料、熱電轉(zhuǎn)換元件和熱電轉(zhuǎn)換模塊
- 熱電轉(zhuǎn)換材料、熱電轉(zhuǎn)換元件及熱電轉(zhuǎn)換模塊
- 熱電轉(zhuǎn)換材料、熱電轉(zhuǎn)換元件及熱電轉(zhuǎn)換模塊





