[發明專利]基于轉換系統的視頻語音同步方法、裝置、電子設備在審
| 申請號: | 202310633229.8 | 申請日: | 2023-05-31 |
| 公開(公告)號: | CN116631434A | 公開(公告)日: | 2023-08-22 |
| 發明(設計)人: | 張旭龍;王健宗;程寧 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G10L21/10 | 分類號: | G10L21/10;G06V40/16;G06V40/20;G10L21/18;G10L25/57;G10L15/26;G10L15/02;G10L13/08;G10L13/10;G10L13/02 |
| 代理公司: | 廣州嘉權專利商標事務所有限公司 44205 | 代理人: | 廖慧賢 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 轉換 系統 視頻 語音 同步 方法 裝置 電子設備 | ||
本申請實施例提供了一種基于轉換系統的視頻語音同步方法、裝置、電子設備及存儲介質,屬于金融科技技術領域。該方法包括:基于轉換系統對視頻中的音頻進行提取,得到原始語音文本以及語音特征信息;將原始語音文本輸入預設翻譯模型進行翻譯,得到與原始語音文本對應的目標語音信息;根據語音特征信息對目標語音信息進行調整,得到目標合成語音;基于轉換系統對視頻進行檢測,得到說話人的面部特征;將面部特征和目標合成語音輸入訓練好的對抗網絡模型進行語音同步,得到說話人的嘴唇運動幀;根據嘴唇運動幀更新視頻,得到目標視頻。本申請實施例能夠生成包含翻譯的音頻和經過調整的嘴唇動作的視頻,實現視頻中說話人的嘴唇和聲音相匹配。
技術領域
本申請涉及金融科技技術領域,尤其涉及一種基于轉換系統的視頻語音同步方法、裝置、電子設備及存儲介質。
背景技術
隨著科學技術的發展,語音翻譯系統已經非常成熟,從早期的移動手持翻譯器,到目前集成在講座和視頻會議中的同聲傳譯系統,這些系統和工具在實際生活和商業操作中起著重要作用,例如,可以應用于保險展業系統、銀行培訓系統、訂單交易系統等等。在保險展業的應用場景下,進行連續翻譯對話內容的過程中,首先語音識別出每個句子內容,然后翻譯成對應文本,最后將翻譯成的目標語言進行語音合成,以向客戶介紹相關理財產品的購買過程、理財收益等等。相比之下,演講、電影和視頻會議的同聲傳譯通常是采用字幕的方法。然而,在制作電影或離線視頻錄音時,字幕會產生干擾。因此,電影通常邀請配音人員進行視頻翻譯和配音,使用翻譯出來的目標語言來代替視頻中的原聲音,它的成本高昂,需要大量的人力物力,而且容易出現原始視頻和目標聲音不匹配的情況,并且在配音演員和合成語音的輸出過程中,仍然存在原始視頻中說話人的嘴唇運動和聲音不匹配的問題,從而降低客戶再保險展業過程中的體驗感。
發明內容
本申請實施例的主要目的在于提出一種基于轉換系統的視頻語音同步方法、裝置、電子設備及存儲介質,能夠生成包含翻譯的音頻和經過調整的嘴唇動作的視頻,實現視頻中說話人的嘴唇和聲音相匹配。
為實現上述目的,本申請實施例的第一方面提出了一種基于轉換系統的視頻語音同步方法,所述方法包括:
基于所述轉換系統對視頻中的音頻進行提取,得到原始語音文本以及語音特征信息;
將所述原始語音文本輸入預設翻譯模型進行翻譯,得到與所述原始語音文本對應的目標語音信息;
根據所述語音特征信息對所述目標語音信息進行調整,得到目標合成語音;
基于所述轉換系統對所述視頻進行人臉檢測,得到說話人的面部特征;
將所述面部特征和所述目標合成語音輸入訓練好的對抗網絡模型進行語音同步,得到所述說話人的嘴唇運動幀;
根據所述嘴唇運動幀更新所述視頻,得到目標視頻。
在一些實施例,所述轉換系統包括自動語音識別模型;所述基于所述轉換系統對視頻中的音頻進行提取,得到原始語音文本以及語音特征信息,包括:
基于所述自動語音識別模型對視頻中的音頻進行重音檢測,得到攜帶重音信息的原始語音文本;
對所述原始語音文本進行特征提取,得到說話人的音色信息、韻律信息以及音調信息;
根據所述音色信息、所述韻律信息以及所述音調信息生成語音特征信息。
在一些實施例,所述將所述原始語音文本輸入預設翻譯模型進行翻譯,得到與所述原始語音文本對應的目標語音信息,包括:
將所述原始語音文本輸入預設翻譯模型,使得所述預設翻譯模型根據所述重音信息對所述原始語音文本進行翻譯,得到所述目標語音信息。
在一些實施例,所述轉換系統包括語音合成模型和語音轉換模型;所述根據所述語音特征信息對所述目標語音信息進行調整,得到目標合成語音,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310633229.8/2.html,轉載請聲明來源鉆瓜專利網。





