[發明專利]一種音視頻合成方法有效
| 申請號: | 201910912787.1 | 申請日: | 2019-09-25 |
| 公開(公告)號: | CN110728971B | 公開(公告)日: | 2022-02-18 |
| 發明(設計)人: | 孫見青 | 申請(專利權)人: | 云知聲智能科技股份有限公司 |
| 主分類號: | G10L13/04 | 分類號: | G10L13/04;G10L13/047;G06N3/04;G06N3/08;H04N5/262;H04N5/265 |
| 代理公司: | 北京冠和權律師事務所 11399 | 代理人: | 張楠楠 |
| 地址: | 100000 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 視頻 合成 方法 | ||
1.一種音視頻合成方法,其特征在于,所述音視頻合成方法包括如下步驟:
步驟(1),對經過訓練的深度神經網絡模型輸入文本數據,以得到與所述文本數據對應的聲學參數和變分自編碼器VAE隱層特征;
步驟(2),根據所述聲學參數,得到與所述文本數據對應的目標音頻;
步驟(3),根據所述變分自編碼器VAE隱層特征,得到與所述文本數據對應的目標視頻;
步驟(4),將所述目標音頻和所述目標視頻進行組合,以實現所述音視頻合成;
在所述步驟(3)中,根據所述變分自編碼器VAE隱層特征,得到與所述文本數據對應的目標視頻具體包括,
步驟(301),對所述變分自編碼器VAE隱層特征進行變換處理,以此得到初級視頻;
步驟(302),對所述初級視頻進行關于預設算法模型的變換處理,以此得到關于所述文本數據的自然視頻;
步驟(303),根據所述自然視頻生成所述目標視頻;
在所述步驟(302)中,對所述初級視頻進行關于預設算法模型的變換處理,以此得到關于所述文本數據的自然視頻具體包括,
步驟(3021),基于條件生成對抗網絡CGAN,構建Video-to-Video Synthesis模型作為所述預設算法模型;
步驟(3022),對所述Video-to-Video Synthesis模型進行訓練處理;
步驟(3023),將所述初級視頻輸入至經過所述訓練處理的所述Video-to-VideoSynthesis模型,以此輸出得到所述自然視頻;
在所述步驟(3021)中,基于條件生成對抗網絡CGAN,構建Video-to-Video Synthesis模型作為所述預設算法模型具體包括,基于條件生成對抗網絡CGAN、預設視頻圖像幀順序條件和視頻精度調整模式,構建得到所述Video-to-Video Synthesis模型;
或者,
在所述步驟(3022)中,對所述Video-to-Video Synthesis模型進行訓練處理具體包括,
采用訓練所述深度神經網絡模型的文本-音頻-視頻數據庫中的視頻相關數據,對所述Video-to-Video Synthesis模型進行訓練處理,以使所述Video-to-Video Synthesis模型的視頻變換特性滿足預設特性條件。
2.如權利要求1所述的音視頻合成方法,其特征在于:
在所述步驟(1)中,對經過訓練的深度神經網絡模型輸入文本數據,以得到與所述文本數據對應的聲學參數和變分自編碼器VAE隱層特征具體包括,
步驟(101),構建用于所述訓練的文本-音頻-視頻數據庫;
步驟(102),基于所述文本-音頻-視頻數據庫中的所有數據對所述深度神經網絡模型進行訓練;
步驟(103),將所述文本數據輸入至經過訓練的所述深度神經網絡模型中,并從所述深度神經網絡模型的輸出得到與所述文本數據對應的聲學參數和變分自編碼器VAE隱層特征。
3.如權利要求2所述的音視頻合成方法,其特征在于:
在所述步驟(101)中,構建用于所述訓練的文本-音頻-視頻數據庫具體包括,
獲取關于不同場景的音頻數據和視頻數據,并從所述音頻數據中提取對應的聲學參數,以及從所述視頻數據的每一幀圖像中提取對應的VAE隱層特征,并根據預設數據結構,通過所述聲學參數和所述VAE隱層特征錄制和標注,以得到所述文本-音頻-視頻數據庫。
4.如權利要求1所述的音視頻合成方法,其特征在于:
在所述步驟(2)中,根據所述聲學參數,得到與所述文本數據對應的目標音頻具體包括,
步驟(201),將所述文本數據輸入至訓練好的網絡模型中,從而得到所述聲學參數;
步驟(202),將所述聲學參數輸入至聲碼器,從而通過所述聲碼器重構得到所述目標音頻。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于云知聲智能科技股份有限公司,未經云知聲智能科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910912787.1/1.html,轉載請聲明來源鉆瓜專利網。





