[發明專利]動畫合成方法、裝置、移動終端和電子設備在審

申請號：	202011226145.5	申請日：	2020-11-05
公開（公告）號：	CN112541956A	公開（公告）日：	2021-03-23
發明（設計）人：	鮑冠伯;劉玉強;彭哲	申請（專利權）人：	北京百度網訊科技有限公司
主分類號：	G06T13/20	分類號：	G06T13/20;G10L15/02;G10L15/25
代理公司：	北京清亦華知識產權代理事務所(普通合伙) 11201	代理人：	韓海花
地址：	100085 北京市***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	動畫合成方法裝置移動終端電子設備
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本申請公開了動畫合成方法、裝置、移動終端和電子設備，涉及計算機技術領域，具體涉及語音技術和深度學習等人工智能技術領域。具體實現方案為：獲取聲音文件；獲取聲音文件；獲取聲音文件中的語音識別特征；根據唇動參數獲取模型對語音識別特征進行處理，以獲取語音唇動參數；以及根據語音唇動參數和人臉模型生成唇動動畫。本申請實施例的動畫合成方法，通過將語音識別特征作為語音唇動參數提取的輸入特征，無需音素時長，且能夠做到音色無關，既可提升合成效率，又可減少合成誤差。

技術領域

本申請涉及計算機技術領域，具體涉及語音技術和深度學習等人工智能技術領域，尤其涉及一種動畫合成方法、裝置、移動終端和電子設備。

背景技術

模態合成是TTS(TextToSpeech，從文本到語音)的擴展，目標是合成與合成聲音相匹配的動畫形象，其中最核心和關鍵的是合成形象的唇動唇形需要與語音相匹配。

然而，現有的3D唇動合成基本都是基于驅動Blendshape(混合形狀)變形器的方案，輸入特征多種多樣，有的是文本特征，有的是語音的梅爾頻譜，并且現有的方案中很多要使用音素時長，并且都不是面向移動端的。

發明內容

本公開提供了一種動畫合成方法、裝置、移動終端和電子設備。

根據第一方面，提供了一種動畫合成方法，包括：

獲取聲音文件；

獲取所述聲音文件中的語音識別特征；

根據唇動參數獲取模型對所述語音識別特征進行處理，以獲取語音唇動參數；以及

根據所述語音唇動參數和人臉模型生成唇動動畫。

本申請實施例的動畫合成方法，首先獲取聲音文件，并獲取聲音文件中的語音識別特征，然后根據唇動參數獲取模型對語音識別特征進行處理，以獲取語音唇動參數，最后根據語音唇動參數和人臉模型生成唇動動畫。由此，通過將語音識別特征作為語音唇動參數提取的輸入特征，無需音素時長，且能夠做到音色無關，既可提升合成效率，又可減少合成誤差。

根據第二方面，提供了一種動畫合成裝置，包括：

第一獲取模塊，用于獲取聲音文件；

第二獲取模塊，用于獲取所述聲音文件中的語音識別特征；

第三獲取模塊，用于根據唇動參數獲取模型對所述語音識別特征進行處理，以獲取語音唇動參數；以及

生成模塊，用于根據所述語音唇動參數和人臉模型生成唇動動畫。

本申請實施例的動畫合成裝置，通過第一獲取模塊獲取聲音文件，通過第二獲取模塊獲取聲音文件中的語音識別特征，通過第三獲取模塊根據唇動參數獲取模型對語音識別特征進行處理，以獲取語音唇動參數；通過生成模塊根據語音唇動參數和人臉模型生成唇動動畫。由此，通過將語音識別特征作為語音唇動參數提取的輸入特征，無需音素時長，且能夠做到音色無關，既可提升合成效率，又可減少合成誤差。

根據第三方面，提供了一種移動終端，包括上述一方面實施例所述的動畫合成裝置。

本申請實施例的移動終端，通過上述動畫合成裝置，將語音識別特征作為語音唇動參數提取的輸入特征，無需音素時長，且能夠做到音色無關，既可提升合成效率，又可減少合成誤差。

根據第四方面，提供了一種電子設備，包括：

至少一個處理器；以及

與所述至少一個處理器通信連接的存儲器；其中，

所述存儲器存儲有可被所述至少一個處理器執行的指令，所述指令被所述至少一個處理器執行，以使所述至少一個處理器能夠執行上述一方面實施例所述的動畫合成方法。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司，未經北京百度網訊科技有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202011226145.5/2.html，轉載請聲明來源鉆瓜專利網。