[發(fā)明專利]一種模擬虛擬人物說話的方法及裝置在審

申請?zhí)枺?/td>	202210050718.6	申請日：	2022-01-17
公開（公告）號：	CN114359450A	公開（公告）日：	2022-04-15
發(fā)明（設計）人：	余國軍;耿俊懷	申請（專利權）人：	小哆智能科技（北京）有限公司
主分類號：	G06T13/40	分類號：	G06T13/40;G10L15/00;G10L15/02;G10L15/08
代理公司：	北京知呱呱知識產權代理有限公司 11577	代理人：	朱芳
地址：	100089 北京市海淀區(qū)西***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種模擬虛擬人物說話方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明實施例公開了一種模擬虛擬人物說話的方法及裝置，方法包括以下步驟：根據多個音素分類，制作與每個音素分類對應的口型，得到多個基礎口型；輸入音頻流，提取音頻流的音頻幀，識別音頻幀的音素；從多個音素分類中，確定與音頻幀的音素對應的音素分類，選擇與之對應的基礎口型；將選擇的基礎口型合成音頻幀的對應口型。將真人口型通過音素分類，整理為14個基本口型，可以讓計算機通過音素識別，驅動虛擬數字人口型同步。通過虛擬數字人口型專利，可以快速準確的實現虛擬數字人的語音口型同步。制定了口型標準化口型制作方案，極大的提高了虛擬數字人口型制作效率和口型的質量。讓虛擬數字人更加接近于真人，極大的提升了用戶的體驗。

技術領域

本發(fā)明實施例涉及語言識別處理領域，具體涉及一種模擬虛擬人物說話的方法及裝置。

背景技術

虛擬數字人口型當前市場主要有以下三種解決方案：

(1)固定虛擬數字人口型動畫：不管虛擬角色說啥，口型都是固定的，做不到語音口型同步；

(2)音量驅動虛擬數字人口型動畫：根據虛擬角色說話的音量大小，來控制虛擬角色的口型大小，非常不準確，做不到語音口型同步；

(3)真人圖片序列幀動畫：科大訊飛的虛擬數字人小晴使用的方案，通過識別語音調用圖片序列幀動畫來實現語音口型同步，該解決方案局限性大，需要拍攝大量的真人素材，很難應用于市場。

發(fā)明內容

為此，本發(fā)明實施例提供一種模擬虛擬人物說話的方法及裝置，以解決現有技術中市面上的音量識別和固定口型，只適用于卡通角色，無法實現語音口型同步的問題。

為了實現上述目的，本發(fā)明的實施方式提供如下技術方案：

在本發(fā)明的實施方式的一個方面中，提供了一種模擬虛擬人物說話的方法，所述方法包括：

根據多個音素分類，制作與每個所述音素分類對應的口型，得到多個基礎口型；

輸入音頻流，提取所述音頻流的音頻幀，識別所述音頻幀的音素；

從所述多個音素分類中，確定與所述音頻幀的音素對應的所述音素分類，選擇與之對應的所述基礎口型；

將選擇的所述基礎口型合成所述音頻幀的對應口型。

進一步地，所述多個音素分類包括：

(p，b，m)、(f，v)、(th)、(t，d)、(k，g)、(tS，dZ，S)、(s，z)、(n，l)、(r)、(A)、(e)、(ih)、(oh)、(ou)。

進一步地，在所述音頻流中，提取2.5ms至60ms為單位的數據量為一幀音頻。

進一步地，所述方法還包括：

制作虛擬人物模型，根據所述音頻幀的對應口型，生成所述虛擬人物的口型。

進一步地，所述多個基礎口型還包括：嘴閉合口型和通用口型。

進一步地，當從所述音頻幀中識別的音素不在所述多個音素分類中時，選擇所述通用口型作為基礎口型；

當從所述音頻幀中未識別出音素時，選擇所述嘴閉合口型作為基礎口型。

在本發(fā)明的實施方式的一個方面中，還提供了一種模擬虛擬人物說話的裝置，所述裝置包括：

基礎口型生成單元，用于根據多個音素分類，制作與每個所述音素分類對應的口型，得到多個基礎口型；

音素提取單元，用于輸入音頻流，提取所述音頻流的音頻幀，識別所述音頻幀的音素；

基礎口型確定單元，用于從所述多個音素分類中，確定與所述音頻幀的音素對應的所述音素分類，選擇與之對應的所述基礎口型；

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于小哆智能科技（北京）有限公司，未經小哆智能科技（北京）有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202210050718.6/2.html，轉載請聲明來源鉆瓜專利網。

上一篇：一種NK細胞保護運輸液
下一篇：基于深度學習的視頻行為識別安防系統(tǒng)

同類專利

專利分類

G 物理

G06 計算；推算；計數
G06T 一般的圖像數據處理或產生
G06T13-00 動畫制作
G06T13-20 .3D［三維］動畫
G06T13-80 .2D［二維］動畫，如使用精靈sprites
G06T13-40 ..關于角色的，例如：人類、動物或虛幻人物
G06T13-60 ..關于自然景觀的，例如：雨、雪、水或植物

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】