[發(fā)明專利]語音轉換虛擬臉部圖像的方法在審

申請?zhí)枺?/td>	201911210729.0	申請日：	2019-12-02
公開（公告）號：	CN112992120A	公開（公告）日：	2021-06-18
發(fā)明（設計）人：	都伯利;張哲睿;石千泓	申請（專利權）人：	泛太絲亞企業(yè)管理顧問（上海）有限公司
主分類號：	G10L15/02	分類號：	G10L15/02;G10L15/16;G10L25/63;G06K9/00;G06K9/62
代理公司：	北京泰吉知識產權代理有限公司 11355	代理人：	史瞳;許榮文
地址：	201715 上海市青浦區(qū)練***	國省代碼：	上海;31
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	語音轉換虛擬臉部圖像方法
鉆瓜網(wǎng) 技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種語音轉換虛擬臉部圖像的方法，適用于將用戶的語音轉換成虛擬臉部圖像，由計算機系統(tǒng)執(zhí)行，所述計算機系統(tǒng)存儲多幀相關于數(shù)字角色于發(fā)出多種不同音素時及靜音音素所對應的多種不同嘴型的嘴型圖像、多筆談話、多個分別對應所述談話的音素串行，及相關所述用戶的語音特征數(shù)據(jù)，每一嘴型圖像對應于所述音素及靜音音素的其中一者，每一談話所對應的音素串行包含多個排列組合出該談話的音素，每一談話包含多個談話片段，每一談話片段對應所對應的音素串行中的所述音素的其中一者，所述計算機系統(tǒng)包含用于連續(xù)地擷取當前聲音的聲音擷取單元，其特征在于：所述語音轉換虛擬臉部圖像的方法包含以下步驟：

(A)將每一談話的每一談話片段及其對應的音素進行機器學習演算，以建立出用于將語音片段轉換成音素的音素轉換模型；

(B)根據(jù)所述語音特征數(shù)據(jù)，將所述聲音擷取單元所擷取到的當前聲音濾除所述用戶的語音外的聲音，以獲得濾除后聲音數(shù)據(jù)；

(C)判定所述濾除后聲音數(shù)據(jù)是否包括語音片段；

(D)當判定出所述濾除后聲音數(shù)據(jù)包括語音片段時，利用所述音素轉換模型，將所述濾除后聲音數(shù)據(jù)所包括的語音片段轉換成目標音素；

(E)根據(jù)所述目標音素，從所述嘴型圖像獲得對應于所述目標音素的目標嘴型圖像；及

(F)根據(jù)所述目標嘴型圖像獲得至少一相關于所述數(shù)字角色的虛擬臉部圖像。

2.根據(jù)權利要求1所述的語音轉換虛擬臉部圖像的方法，其特征在于：所述計算機系統(tǒng)還存儲多幀相關于所述數(shù)字角色的多種不同臉部表情的表情圖像，每一種臉部表情對應于指示出所述臉部表情的表情參數(shù)，每一表情圖像對應于所述臉部表情的其中一者所對應的表情參數(shù)，所述聲音擷取單元所擷取到的當前的語音片段包含至少一語音子片段，在步驟(C)后及步驟(F)前還包含以下步驟：

(G)當判定出所述濾除后聲音數(shù)據(jù)包括語音片段時，對于所述濾除后聲音數(shù)據(jù)包括的語音片段的每一語音子片段，利用用于將語音子片段轉換成表情參數(shù)的表情轉換模型，將所述語音子片段轉換成目標表情參數(shù)；及

(H)對于每一目標表情參數(shù)，根據(jù)所述目標表情參數(shù)，從所述表情圖像獲得對應所述目標表情參數(shù)的目標表情圖像；

其中，在步驟(F)中，還根據(jù)步驟(H)所獲得的目標表情圖像獲得該至少一虛擬臉部圖像。

3.根據(jù)權利要求2所述的語音轉換虛擬臉部圖像的方法，其特征在于：在步驟(H)前還包含以下步驟：

(I)當判定出所述濾除后聲音數(shù)據(jù)不包括語音片段時，將靜音表情參數(shù)作為所述目標表情參數(shù)。

4.根據(jù)權利要求2所述的語音轉換虛擬臉部圖像的方法，其特征在于：所述計算機系統(tǒng)還存儲多筆影音數(shù)據(jù)，每一影音數(shù)據(jù)包括多幀相關于訓練者演說的臉部圖像及多個分別對應所述臉部圖像的音頻片段，在步驟(G)前還包含以下步驟：

(J)對于所述影音數(shù)據(jù)的每一臉部圖像，獲得所述臉部圖像中對應于所述訓練者臉部的其中一器官的器官部分；

(K)對于所述影音數(shù)據(jù)的每一臉部圖像，根據(jù)所述臉部圖像中的器官部分獲得器官特征；

(L)對于所述影音數(shù)據(jù)的每一臉部圖像，根據(jù)所述臉部圖像對應的器官特征將所述臉部圖像進行表情辨識，以獲得所述臉部圖像所對應的所述訓練者的表情辨識結果；及

(M)將每一臉部圖像所對應的表情辨識結果及音訊片段進行機器學習演算，以建立所述表情轉換模型。

5.根據(jù)權利要求4所述的語音轉換虛擬臉部圖像的方法，其特征在于：在步驟(J)中，所述器官部分為對應所述訓練者臉部的眉毛。

6.根據(jù)權利要求4所述的語音轉換虛擬臉部圖像的方法，其特征在于：在步驟(L)中，所述表情辨識結果是高興、生氣、難過，及無表情的其中一者。