[發明專利]一種人臉圖像生成方法及電子設備在審

申請號：	201911033642.0	申請日：	2019-10-28
公開（公告）號：	CN110706713A	公開（公告）日：	2020-01-17
發明（設計）人：	黃俊仁	申請（專利權）人：	維沃移動通信有限公司
主分類號：	G10L17/02	分類號：	G10L17/02;G10L17/04;G10L25/24;G06K9/00;G06K9/62
代理公司：	11319 北京潤澤恒知識產權代理有限公司	代理人：	莎日娜
地址：	523860 廣東省***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	電子設備目標音頻人臉圖像聲紋特征通話方通話語音通話功能獲取目標目標模型輸出目標語音信息預先生成直觀
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種人臉圖像生成方法，其特征在于，所述方法包括：

獲取目標音頻；

提取所述目標音頻的聲紋特征數據；

將所述目標音頻的聲紋特征數據輸入至預先生成的目標模型，輸出目標人臉圖像。

2.根據權利要求1所述的方法，其特征在于，所述將所述目標音頻的聲紋特征數據輸入至預先生成的目標模型，輸出目標人臉圖像之前，所述方法還包括：

獲取訓練樣本集，其中，所述訓練樣本集中包括用于模型訓練的訓練樣本，所述訓練樣本包括樣本人物的音頻和人臉圖像，所述樣本人物的音頻為所述樣本人物朗讀預設文本的音頻；

基于所述樣本人物的音頻，提取所述樣本人物的聲紋特征數據；

基于所述樣本人物的聲紋特征數據和所述樣本人物的人臉圖像，進行模型訓練，得到目標模型；

其中，所述目標模型用于將待轉換音頻轉換為對應的人臉圖像。

3.根據權利要求2所述的方法，其特征在于，所述目標模型包括：目標編碼模型和目標解碼模型；

其中，所述目標編碼模型與所述目標解碼模型級聯；

所述目標編碼模型用于接收所述待轉換音頻的聲紋特征數據，并將所述待轉換音頻的聲紋特征數據轉換為所述待轉換音頻的人像特征向量；

所述目標解碼模型用于接收來自所述目標編碼模型的人像特征向量，并將所述人像特征向量轉換為所述待轉換音頻對應的人臉圖像。

4.根據權利要求3所述的方法，其特征在于，所述基于所述樣本人物的聲紋特征數據和所述樣本人物的人臉圖像，進行模型訓練，得到目標模型，包括：

訓練所述目標解碼模型；

基于訓練后的所述目標解碼模型、所述樣本人物的聲紋特征數據和所述樣本人物的人臉圖像，訓練所述目標編碼模型。

5.根據權利要求4所述的方法，其特征在于，所述訓練所述目標解碼模型，包括：

獲取高斯白噪聲圖像；

將所述高斯白噪聲圖像輸入至預設初始生成器；

將所述預設初始生成器的輸出圖像和所述樣本人物的人臉圖像交替輸入至預設初始判別器；

對所述預設初始生成器和所述預設初始判別器進行對抗生成訓練，得到生成器，并將所述生成器確定為目標解碼模型。

6.根據權利要求4所述的方法，其特征在于，所述基于訓練后的所述目標解碼模型、所述樣本人物的聲紋特征數據和所述樣本人物的人臉圖像，訓練所述目標編碼模型，包括：

根據預設連接關系，將預設初始編碼模型與所述目標解碼模型級聯，其中，所述預設連接關系包括：所述預設初始編碼網絡前置于所述目標解碼模型；

將所述樣本人物的聲紋特征數據輸入至所述預設初始編碼模型；

將所述預設初始編碼模型輸出的人像特征向量輸入至所述目標解碼模型；

基于所述目標解碼模型的輸出圖像和所述樣本人物的人臉圖像，對所述預設初始編碼模型進行監督式訓練，得到編碼模型，并將所述編碼模型確定為目標編碼模型。

7.根據權利要求1至6任一項所述的方法，其特征在于，所述聲紋特征數據為梅爾頻率倒譜系數。

8.一種電子設備，其特征在于，所述電子設備包括：

第一獲取單元，用于獲取目標音頻；

第一提取單元，用于提取所述目標音頻的聲紋特征數據；

第一處理單元，用于將所述目標音頻的聲紋特征數據輸入至預先生成的目標模型，輸出目標人臉圖像。

9.一種電子設備，其特征在于，包括處理器、存儲器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序，所述計算機程序被所述處理器執行時實現如權利要求1至7任一項所述的人臉圖像生成方法的步驟。

10.一種計算機可讀存儲介質，其特征在于，所述計算機可讀存儲介質上存儲計算機程序，所述計算機程序被處理器執行時實現如權利要求1至7任一項所述的人臉圖像生成方法的步驟。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于維沃移動通信有限公司，未經維沃移動通信有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201911033642.0/1.html，轉載請聲明來源鉆瓜專利網。

同類專利

專利分類

G 物理

G10 樂器；聲學
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L17-00 講話者辨認或驗證

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】