[發明專利]歌唱嘴型與面部動畫生成方法、裝置及電子設備在審

申請號：	202210710648.2	申請日：	2022-06-22
公開（公告）號：	CN114972592A	公開（公告）日：	2022-08-30
發明（設計）人：	尹學淵;肖欽引;劉鑫忠;陳洪宇;馬思雨	申請（專利權）人：	成都潛在人工智能科技有限公司
主分類號：	G06T13/40	分類號：	G06T13/40;G06V40/16;G06V10/774
代理公司：	成都睿道專利代理事務所(普通合伙) 51217	代理人：	許立
地址：	610000 四川省成都市高新區***	國省代碼：	四川;51
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	歌唱面部動畫生成方法裝置電子設備
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.歌唱嘴型與面部動畫生成方法，其特征在于，包括步驟：

將歌詞與音符序列輸入樂譜編碼器，得到第一歌唱聲音參數特征向量序列；

將所述第一歌唱聲音參數特征向量序列輸入音長預測器，得到每個音的預測時長；

將所述第一歌唱聲音參數特征向量序列和每個音素的所述預測時長輸入長度調節器，得到時長擴充后的第二歌唱聲音參數特征向量序列；

將所述第二歌唱聲音參數特征向量序列輸入解碼器，得到音素信息序列；

將所述音素信息序列輸入預先訓練的嘴型信息預測模型，得到嘴型信息序列；

根據所述嘴型信息序列中的嘴型信息，生成包含所述嘴型信息對應的嘴型的人臉圖像；

將所述人臉圖像作為面部動畫的關鍵幀，利用所述關鍵幀生成面部動畫。

2.根據權利要求1所述歌唱嘴型與面部動畫生成方法，其特征在于，所述第一歌唱聲音參數與所述第二歌唱聲音參數均包括音素、音高、音素持續時間與轉音標識符。

3.根據權利要求1所述歌唱嘴型與面部動畫生成方法，其特征在于，所述音素信息序列包括能量、頻譜、基頻與對齊信息。

4.根據權利要求1所述歌唱嘴型與面部動畫生成方法，其特征在于，所述根據所述嘴型信息序列中的嘴型信息，生成嘴型特征圖像，包括：

建立特征數據庫，預設所述第一歌唱聲音參數對應的歌唱技巧類型，以及所述歌唱技巧類型對應的嘴型特征參數；

根據所述第一歌唱聲音參數，識別所述歌唱技巧類型；

根據所述歌唱技巧類型，確定所述嘴型特征參數；

根據所述嘴型特征參數，生成所述嘴型特征圖像。

5.根據權利要求4所述歌唱嘴型與面部動畫生成方法，其特征在于，所述根據所述第一歌唱聲音參數，識別所述歌唱技巧類型，包括：

檢測所述第一歌唱聲音參數的基頻序列中連續出現波谷或者波峰的次數；

判斷所述基頻序列中連續出現波谷或者波峰的次數是否達到預設次數；若是，則獲取基頻序列片段，并統計該所述基頻序列片段中的平均頻率；否則，該所述基頻序列片段為非顫音片段，所述歌唱技巧類型為非顫音技巧；

檢測每次所述頻率由波谷到波峰和所述頻率由波峰到波谷的過程中，所述波谷和所述波峰對應的頻率值；

判斷所述波谷所對應的頻率值是否小于所述平均頻率，且所述波峰所對應的頻率值是否大于所述平均頻率；若每次所述波谷所對應的頻率值小于所述平均頻率，且所述波峰所對應的頻率值大于所述平均頻率，則確定該基頻序列片段為顫音片段，所述歌唱技巧類型為顫音類型；否則，該所述基頻序列片段為非顫音片段，所述歌唱技巧類型為非顫音技巧。

6.歌唱嘴型與面部動畫生成裝置，其特征在于，包括編碼單元、音長預測單元、長度調節單元、解碼單元、嘴型信息預測單元、嘴型特征圖像生成單元、面部圖像生成單元與面部動畫生成單元；

所述編碼單元，用于將歌詞與音符序列輸入樂譜編碼器，得到第一歌唱聲音參數特征向量序列；

所述音長預測單元，用于將所述第一歌唱聲音參數特征向量序列輸入音長預測器，得到每個音素的預測時長；

所述長度調節單元，用于將所述第一歌唱聲音參數特征向量序列和每個音素的所述預測時長輸入長度調節器，得到時長擴充后的第二歌唱聲音參數特征向量序列；

所述解碼單元，用于將所述第二歌唱聲音參數特征向量序列輸入解碼器，得到音素信息序列；

所述嘴型信息預測單元，用于將所述音素信息序列輸入預先訓練的嘴型信息預測模型，得到嘴型信息序列；

所述人臉圖像生成單元，用于根據所述嘴型信息序列中的嘴型信息，生成包含所述嘴型信息對應的嘴型的人臉圖像；

所述動畫生成單元，用于將所述人臉圖像作為面部動畫的關鍵幀，利用所述關鍵幀生成面部動畫。

7.根據權利要求6所述歌唱嘴型與面部動畫生成裝置，其特征在于，所述編碼單元為樂譜編碼器；所述音長預測單元為音長預測器；所述長度調節單元為長度調節器；所述解碼單元為解碼器。

8.一種電子設備，其特征在于，包括:

處理器和存儲器；

所述存儲器，用于存儲計算機操作指令；