[發明專利]唇語合成方法、裝置、電子設備及存儲介質有效
| 申請號: | 201810688117.1 | 申請日: | 2018-06-28 |
| 公開(公告)號: | CN108831463B | 公開(公告)日: | 2021-11-12 |
| 發明(設計)人: | 莊曉濱;戴長軍;吳丹;林緒虹;閆理 | 申請(專利權)人: | 廣州方硅信息技術有限公司 |
| 主分類號: | G10L15/22 | 分類號: | G10L15/22;G10L17/00;G10L17/18;G10L25/24 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 薛嬌;王寶筠 |
| 地址: | 510000 廣東省廣州*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 合成 方法 裝置 電子設備 存儲 介質 | ||
1.一種唇語合成方法,其特征在于,包括:
對語音信號進行語音識別,得到語音識別結果,所述語音識別結果中包括識別到的發音,以及所述發音在所述語音信號中的第一時間區間;所述發音為漢字的拼音;
依據所述發音對所述第一時間區間內的語音信號進行音素識別,得到音素識別結果,所述音素識別結果包括:識別到的音素以及識別到的音素在語音信號中的第二時間區間;
依據預設的音素與嘴型的對應關系,獲取識別到的每個音素對應的嘴型;其中,所述音素對應的嘴型為人表達出該音素時嘴唇的動作;
對于識別到的每一個音素,將該音素在語音信號中的第二時間區間的起始時間點提前預設時長,得到該音素對應的第三時間區間;
按照該音素對應的第三時間區間輸出該音素對應的嘴型;
若相鄰兩個第三時間區間存在交叉區間,將所述相鄰兩個第三時間區間對應的兩個嘴型的同一部位的特征點數據做平均,得到所述相鄰兩個第三時間區間對應的兩個嘴型的過渡位置的特征點數據。
2.根據權利要求1所述的方法,其特征在于,所述對語音信號進行語音識別,包括:
將語音信號分為若干語音信號幀,并提取每一語音信號幀的梅爾頻率倒譜系數MFCC特征向量;
利用預先訓練好的神經網絡對所獲取的若干MFCC特征向量進行處理,得到所述語音識別結果。
3.根據權利要求2所述的方法,其特征在于,所述將語音信號分為若干語音信號幀,并提取每一語音信號幀的MFCC特征向量,包括:
對所述語音信號進行預加重;
將預加重后的語音信號分為若干個語音信號幀,并對每個所述語音信號幀做短時傅里葉變換,得每個所述語音信號幀的頻譜;
在所述語音信號幀的頻譜中提取K個MFCC,并根據所述K個MFCC系數構建所述語音信號幀對應的M維MFCC特征向量;
對所述M維MFCC特征向量進行歸一化,使得所述M維MFCC特征向量在每個維度上均服從相同的分布。
4.根據權利要求3所述的方法,其特征在于,所述依據所述發音對所述第一時間區間內的語音信號進行音素識別,包括:
獲取所述第一時間區間內的語音信號幀的MFCC特征向量;
將獲取的MFCC特征向量輸入預先訓練好的隱馬爾科夫模型,得到每個語音信號幀的音素識別結果;其中,第一語音信號幀對應的音素識別結果包括:所述第一語音信號幀被識別為所述發音中的各個音素的概率;
將最大概率對應的音素確定為所述第一語音信號幀的音素識別結果。
5.根據權利要求2所述的方法,其特征在于,所述神經網絡包括:
三層卷積層,與所述三層卷積層連接的三個雙向門控循環單元,以及與所述雙向門控循環單元連接的一層全連接層;
所述全連接層的輸出單元的個數為不帶聲調的中文發音的個數。
6.一種唇語合成裝置,其特征在于,包括:
第一識別模塊,用于對語音信號進行語音識別,得到語音識別結果,所述語音識別結果中包括識別到的發音,以及所述發音在所述語音信號中的第一時間區間;所述發音為漢字的拼音;
第二識別模塊,用于依據所述發音對所述第一時間區間內的語音信號進行音素識別,得到音素識別結果,所述音素識別結果包括:識別到的音素以及識別到的音素在語音信號中的第二時間區間;
唇語合成模塊,用于依據預設的音素與嘴型的對應關系,獲取識別到的每個音素對應的嘴型;對于識別到的每一個音素,將該音素在語音信號中的第二時間區間的起始時間點提前預設時長,得到該音素對應的第三時間區間;按照該音素對應的第三時間區間輸出該音素對應的嘴型;若相鄰兩個第三時間區間存在交叉區間,將所述相鄰兩個第三時間區間對應的兩個嘴型的同一部位的特征點數據做平均,得到所述相鄰兩個第三時間區間對應的兩個嘴型的過渡位置的特征點數據;其中,所述音素對應的嘴型為人表達出該音素時嘴唇的動作。
7.一種計算機可讀存儲介質,其特征在于,所述機算機可讀存儲介質中存儲有指令,當所述指令在電子設備上運行時,使得所述電子設備執行如權利要求1-5任一項所述的唇語合成方法。
8.一種電子設備,其特征在于,包括:存儲器,處理器,及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述處理器執行所述計算機程序時,實現如權利要求1-5中任一項所述的唇語合成方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州方硅信息技術有限公司,未經廣州方硅信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810688117.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:車載語音識別方法及裝置
- 下一篇:基于語音控制的眼罩和基于語音控制眼罩的方法





