[發明專利]發音檢錯方法、裝置、電子設備及存儲介質在審
| 申請號: | 202010713116.5 | 申請日: | 2020-07-22 |
| 公開(公告)號: | CN111833859A | 公開(公告)日: | 2020-10-27 |
| 發明(設計)人: | 吳奎;吳子揚;竺博 | 申請(專利權)人: | 科大訊飛股份有限公司 |
| 主分類號: | G10L15/20 | 分類號: | G10L15/20;G10L15/08;G10L25/60 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 程琛 |
| 地址: | 230088 安徽省*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 發音 檢錯 方法 裝置 電子設備 存儲 介質 | ||
1.一種發音檢錯方法,其特征在于,包括:
基于朗讀文本,對待檢錯的語音文件及其對應的發音視頻文件進行切分,得到所述朗讀文本包含的任一音素對應的語音片段和發音視頻片段;
將所述任一音素及其對應的語音片段和發音視頻片段輸入至發音檢錯模型,得到所述發音檢錯模型輸出的所述任一音素的發音檢錯結果;
所述發音檢錯模型用于基于所述語音片段的噪聲水平,對所述語音片段和所述發音視頻片段進行特征融合,并基于融合后的特征對所述任一音素進行發音檢錯。
2.根據權利要求1所述的發音檢錯方法,其特征在于,所述將所述任一音素及其對應的語音片段和發音視頻片段輸入至發音檢錯模型,得到所述發音檢錯模型輸出的所述任一音素的發音檢錯結果,具體包括:
將所述任一音素對應的語音片段和發音視頻片段輸入至所述發音檢錯模型的特征提取層,得到所述特征提取層輸出的所述語音片段的語音表示向量和所述發音視頻片段的發音動作表示向量;
將所述語音片段輸入至所述發音檢錯模型的噪聲水平評估層,得到所述噪聲水平評估層輸出的所述語音片段的噪聲水平表示向量;
將所述語音表示向量和所述發音動作表示向量,以及所述噪聲水平表示向量輸入至所述發音檢錯模型的特征融合層,得到所述特征融合層輸出的融合特征向量;
將所述任一音素的音素向量和所述融合特征向量輸入至所述發音檢錯模型的發音檢錯層,得到所述發音檢錯層輸出的所述任一音素的發音檢錯結果。
3.根據權利要求2所述的發音檢錯方法,其特征在于,所述將所述語音表示向量和所述發音動作表示向量,以及所述噪聲水平表示向量輸入至所述發音檢錯模型的特征融合層,得到所述特征融合層輸出的融合特征向量,具體包括:
將所述發音動作表示向量和所述噪聲水平表示向量輸入至所述特征融合層的權重注意力層,得到所述權重注意力層輸出的所述發音動作表示向量的融合權重;
將所述發音動作表示向量及其融合權重,以及所述語音表示向量輸入至所述特征融合層的加權融合層,得到所述加權融合層輸出的所述融合特征向量。
4.根據權利要求2所述的發音檢錯方法,其特征在于,所述將所述語音片段輸入至所述發音檢錯模型的噪聲水平評估層,得到所述噪聲水平評估層輸出的所述語音片段的噪聲水平表示向量,具體包括:
將所述語音片段中每一語音幀的聲學特征輸入至所述噪聲水平評估層的上下文編碼層,得到所述上下文編碼層輸出的每一語音幀的隱層特征;
將每一語音幀的隱層特征輸入至所述噪聲水平評估層的噪聲水平注意力層,得到所述噪聲水平注意力層輸出的所述語音片段的噪聲水平表示向量。
5.根據權利要求2所述的發音檢錯方法,其特征在于,所述噪聲水平評估層和噪聲水平輸出層構成噪聲水平評估模型,其中所述噪聲水平輸出層用于基于所述語音片段的噪聲水平表示向量輸出所述語音片段的噪聲水平;
所述噪聲水平評估模型是基于樣本帶噪語音片段及其樣本噪聲水平訓練得到的。
6.根據權利要求2所述的發音檢錯方法,其特征在于,所述將所述任一音素的音素向量和所述融合特征向量輸入至所述發音檢錯模型的發音檢錯層,得到所述發音檢錯層輸出的所述任一音素的發音檢錯結果,具體包括:
將所述任一音素的音素向量和所述融合特征向量輸入至所述發音檢錯層的特征輸出層,得到所述特征輸出層輸出的所述任一音素的發音向量;
將所述任一音素的發音向量輸入至所述發音檢錯層的偏差計算層,得到所述偏差計算層輸出的發音偏差程度;
將所述發音偏差程度輸入至所述發音檢錯層的結果判定層,得到所述結果判定層輸出的所述任一音素的發音檢錯結果。
7.根據權利要求6所述的發音檢錯方法,其特征在于,所述將所述任一音素的發音向量輸入至所述發音檢錯層的偏差計算層,得到所述偏差計算層輸出的發音偏差程度,具體包括:
將所述任一音素的發音向量輸入至所述偏差計算層,由所述偏差計算層計算所述任一音素的發音向量與所述任一音素的標準發音向量之間的差距,得到所述偏差計算層輸出的所述差距作為所述發音偏差程度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于科大訊飛股份有限公司,未經科大訊飛股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010713116.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:繩鎖定件
- 下一篇:高色度顏料薄片和箔片





