[發明專利]一種綜合評價語音的方法、裝置及電子設備在審
| 申請號: | 202110442432.8 | 申請日: | 2021-04-23 |
| 公開(公告)號: | CN112951276A | 公開(公告)日: | 2021-06-11 |
| 發明(設計)人: | 王丹;饒豐;龐永強;黃偉;袁佳藝 | 申請(專利權)人: | 北京一起教育科技有限責任公司 |
| 主分類號: | G10L25/51 | 分類號: | G10L25/51;G10L15/02;G10L15/26;G10L25/90 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 李偉 |
| 地址: | 100032 北京市西*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 綜合 評價 語音 方法 裝置 電子設備 | ||
1.一種綜合評價語音的方法,其特征在于,包括:
獲取待評價的目標語音數據以及與所述目標語音數據相對應的標準文本;
以所述標準文本為基準對所述目標語音數據進行識別處理,確定所述目標語音數據中每個目標詞語音的詞參數,并確定所述目標詞語音中每個目標音素語音的音素置信度;所述詞參數包括詞開始時間、詞結束時間和詞置信度;
根據所述詞置信度確定相應目標詞語音的詞準確度,根據所述音素置信度確定相應目標音素語音的音素準確度,并根據連續的多個所述目標詞語音的詞開始時間和詞結束時間確定相應的時間參數,所述時間參數包括語速和/或節奏;
將所述詞準確度、所述音素準確度和所述時間參數均作為評價維度,并根據所有的所述評價維度確定所述目標語音數據的評價結果。
2.根據權利要求1所述的方法,其特征在于,所述確定所述目標詞語音中每個目標音素語音的音素置信度,包括:
設置識別模型,所述識別模型包括編碼子模型、對齊輸出子模型和識別輸出子模型;所述編碼子模型用于將輸入數據編碼為特征向量,所述對齊輸出子模型用于根據所述特征向量確定相應的音素對齊信息,所述識別輸出子模型用于根據所述特征向量和所述音素對齊信息確定所述輸入數據中每個音素的識別結果;
對所述編碼子模型和所述對齊輸出子模型進行訓練,之后,在保持所述編碼子模型不變的情況下,對所述識別輸出子模型進行訓練,確定訓練后的識別模型;
將所述目標語音數據輸入至所述識別模型,確定所述目標語音數據的特征向量和每個目標音素語音的音素對齊信息,并基于所述識別輸出子模型確定所述目標語音數據中每個目標音素語音的音素置信度;其中,所述音素對齊信息包括音素開始時間和音素結束時間。
3.根據權利要求2所述的方法,其特征在于,所述對所述編碼子模型和所述對齊輸出子模型進行訓練,之后,在保持所述編碼子模型不變的情況下,對所述識別輸出子模型進行訓練,包括:
獲取第一數據集,對所述第一數據集中的第一語音數據進行音素對齊,確定所述第一語音數據中每幀數據的標簽;
將所述第一數據集作為訓練集,將所述第一語音數據作為所述編碼子模型的輸入、將所述第一語音數據中每幀數據的標簽作為所述對齊輸出子模型的輸出,對所述編碼子模型和所述對齊輸出子模型進行訓練;
獲取第二數據集,對所述第二數據集的第二語音數據進行音素對齊,并確定所述第二語音數據對應的文本;所述第二語音數據為發音正確的數據,且所述第二語音數據的數量小于所述第一語音數據的數量;
將所述第二數據集作為訓練集,在保持所述編碼子模型不變的情況下,將所述第二語音數據作為所述編碼子模型的輸入、將所述第二語音數據對應的文本作為所述識別輸出子模型的輸出,對所述識別輸出子模型進行訓練。
4.根據權利要求1所述的方法,其特征在于,所述根據所述詞置信度確定相應目標詞語音的詞準確度,根據所述音素置信度確定相應目標音素語音的音素準確度,包括:
為所述目標語音數據中每個所述目標詞語音添加與所述標準文本中的相應詞相一致的詞標簽,并為所述目標音素語音添加與所述標準文本中的相應音素相一致的音素標簽;
以所述詞標簽為單位,將具有相同詞標簽的多個所述目標詞語音的詞置信度的平均值作為所述詞標簽的詞準確度;
以所述音素標簽為單位,將具有相同音素標簽的多個所述目標音素語音的音素置信度的平均值作為所述音素標簽的音素準確度。
5.根據權利要求1所述的方法,其特征在于,所述根據連續的多個所述目標詞語音的詞開始時間和詞結束時間確定相應的時間參數,包括:
在所述時間參數包括語速的情況下,將同一所述目標詞語音的所述詞開始時間與所述詞結束時間之間的時間作為有效時間,并確定由連續的多個所述有效時間組成的時間段內所述目標音素語音的數量,根據所述時間段內所述目標音素語音的數量確定語速;
在所述時間參數包括節奏的情況下,在相鄰的兩個所述目標詞語音中,將后一個所述目標詞語音的詞開始時間與前一個所述目標詞語音的詞結束時間之間的時間作為停頓時間,并確定多個所述停頓時間的離散程度,根據所述離散程度確定節奏;其中,所述離散程度包括方差和/或標準差。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京一起教育科技有限責任公司,未經北京一起教育科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110442432.8/1.html,轉載請聲明來源鉆瓜專利網。





