[發明專利]發音檢測方法及相關裝置、電子設備、存儲介質在審
| 申請號: | 202211429640.5 | 申請日: | 2022-11-15 |
| 公開(公告)號: | CN115910108A | 公開(公告)日: | 2023-04-04 |
| 發明(設計)人: | 韓凱;盛志超 | 申請(專利權)人: | 科大訊飛股份有限公司 |
| 主分類號: | G10L25/60 | 分類號: | G10L25/60;G10L25/03 |
| 代理公司: | 深圳市威世博知識產權代理事務所(普通合伙) 44280 | 代理人: | 柳芳 |
| 地址: | 230088 安徽省*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 發音 檢測 方法 相關 裝置 電子設備 存儲 介質 | ||
本申請公開了一種發音檢測方法及相關裝置、電子設備、存儲介質,其中,發音檢測方法包括:獲取受測對象朗讀目標文本所采集到的測試語音,并獲取目標文本進行音素轉換所得到的音素序列;其中,測試語音包含若干音頻幀;提取音素序列中各個音素的音素特征,得到第一音素特征序列,并確定多種下采樣率;對于各種下采樣率,基于下采樣率對若干音頻幀進行編碼,得到對應下采樣率的韻律特征序列;對于各種下采樣率分別對應的韻律特征序列,基于第一音素特征序列與韻律特征序列進行融合,得到第二音素特征序列;基于各個第二音素特征序列進行預測,得到測試語音的發音分值。上述方案,能夠提升發音檢測的準確性。
技術領域
本申請涉及人工智能技術領域,特別是涉及一種發音檢測方法及相關裝置、電子設備、存儲介質。
背景技術
為適應全球化發展的趨勢,自主外語學習系統變得越來越有吸引力。計算機輔助發音訓練(Computer-Assisted?Pronunciation?Training,CAPT)已經成為非母語說話者學習不同外語的有效工具。
在此過程中,需要對受測對象朗讀特定文本的測試語音進行發音檢測,以評估受測對象的發音水準。然而,目前的發音檢測方式大多較為粗糙,仍然難以準確地評估發音水準。有鑒于此,如何提升發音檢測的準確性成為亟待解決的問題。
發明內容
本申請主要解決的技術問題是提供一種發音檢測方法及相關裝置、電子設備、存儲介質,能夠提升發音檢測的準確性。
為了解決上述技術問題,本申請第一方面提供了一種發音檢測方法,包括:獲取受測對象朗讀目標文本所采集到的測試語音,并獲取目標文本進行音素轉換所得到的音素序列;其中,測試語音包含若干音頻幀;提取音素序列中各個音素的音素特征,得到第一音素特征序列,并確定多種下采樣率;對于各種下采樣率,基于下采樣率對若干音頻幀進行編碼,得到對應下采樣率的韻律特征序列;對于各種下采樣率分別對應的韻律特征序列,基于第一音素特征序列與韻律特征序列進行融合,得到第二音素特征序列;基于各個第二音素特征序列進行預測,得到測試語音的發音分值。
為了解決上述技術問題,本申請第一方面提供了二種發音檢測裝置,包括:獲取模塊、提取模塊、確定模塊、編碼模塊、融合模塊和預測模塊,獲取模塊,用于獲取受測對象朗讀目標文本所采集到的測試語音,并獲取目標文本進行音素轉換所得到的音素序列;其中,測試語音包含若干音頻幀;提取模塊,用于提取音素序列中各個音素的音素特征,得到第一音素特征序列;確定模塊,用于確定多種下采樣率;編碼模塊,用于對于各種下采樣率,基于下采樣率對若干音頻幀進行編碼,得到對應下采樣率的韻律特征序列;融合模塊,用于對于各種下采樣率分別對應的韻律特征序列,基于第一音素特征序列與韻律特征序列進行融合,得到第二音素特征序列;預測模塊,用于基于各個第二音素特征序列進行預測,得到測試語音的發音分值。
為了解決上述技術問題,本申請第三方面提供了一種電子設備,包括相互耦接的存儲器和處理器,存儲器中存儲有程序指令,處理器用于執行程序指令以實現上述第一方面的發音檢測方法。
為了解決上述技術問題,本申請第四方面提供了一種計算機可讀存儲介質,存儲有能夠被處理器運行的程序指令,程序指令用于實現上述第一方面的發音檢測方法。
上述方案,提取受測對象朗讀目標文本所采集的測試語音,并獲取目標文本進行音素轉換所得到的音素序列,且測試語音包括若干音頻幀,再提取音素序列中各個音素的音素特征,得到第一音素特征序列,并確定多種下采樣率,從而對于各種下采樣率,基于下采樣率對若干音頻幀進行編碼,得到對應下采樣率的韻律特征序列,進而對于各種下采樣率分別對應的韻律特征序列,基于第一音素特征序列與韻律特征序列進行融合,得到第二音素特征序列,再基于各個第二音素特征序列進行預測,得到測試語音的發音分值,由于通過不同下采樣率進行編碼,得到各種下采樣率分別對應的韻律特征序列,故能夠以多個層級的韻律特征來輔助發音檢測,有助于提升發音檢測的精細化程度。故此,能夠提升發音檢測的準確性。
附圖說明
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于科大訊飛股份有限公司,未經科大訊飛股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211429640.5/2.html,轉載請聲明來源鉆瓜專利網。





