[發明專利]音頻評測方法、裝置、電子設備和介質有效
| 申請號: | 202110549296.2 | 申請日: | 2021-05-20 |
| 公開(公告)號: | CN113035238B | 公開(公告)日: | 2021-08-27 |
| 發明(設計)人: | 王桑;李成飛;楊嵩 | 申請(專利權)人: | 北京世紀好未來教育科技有限公司 |
| 主分類號: | G10L25/60 | 分類號: | G10L25/60 |
| 代理公司: | 北京開陽星知識產權代理有限公司 11710 | 代理人: | 祝樂芳 |
| 地址: | 100089 北京市海淀區中*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 音頻 評測 方法 裝置 電子設備 介質 | ||
本公開涉及一種音頻評測方法、裝置、電子設備和介質;其中,該方法包括:根據待評測音頻和待評測音頻的參考文本,確定待評測音頻的發音質量GOP分數;若檢測到GOP分數大于預設分數閾值,則將GOP分數輸入預先確定的概率預測模型中,并根據概率預測模型的輸出確定GOP分數的正樣本概率;根據GOP分數的正樣本概率和預先建立的分段函數模型,確定待評測音頻的目標評測值。本公開實施例提高了對音頻發音質量評測的準確性。
技術領域
本公開涉及音頻處理技術領域,尤其涉及一種音頻評測方法、裝置、電子設備和介質。
背景技術
音頻評測其目的是根據用戶輸入的語音信息進行發音質量的準確度評價,以對輸入的音頻進行音頻質量的衡量;其可應用于兒童的發音檢測。目前的音頻評測主要是根據預先建立的音頻評測模型計算輸入音頻的GOP分數,并根據認為經驗進行分數閾值的限定,以此判斷輸入音頻的發音質量。
在現有方法中,依靠人為經驗設置的分數閾值,往往會根據分數閾值出現打分不合理的情況,尤其是在低幼兒童語音評測場景中,存在大量0分;使得語音評測效率降低。
發明內容
為了解決上述技術問題或者至少部分地解決上述技術問題,本公開提供了一種音頻評測方法、裝置、電子設備和介質。
第一方面,本公開提供了一種音頻評測方法,包括:
根據待評測音頻和所述待評測音頻的參考文本,確定所述待評測音頻的發音質量GOP分數;
若檢測到所述GOP分數大于預設分數閾值,則將所述GOP分數輸入預先確定的概率預測模型中,并根據所述概率預測模型的輸出確定所述GOP分數的正樣本概率;其中,所述概率預測模型是根據歷史音頻數據的GOP分數劃分得到正樣本和負樣本對第一預設網絡模型進行訓練得到的;
根據所述GOP分數的正樣本概率和預先建立的分段函數模型,確定所述待評測音頻的目標評測值;其中,所述分段函數模型包括至少兩個正樣本概率對應的分段函數子模型;所述分段函數子模型是根據歷史音頻數據的正樣本概率和所述歷史音頻數據對應的打分值對第二預設網絡模型訓練得到的。
可選的,所述根據待評測音頻和所述待評測音頻的參考文本,確定所述待評測音頻的發音質量GOP分數,包括:
確定待評測音頻的參考文本中包含的音素;并從所述待評測音頻中獲取所述音素對應的音頻幀;其中,所述參考文本中單個音素對應至少一個音頻幀;
根據所述音素對應的音頻幀確定所述音素與所述音頻幀的匹配概率;
根據所述匹配概率和所述音素對應的音頻幀的數量,確定所述音素的發音質量GOP分數;并將所述參考文本中包含的音素的GOP分數之和作為所述待評測音頻的GOP分數。
可選的,所述將所述GOP分數輸入預先確定的概率預測模型中之前,所述方法還包括:
確定歷史音頻數據的GOP分數;
設置至少一個打分寬松度閾值,將所述歷史音頻數據的GOP分數大于或等于所述打分寬松度閾值的音頻數據作為正樣本;將所述歷史音頻數據的GOP分數小于所述打分寬松度閾值的音頻數據作為負樣本;
根據所述正樣本和所述負樣本對第一預設網絡進行訓練得到概率預測模型。
可選的,所述根據所述GOP分數的正樣本概率和預先建立的分段函數模型,確定所述待評測音頻的目標評測值之前,所述方法還包括:
獲取所述待評測音頻的打分寬松度閾值;
根據所述待評測音頻的打分寬松度閾值,確定所述待評測音頻的分段函數模型。
可選的,所述根據所述GOP分數的正樣本概率和預先建立的分段函數模型,確定所述待評測音頻的目標評測值,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京世紀好未來教育科技有限公司,未經北京世紀好未來教育科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110549296.2/2.html,轉載請聲明來源鉆瓜專利網。





