[發(fā)明專利]一種基于語音激活檢測的語音質(zhì)量評估方法及裝置在審
| 申請?zhí)枺?/td> | 201711266177.6 | 申請日: | 2017-12-05 |
| 公開(公告)號: | CN108010539A | 公開(公告)日: | 2018-05-08 |
| 發(fā)明(設計)人: | 晏青 | 申請(專利權(quán))人: | 廣州勢必可贏網(wǎng)絡科技有限公司 |
| 主分類號: | G10L25/03 | 分類號: | G10L25/03;G10L25/60;G10L25/84 |
| 代理公司: | 深圳市深佳知識產(chǎn)權(quán)代理事務所(普通合伙) 44285 | 代理人: | 王仲凱 |
| 地址: | 510000 廣東省廣州市天*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 語音 激活 檢測 質(zhì)量 評估 方法 裝置 | ||
1.一種基于語音激活檢測的語音質(zhì)量評估方法,其特征在于,包括:
S1、獲取樣本音頻文件的PCM二進制數(shù)據(jù);
S2、對樣本音頻文件的PCM二進制數(shù)據(jù)進行分幀處理,得到每幀PCM二進制數(shù)據(jù)對應的短時平穩(wěn)音頻信號;
S3、依次按幀對短時平穩(wěn)音頻信號進行語音激活檢測,確定短時平穩(wěn)音頻信號對應的幀為語音幀或非語音幀;
S4、以預置幀數(shù)為步長對樣本音頻文件的片段音頻文件進行語音質(zhì)量檢測,確定不存在削頂失真的片段音頻,并計算片段音頻文件的信噪比、有效時間占比和平均能量值,并依次將信噪比、有效時間占比和平均能量值與對應的預設閾值進行比較,若信噪比、有效時間占比和平均能量值均高于對應的預設閾值,則確定片段音頻文件質(zhì)量合格,并保存片段音頻文件;
S5、將保存的質(zhì)量合格的片段音頻文件拼接合成為完整的音頻文件。
2.根據(jù)權(quán)利要求1所述的基于語音激活檢測的語音質(zhì)量評估方法,其特征在于,步驟S4中語音質(zhì)量檢測為:
S401、對片段音頻文件進行削頂檢測,并判斷片段音頻文件是否存在削頂失真,若是,則將片段音頻文件舍棄,若否,則執(zhí)行步驟S402;
S402、計算片段音頻文件的信噪比,并判斷片段音頻文件的信噪比是否高于預置信噪比閾值,若是,則執(zhí)行步驟S403,若否,則將片段音頻文件舍棄;
S403、計算片段音頻文件的有效時間占比,并判斷片段音頻文件的有效時間占比是否高于預置有效時間占比閾值,若是,則執(zhí)行步驟S404,若否,則將片段音頻文件舍棄;
S404、計算片段音頻文件的平均能量值,并判斷片段音頻文件的平均能量值是否高于預置平均能量值閾值,若是,則確定片段音頻質(zhì)量合格,并保存片段音頻文件,若否,則將片段音頻文件舍棄。
3.根據(jù)權(quán)利要求2所述的基于語音激活檢測的語音質(zhì)量評估方法,其特征在于,步驟S402中計算片段音頻文件的信噪比具體為:
獲取片段音頻文件的語音平均幅值;
獲取片段音頻文件的噪聲平均幅值;
以語音平均幅值與噪聲平均幅值相除得到的比值為底數(shù),e為對數(shù)進行對數(shù)運算,將得到的對數(shù)運算結(jié)果乘以倍數(shù)20得到片段音頻文件的信噪比。
4.根據(jù)權(quán)利要求2所述的基于語音激活檢測的語音質(zhì)量評估方法,其特征在于,步驟S403中計算片段音頻文件的有效時間占比具體為:
獲取片段音頻文件中語音幀的總時長;
獲取片段音頻文件中所有幀的總時長;
將語音幀的總時長與所有幀的總時長相除,得到片段音頻文件的有效時間占比。
5.根據(jù)權(quán)利要求2所述的基于語音激活檢測的語音質(zhì)量評估方法,其特征在于,步驟S404中計算片段音頻文件的平均能量值具體為:
獲取片段音頻文件中每幀語音幀的能量值的幅值;
將每幀語音幀的能量值的幅值進行加權(quán)計算,得到片段音頻文件的能量值加權(quán)值;
獲取片段音頻文件中語音幀的幀數(shù);
將能量值的加權(quán)值與語音幀的幀數(shù)相除,得到片段音頻文件的平均能量值。
6.一種基于語音激活檢測的語音質(zhì)量評估裝置,其特征在于,包括:
獲取單元,用于獲取樣本音頻文件的PCM二進制數(shù)據(jù);
分幀單元,用于對樣本音頻文件的PCM二進制數(shù)據(jù)進行分幀處理,得到每幀PCM二進制數(shù)據(jù)對應的短時平穩(wěn)音頻信號;
語音激活檢測單元,用于依次按幀對短時平穩(wěn)音頻信號進行語音激活檢測,確定短時平穩(wěn)音頻信號對應的幀為語音幀或非語音幀;
質(zhì)量檢測單元,用于以預置幀數(shù)為步長對樣本音頻文件的片段音頻文件進行語音質(zhì)量檢測,確定不存在削頂失真的片段音頻,并計算片段音頻文件的信噪比、有效時間占比和平均能量值,并依次將信噪比、有效時間占比和平均能量值與對應的預設閾值進行比較,若信噪比、有效時間占比和平均能量值均高于對應的預設閾值,則確定片段音頻文件質(zhì)量合格,并保存片段音頻文件;
音頻拼接合成單元,用于將保存的質(zhì)量合格的片段音頻文件拼接合成為完整的音頻文件。
該專利技術資料僅供研究查看技術是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣州勢必可贏網(wǎng)絡科技有限公司,未經(jīng)廣州勢必可贏網(wǎng)絡科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711266177.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種用于銅粉生產(chǎn)的篩粉裝置
- 下一篇:一種掛快勞文件夾的壓膠裝置





