[發明專利]一種語言音頻的檢測系統及方法有效
| 申請號: | 201510091609.9 | 申請日: | 2015-02-28 |
| 公開(公告)號: | CN104681036B | 公開(公告)日: | 2018-09-25 |
| 發明(設計)人: | 王歡良;楊嵩;代大明;袁軍峰;惠寅華;林遠東 | 申請(專利權)人: | 蘇州馳聲信息科技有限公司 |
| 主分類號: | G10L25/03 | 分類號: | G10L25/03;G10L15/02;G10L15/06 |
| 代理公司: | 北京科億知識產權代理事務所(普通合伙) 11350 | 代理人: | 湯東鳳 |
| 地址: | 215000 江蘇省蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 置信度 計算模塊 檢測系統 目標語言 語言音頻 聲學 聲學特征提取 語言信號處理 韻律特征信息 檢測穩定性 訓練分類器 可擴展性 判別模塊 聲學模型 提取模塊 系統結構 性能獲得 音頻檢測 音素識別 語言模型 韻律特征 噪聲音頻 語言 語種 分類 檢測 | ||
1.一種語言音頻的檢測系統,其特征在于,所述系統包括:聲學特征提取模塊、音素識別模塊、聲學置信度計算模塊、語言置信度計算模塊、韻律特征提取模塊和分類判別模塊;其中,
所述聲學特征提取模塊用于提取輸入語音信號的聲學特征,所述聲學特征至少包括輸入音頻的基頻特征;
所述音素識別模塊由至少包括目標語言對應識別器的一組識別器組成,所述一組識別器分別對應不同的語言,用于對所述聲學特征進行并行語音識別解碼,得到不同語言的最佳音素序列和對應的時間邊界,所述不同語言的最佳音素序列和對應的時間邊界至少包括目標語言的最佳音素序列和對應的時間邊界;
所述聲學置信度計算模塊用于根據所述不同語言的最佳音素序列和對應的時間邊界,分別計算不同語言的音素序列在深度神經網絡DNN模型上的后驗概率,作為該音素序列的聲學置信度,得到不同語言音素序列的聲學置信度;
所述語言置信度計算模塊用于根據所述不同語言的最佳音素序列和對應的時間邊界,分別計算不同語言的音素序列在對應語言的更高階語言模型上的生成概率,作為該音素序列的語言置信度,得到不同語言音素序列的語言置信度;
所述韻律特征提取模塊用于根據所述目標語言的最佳音素序列和對應的時間邊界以及所述輸入音頻的基頻特征,計算輸入音頻的韻律特征;
所述分類判別模塊用于利用預先訓練好的分類器對所述不同語言音素序列的聲學置信度、語言置信度以及所述輸入音頻的韻律特征組成的特征向量進行目標語言/非目標語言分類。
2.根據權利要求1所述的系統,其特征在于,所述一組識別器中每個識別器采用其對應語言的聲學模型和語言模型,所述聲學模型需要預先采用相應語言的語音數據進行訓練,所述語言模型需要預先采用相應語言的文本數據進行訓練。
3.根據權利要求1所述的系統,其特征在于,所述音頻的韻律特征包括句子級基音頻率最大值,句子級基音頻率最小值,句子級基音頻率的方差,音素級基音頻率方差的均值,音素級基音頻率方差的方差,音素級基音頻率方差的最大值和最小值之差,句子中有聲段所占的比例,句子中無聲音素的比例,句子中最大音素時長,句子中最小音素時長,句子中音素時長的均值,句子中音素時長的方差。
4.根據權利要求1所述的系統,其特征在于,分類判別模塊還用于將所述不同語言音素序列的聲學置信度、語言置信度以及所述輸入音頻的韻律特征組成一個超向量,送入預先訓練好的分類器進行預測分類,計算該超向量的得分,如果該得分大于給定閾值,則確定輸入語言音頻為目標語言音頻,否則確定為非目標語言音頻。
5.一種語言音頻的檢測方法,其特征在于,所述方法包括:
提取輸入語音信號的聲學特征,所述聲學特征至少包括輸入音頻的基頻特征;
對所述聲學特征進行并行語音識別解碼,得到不同語言的最佳音素序列和對應的時間邊界,所述不同語言的最佳音素序列和對應的時間邊界至少包括目標語言的最佳音素序列和對應的時間邊界;
根據所述不同語言的最佳音素序列和對應的時間邊界,分別計算不同語言的音素序列在DNN模型上的后驗概率,作為該音素序列的聲學置信度,得到不同語言音素序列的聲學置信度;
根據所述不同語言的最佳音素序列和對應的時間邊界,分別計算不同語言的音素序列在對應語言的更高階語言模型上的生成概率,作為該音素序列的語言置信度,得到不同語言音素序列的語言置信度;
根據所述目標語言的最佳音素序列和對應的時間邊界以及所述輸入音頻的基頻特征,計算輸入音頻的韻律特征;
利用預先訓練好的分類器對所述不同語言音素序列的聲學置信度、語言置信度以及所述輸入音頻的韻律特征組成的特征向量進行目標語言/非目標語言分類。
6.根據權利要求5所述的方法,其特征在于,所述音頻的韻律特征包括句子級基音頻率最大值,句子級基音頻率最小值,句子級基音頻率的方差,音素級基音頻率方差的均值,音素級基音頻率方差的方差,音素級基音頻率方差的最大值和最小值之差,句子中有聲段所占的比例,句子中無聲音素的比例,句子中最大音素時長,句子中最小音素時長,句子中音素時長的均值,句子中音素時長的方差。
7.根據權利要求5所述的方法,其特征在于,利用預先訓練好的分類器對所述不同語言音素序列的聲學置信度、語言置信度以及所述輸入音頻的韻律特征組成的特征向量進行目標語言/非目標語言分類包括:
將所述不同語言音素序列的聲學置信度、語言置信度以及所述輸入音頻的韻律特征組成一個超向量,送入預先訓練好的分類器進行預測分類,計算該超向量的得分,如果該得分大于給定閾值,則確定輸入語言音頻為目標語言音頻,否則確定為非目標語言音頻。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州馳聲信息科技有限公司,未經蘇州馳聲信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510091609.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種治療原發性痛經的足浴組合物
- 下一篇:一種補腎益精膏方





