[發明專利]一種語言音頻的檢測系統及方法有效

申請號：	201510091609.9	申請日：	2015-02-28
公開（公告）號：	CN104681036B	公開（公告）日：	2018-09-25
發明（設計）人：	王歡良;楊嵩;代大明;袁軍峰;惠寅華;林遠東	申請（專利權）人：	蘇州馳聲信息科技有限公司
主分類號：	G10L25/03	分類號：	G10L25/03;G10L15/02;G10L15/06
代理公司：	北京科億知識產權代理事務所(普通合伙) 11350	代理人：	湯東鳳
地址：	215000 江蘇省蘇***	國省代碼：	江蘇;32
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	置信度計算模塊檢測系統目標語言語言音頻聲學聲學特征提取語言信號處理韻律特征信息檢測穩定性訓練分類器可擴展性判別模塊聲學模型提取模塊系統結構性能獲得音頻檢測音素識別語言模型韻律特征噪聲音頻語言語種分類檢測
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種語言音頻的檢測系統，其特征在于，所述系統包括：聲學特征提取模塊、音素識別模塊、聲學置信度計算模塊、語言置信度計算模塊、韻律特征提取模塊和分類判別模塊；其中，

所述聲學特征提取模塊用于提取輸入語音信號的聲學特征，所述聲學特征至少包括輸入音頻的基頻特征；

所述音素識別模塊由至少包括目標語言對應識別器的一組識別器組成，所述一組識別器分別對應不同的語言，用于對所述聲學特征進行并行語音識別解碼，得到不同語言的最佳音素序列和對應的時間邊界，所述不同語言的最佳音素序列和對應的時間邊界至少包括目標語言的最佳音素序列和對應的時間邊界；

所述聲學置信度計算模塊用于根據所述不同語言的最佳音素序列和對應的時間邊界，分別計算不同語言的音素序列在深度神經網絡DNN模型上的后驗概率，作為該音素序列的聲學置信度，得到不同語言音素序列的聲學置信度；

所述語言置信度計算模塊用于根據所述不同語言的最佳音素序列和對應的時間邊界，分別計算不同語言的音素序列在對應語言的更高階語言模型上的生成概率，作為該音素序列的語言置信度，得到不同語言音素序列的語言置信度；

所述韻律特征提取模塊用于根據所述目標語言的最佳音素序列和對應的時間邊界以及所述輸入音頻的基頻特征，計算輸入音頻的韻律特征；

所述分類判別模塊用于利用預先訓練好的分類器對所述不同語言音素序列的聲學置信度、語言置信度以及所述輸入音頻的韻律特征組成的特征向量進行目標語言/非目標語言分類。

2.根據權利要求1所述的系統，其特征在于，所述一組識別器中每個識別器采用其對應語言的聲學模型和語言模型，所述聲學模型需要預先采用相應語言的語音數據進行訓練，所述語言模型需要預先采用相應語言的文本數據進行訓練。

3.根據權利要求1所述的系統，其特征在于，所述音頻的韻律特征包括句子級基音頻率最大值，句子級基音頻率最小值，句子級基音頻率的方差，音素級基音頻率方差的均值，音素級基音頻率方差的方差，音素級基音頻率方差的最大值和最小值之差，句子中有聲段所占的比例，句子中無聲音素的比例，句子中最大音素時長，句子中最小音素時長，句子中音素時長的均值，句子中音素時長的方差。

4.根據權利要求1所述的系統，其特征在于，分類判別模塊還用于將所述不同語言音素序列的聲學置信度、語言置信度以及所述輸入音頻的韻律特征組成一個超向量，送入預先訓練好的分類器進行預測分類，計算該超向量的得分，如果該得分大于給定閾值，則確定輸入語言音頻為目標語言音頻，否則確定為非目標語言音頻。

5.一種語言音頻的檢測方法，其特征在于，所述方法包括：

提取輸入語音信號的聲學特征，所述聲學特征至少包括輸入音頻的基頻特征；

對所述聲學特征進行并行語音識別解碼，得到不同語言的最佳音素序列和對應的時間邊界，所述不同語言的最佳音素序列和對應的時間邊界至少包括目標語言的最佳音素序列和對應的時間邊界；

根據所述不同語言的最佳音素序列和對應的時間邊界，分別計算不同語言的音素序列在DNN模型上的后驗概率，作為該音素序列的聲學置信度，得到不同語言音素序列的聲學置信度；

根據所述不同語言的最佳音素序列和對應的時間邊界，分別計算不同語言的音素序列在對應語言的更高階語言模型上的生成概率，作為該音素序列的語言置信度，得到不同語言音素序列的語言置信度；

根據所述目標語言的最佳音素序列和對應的時間邊界以及所述輸入音頻的基頻特征，計算輸入音頻的韻律特征；

利用預先訓練好的分類器對所述不同語言音素序列的聲學置信度、語言置信度以及所述輸入音頻的韻律特征組成的特征向量進行目標語言/非目標語言分類。

6.根據權利要求5所述的方法，其特征在于，所述音頻的韻律特征包括句子級基音頻率最大值，句子級基音頻率最小值，句子級基音頻率的方差，音素級基音頻率方差的均值，音素級基音頻率方差的方差，音素級基音頻率方差的最大值和最小值之差，句子中有聲段所占的比例，句子中無聲音素的比例，句子中最大音素時長，句子中最小音素時長，句子中音素時長的均值，句子中音素時長的方差。

7.根據權利要求5所述的方法，其特征在于，利用預先訓練好的分類器對所述不同語言音素序列的聲學置信度、語言置信度以及所述輸入音頻的韻律特征組成的特征向量進行目標語言/非目標語言分類包括：

將所述不同語言音素序列的聲學置信度、語言置信度以及所述輸入音頻的韻律特征組成一個超向量，送入預先訓練好的分類器進行預測分類，計算該超向量的得分，如果該得分大于給定閾值，則確定輸入語言音頻為目標語言音頻，否則確定為非目標語言音頻。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于蘇州馳聲信息科技有限公司，未經蘇州馳聲信息科技有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201510091609.9/1.html，轉載請聲明來源鉆瓜專利網。