[發(fā)明專利]一種語言音頻的檢測(cè)系統(tǒng)及方法有效
| 申請(qǐng)?zhí)枺?/td> | 201510091609.9 | 申請(qǐng)日: | 2015-02-28 |
| 公開(公告)號(hào): | CN104681036B | 公開(公告)日: | 2018-09-25 |
| 發(fā)明(設(shè)計(jì))人: | 王歡良;楊嵩;代大明;袁軍峰;惠寅華;林遠(yuǎn)東 | 申請(qǐng)(專利權(quán))人: | 蘇州馳聲信息科技有限公司 |
| 主分類號(hào): | G10L25/03 | 分類號(hào): | G10L25/03;G10L15/02;G10L15/06 |
| 代理公司: | 北京科億知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11350 | 代理人: | 湯東鳳 |
| 地址: | 215000 江蘇省蘇*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 置信度 計(jì)算模塊 檢測(cè)系統(tǒng) 目標(biāo)語言 語言音頻 聲學(xué) 聲學(xué)特征提取 語言信號(hào)處理 韻律特征信息 檢測(cè)穩(wěn)定性 訓(xùn)練分類器 可擴(kuò)展性 判別模塊 聲學(xué)模型 提取模塊 系統(tǒng)結(jié)構(gòu) 性能獲得 音頻檢測(cè) 音素識(shí)別 語言模型 韻律特征 噪聲音頻 語言 語種 分類 檢測(cè) | ||
本發(fā)明公開了一種語言音頻的檢測(cè)系統(tǒng)及方法,屬于語言信號(hào)處理技術(shù)領(lǐng)域。所述系統(tǒng)包括:聲學(xué)特征提取模塊、音素識(shí)別模塊、聲學(xué)置信度計(jì)算模塊、語言置信度計(jì)算模塊、韻律特征提取模塊和分類判別模塊。本發(fā)明通過綜合利用聲學(xué)置信度、語言置信度和韻律特征信息,系統(tǒng)的檢測(cè)性能獲得顯著提高,適用于不同長(zhǎng)度的音頻檢測(cè),具有很好的檢測(cè)穩(wěn)定性,可以處理多種非目標(biāo)語言音頻和噪聲音頻,具有很好的實(shí)用性,可以根據(jù)非目標(biāo)語言的類型進(jìn)行快速擴(kuò)展,只需要提供新語種的聲學(xué)模型和語言模型,然后重新訓(xùn)練分類器模型就可以,具有較好的系統(tǒng)結(jié)構(gòu)的靈活性和可擴(kuò)展性。
技術(shù)領(lǐng)域
本發(fā)明涉及語言信號(hào)處理技術(shù)領(lǐng)域,特別涉及一種語言音頻的檢測(cè)系統(tǒng)及方法。
背景技術(shù)
語音技術(shù)的實(shí)際應(yīng)用環(huán)境通常非常復(fù)雜,系統(tǒng)接收到的音頻中可能包含很多非目標(biāo)語言的聲音,比如不同語種的語音、音樂、自然噪聲和人造噪聲等。這些音頻的存在會(huì)嚴(yán)重影響語音技術(shù)的可用性和用戶體驗(yàn)。因此,采用技術(shù)手段高效地檢測(cè)并過濾這些音頻是非常有必要的。
在這類技術(shù)中,最典型的是語種識(shí)別技術(shù)和噪聲檢測(cè)技術(shù)。其中,語種識(shí)別技術(shù)是利用語音中包含的音韻信息(比如特殊的發(fā)音單元,發(fā)音單元的不同分布或者組合方式等)來判斷語言種類。
現(xiàn)有技術(shù)中,最成熟的語種識(shí)別技術(shù)是基于音素識(shí)別的多音素語言模型技術(shù)該技術(shù)認(rèn)為不同語種識(shí)別器產(chǎn)生的音素序列分布和組合是有各自不同規(guī)律的,因此利用不同語種識(shí)別器輸出的音素識(shí)別序列在不同語種語言的音素語言模型上的分布概率進(jìn)行語種識(shí)別。該技術(shù)具有較好的精度和通用型,但是其性能在短語音上會(huì)急劇下降,存在一定局限性。
發(fā)明內(nèi)容
為了解決現(xiàn)有技術(shù)的問題,本發(fā)明實(shí)施例提供了一種語言音頻的檢測(cè)系統(tǒng)及方法。所述技術(shù)方案如下:
一方面,提供了一種語言音頻的檢測(cè)系統(tǒng),所述系統(tǒng)包括:聲學(xué)特征提取模塊、音素識(shí)別模塊、聲學(xué)置信度計(jì)算模塊、語言置信度計(jì)算模塊、韻律特征提取模塊和分類判別模塊;
其中,
所述聲學(xué)特征提取模塊用于提取輸入語音信號(hào)的聲學(xué)特征,所述聲學(xué)特征至少包括輸入音頻的基頻特征;
所述音素識(shí)別模塊由至少包括目標(biāo)語言對(duì)應(yīng)識(shí)別器的一組識(shí)別器組成,分別對(duì)應(yīng)不同的語言,用于對(duì)所述聲學(xué)特征進(jìn)行解碼,得到不同語言的最佳音素序列和對(duì)應(yīng)的時(shí)間邊界,所述不同語言的最佳音素序列和對(duì)應(yīng)的時(shí)間邊界至少包括目標(biāo)語言的最佳音素序列和對(duì)應(yīng)的時(shí)間邊界;
所述聲學(xué)置信度計(jì)算模塊用于根據(jù)所述不同語言的最佳音素序列和對(duì)應(yīng)的時(shí)間邊界,分別計(jì)算不同語言的音素序列在DNN模型上的后驗(yàn)概率,作為該音素序列的聲學(xué)置信度,得到不同語言音素序列的聲學(xué)置信度;
所述語言置信度計(jì)算模塊用于根據(jù)所述不同語言的最佳音素序列和對(duì)應(yīng)的時(shí)間邊界,分別計(jì)算不同語言的音素序列在對(duì)應(yīng)語言的更高階語言模型上的生成概率,作為該音素序列的語言置信度,得到不同語言音素序列的語言置信度;
所述韻律特征提取模塊用于根據(jù)所述目標(biāo)語言的最佳音素序列和對(duì)應(yīng)的時(shí)間邊界以及所述輸入音頻的基頻特征,計(jì)算輸入音頻的韻律特征;
所述分類判別模塊用于利用預(yù)先訓(xùn)練好的分類器對(duì)所述不同語言音素序列的聲學(xué)置信度、語言置信度以及所述輸入音頻的韻律特征組成的特征向量進(jìn)行目標(biāo)語言/非目標(biāo)語言分類。
可選地,所述一組識(shí)別器中每個(gè)識(shí)別器采用其對(duì)應(yīng)語言的聲學(xué)模型和語言模型,所述聲學(xué)模型需要預(yù)先采用相應(yīng)語言的語音數(shù)據(jù)進(jìn)行訓(xùn)練,所述語言模型需要預(yù)先采用相應(yīng)語言的文本數(shù)據(jù)進(jìn)行訓(xùn)練。
可選地,所述預(yù)先訓(xùn)練好的分類器需要預(yù)先采用收集并標(biāo)注的大量數(shù)據(jù)訓(xùn)練。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于蘇州馳聲信息科技有限公司,未經(jīng)蘇州馳聲信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510091609.9/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 識(shí)別文本檢錯(cuò)方法及裝置
- 基于雙循環(huán)圖的虛假評(píng)論檢測(cè)方法
- 多進(jìn)制LDPC碼的置信度量化方法、裝置及解碼器
- 一種置信度的優(yōu)化方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種用戶畫像置信度的優(yōu)化方法及裝置
- 一種聲紋識(shí)別的方法及設(shè)備
- 數(shù)據(jù)處理方法及裝置、存儲(chǔ)介質(zhì)、電子裝置
- 翻譯模型的性能確定方法、置信度確定方法及裝置
- 一種測(cè)距方法及測(cè)距系統(tǒng)
- 根據(jù)置信度顯示結(jié)節(jié)的方法及計(jì)算設(shè)備
- 目標(biāo)語言單詞變形的方法及裝置
- 一種高級(jí)語言轉(zhuǎn)換成其它高級(jí)語言的方法及轉(zhuǎn)換器
- 用于翻譯網(wǎng)頁(yè)的用戶接口
- 新詞譯文的挖掘方法和裝置
- 詞對(duì)齊方法和詞對(duì)齊設(shè)備
- 語言處理方法及設(shè)備
- 一種文件檢測(cè)方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種人機(jī)交互方法、裝置及智能交互終端
- 目標(biāo)語言的文本數(shù)據(jù)的識(shí)別方法、裝置和服務(wù)器
- 多語言轉(zhuǎn)換方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)





