[發(fā)明專利]基于置信度的語音識別實現(xiàn)方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201710060942.2 | 申請日: | 2017-01-25 |
| 公開(公告)號: | CN106782513B | 公開(公告)日: | 2019-08-23 |
| 發(fā)明(設(shè)計)人: | 俞凱;陳哲懷 | 申請(專利權(quán))人: | 上海交通大學(xué);蘇州思必馳信息科技有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/20;G10L15/30;G10L15/32 |
| 代理公司: | 上海交達(dá)專利事務(wù)所 31201 | 代理人: | 王毓理;王錫麟 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 置信 語音 識別 實現(xiàn) 方法 系統(tǒng) | ||
一種基于置信度的語音識別實現(xiàn)方法及系統(tǒng),根據(jù)從用戶語音進(jìn)行音素同步解碼的語音識別得到解碼信息生成音素同步的詞圖聲學(xué)信息結(jié)構(gòu),并基于詞圖聲學(xué)信息結(jié)構(gòu)生成混淆網(wǎng)絡(luò)從而構(gòu)建語音識別候選結(jié)果之間的競爭關(guān)系,即混淆網(wǎng)絡(luò)競爭概率;同時使用基于語言模型的輔助搜索網(wǎng)絡(luò)構(gòu)建語音識別的全搜索空間,計算得到完整無損失的全搜索空間概率,并結(jié)合音素同步解碼的語音識別,對生成的全搜索空間進(jìn)行搜索過程記錄,并由整個搜索歷史進(jìn)行路徑回溯,從而得到全搜索空間概率;最后通過對混淆網(wǎng)絡(luò)競爭概率和全搜索空間概率進(jìn)行融合得到語音識別的判決結(jié)果。本發(fā)明一方面可以對語音識別的結(jié)果給出正確的置信度,從而改善語音識別用戶體驗,另一方面可以顯著減少語音識別置信度算法的計算和內(nèi)存資源消耗。
技術(shù)領(lǐng)域
本發(fā)明涉及的是一種應(yīng)用于語音識別(Speech Recognition)的準(zhǔn)確、高效的置信度(Confidence Measure,CM)技術(shù),具體是一種基于音素同步解碼(Phone SynchronousDecoding),詞圖和混淆網(wǎng)絡(luò)(Lattice and Confusion Network),輔助搜索空間(Auxiliary Search Space)的語音識別實現(xiàn)方法及系統(tǒng)。
背景技術(shù)
語音識別是一種讓機器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的人工智能技術(shù)。現(xiàn)有語音識別技術(shù)仍無法做到完全正確,置信度是一種用于評判語音識別系統(tǒng)自身語音識別結(jié)果可靠性的技術(shù),一般以識別結(jié)果可靠度或識別結(jié)果概率值給出。
傳統(tǒng)語音識別置信度技術(shù)主要包括基于預(yù)測特征的置信度(Predictor featuresbased CM)和基于后驗概率的置信度(Posterior based CM),其缺點包括:多預(yù)測特征之間往往在統(tǒng)計意義上不互相獨立;結(jié)合多種預(yù)測特征需要額外的模型訓(xùn)練環(huán)節(jié),不利于多場景應(yīng)用;語音識別系統(tǒng)旨在得到正確的文本,而難以給出準(zhǔn)確的后驗概率,其具體體現(xiàn)在:基于填充物的后驗概率方法既不準(zhǔn)確同時需要額外的模型訓(xùn)練環(huán)節(jié);而基于詞圖的后驗概率方法則對搜索空間建構(gòu)不全。
發(fā)明內(nèi)容
本發(fā)明針對現(xiàn)有技術(shù)對解碼空間的競爭結(jié)果表征不完整,導(dǎo)致得到的置信度不準(zhǔn)確;依賴于對語音識別各模型進(jìn)行重訓(xùn)練,增加大量額外處理;構(gòu)建解碼空間的過程計算量大,導(dǎo)致語音識別耗時增加,不利于改善用戶體驗等等缺陷,提出一種基于置信度的語音識別實現(xiàn)方法及系統(tǒng),一方面可以對語音識別的結(jié)果給出正確的置信度,從而改善語音識別用戶體驗,另一方面可以顯著減少語音識別置信度算法的計算和內(nèi)存資源消耗。
本發(fā)明是通過以下技術(shù)方案實現(xiàn)的:
本發(fā)明涉及一種基于置信度的語音識別實現(xiàn)方法,根據(jù)從用戶語音進(jìn)行音素同步解碼的語音識別得到解碼信息生成音素同步的詞圖聲學(xué)信息結(jié)構(gòu),并基于詞圖聲學(xué)信息結(jié)構(gòu)生成混淆網(wǎng)絡(luò)從而構(gòu)建語音識別候選結(jié)果之間的競爭關(guān)系,即混淆網(wǎng)絡(luò)競爭概率;同時使用基于語言模型的輔助搜索網(wǎng)絡(luò)構(gòu)建語音識別的全搜索空間,計算得到完整無損失的全搜索空間概率,并結(jié)合音素同步解碼的語音識別,對生成的全搜索空間進(jìn)行搜索過程記錄,并由整個搜索歷史進(jìn)行路徑回溯,從而得到全搜索空間概率;最后通過對混淆網(wǎng)絡(luò)競爭概率和全搜索空間概率進(jìn)行融合得到語音識別的判決結(jié)果。
技術(shù)效果
與現(xiàn)有技術(shù)相比,本發(fā)明提出的基于音素同步解碼(Phone SynchronousDecoding),詞圖和混淆網(wǎng)絡(luò)(Lattice and Confusion Network),輔助搜索空間(Auxiliary Search Space)的語音識別置信度技術(shù),相比較傳統(tǒng)方法主要有以下不同:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海交通大學(xué);蘇州思必馳信息科技有限公司,未經(jīng)上海交通大學(xué);蘇州思必馳信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710060942.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





