[發(fā)明專利]基于置信度的語音識別實現(xiàn)方法及系統(tǒng)有效

申請?zhí)枺?/td>	201710060942.2	申請日：	2017-01-25
公開（公告）號：	CN106782513B	公開（公告）日：	2019-08-23
發(fā)明（設(shè)計）人：	俞凱;陳哲懷	申請（專利權(quán)）人：	上海交通大學(xué);蘇州思必馳信息科技有限公司
主分類號：	G10L15/06	分類號：	G10L15/06;G10L15/20;G10L15/30;G10L15/32
代理公司：	上海交達(dá)專利事務(wù)所 31201	代理人：	王毓理;王錫麟
地址：	200240 ***	國省代碼：	上海;31
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	基于置信語音識別實現(xiàn) 方法系統(tǒng)
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

一種基于置信度的語音識別實現(xiàn)方法及系統(tǒng)，根據(jù)從用戶語音進(jìn)行音素同步解碼的語音識別得到解碼信息生成音素同步的詞圖聲學(xué)信息結(jié)構(gòu)，并基于詞圖聲學(xué)信息結(jié)構(gòu)生成混淆網(wǎng)絡(luò)從而構(gòu)建語音識別候選結(jié)果之間的競爭關(guān)系，即混淆網(wǎng)絡(luò)競爭概率；同時使用基于語言模型的輔助搜索網(wǎng)絡(luò)構(gòu)建語音識別的全搜索空間，計算得到完整無損失的全搜索空間概率，并結(jié)合音素同步解碼的語音識別，對生成的全搜索空間進(jìn)行搜索過程記錄，并由整個搜索歷史進(jìn)行路徑回溯，從而得到全搜索空間概率；最后通過對混淆網(wǎng)絡(luò)競爭概率和全搜索空間概率進(jìn)行融合得到語音識別的判決結(jié)果。本發(fā)明一方面可以對語音識別的結(jié)果給出正確的置信度，從而改善語音識別用戶體驗，另一方面可以顯著減少語音識別置信度算法的計算和內(nèi)存資源消耗。

技術(shù)領(lǐng)域

本發(fā)明涉及的是一種應(yīng)用于語音識別(Speech Recognition)的準(zhǔn)確、高效的置信度(Confidence Measure，CM)技術(shù)，具體是一種基于音素同步解碼(Phone SynchronousDecoding)，詞圖和混淆網(wǎng)絡(luò)(Lattice and Confusion Network)，輔助搜索空間(Auxiliary Search Space)的語音識別實現(xiàn)方法及系統(tǒng)。

背景技術(shù)

語音識別是一種讓機器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的人工智能技術(shù)。現(xiàn)有語音識別技術(shù)仍無法做到完全正確，置信度是一種用于評判語音識別系統(tǒng)自身語音識別結(jié)果可靠性的技術(shù)，一般以識別結(jié)果可靠度或識別結(jié)果概率值給出。

傳統(tǒng)語音識別置信度技術(shù)主要包括基于預(yù)測特征的置信度(Predictor featuresbased CM)和基于后驗概率的置信度(Posterior based CM)，其缺點包括：多預(yù)測特征之間往往在統(tǒng)計意義上不互相獨立；結(jié)合多種預(yù)測特征需要額外的模型訓(xùn)練環(huán)節(jié)，不利于多場景應(yīng)用；語音識別系統(tǒng)旨在得到正確的文本，而難以給出準(zhǔn)確的后驗概率，其具體體現(xiàn)在：基于填充物的后驗概率方法既不準(zhǔn)確同時需要額外的模型訓(xùn)練環(huán)節(jié)；而基于詞圖的后驗概率方法則對搜索空間建構(gòu)不全。

發(fā)明內(nèi)容

本發(fā)明針對現(xiàn)有技術(shù)對解碼空間的競爭結(jié)果表征不完整，導(dǎo)致得到的置信度不準(zhǔn)確；依賴于對語音識別各模型進(jìn)行重訓(xùn)練，增加大量額外處理；構(gòu)建解碼空間的過程計算量大，導(dǎo)致語音識別耗時增加，不利于改善用戶體驗等等缺陷，提出一種基于置信度的語音識別實現(xiàn)方法及系統(tǒng)，一方面可以對語音識別的結(jié)果給出正確的置信度，從而改善語音識別用戶體驗，另一方面可以顯著減少語音識別置信度算法的計算和內(nèi)存資源消耗。

本發(fā)明是通過以下技術(shù)方案實現(xiàn)的：

本發(fā)明涉及一種基于置信度的語音識別實現(xiàn)方法，根據(jù)從用戶語音進(jìn)行音素同步解碼的語音識別得到解碼信息生成音素同步的詞圖聲學(xué)信息結(jié)構(gòu)，并基于詞圖聲學(xué)信息結(jié)構(gòu)生成混淆網(wǎng)絡(luò)從而構(gòu)建語音識別候選結(jié)果之間的競爭關(guān)系，即混淆網(wǎng)絡(luò)競爭概率；同時使用基于語言模型的輔助搜索網(wǎng)絡(luò)構(gòu)建語音識別的全搜索空間，計算得到完整無損失的全搜索空間概率，并結(jié)合音素同步解碼的語音識別，對生成的全搜索空間進(jìn)行搜索過程記錄，并由整個搜索歷史進(jìn)行路徑回溯，從而得到全搜索空間概率；最后通過對混淆網(wǎng)絡(luò)競爭概率和全搜索空間概率進(jìn)行融合得到語音識別的判決結(jié)果。

技術(shù)效果

與現(xiàn)有技術(shù)相比，本發(fā)明提出的基于音素同步解碼(Phone SynchronousDecoding)，詞圖和混淆網(wǎng)絡(luò)(Lattice and Confusion Network)，輔助搜索空間(Auxiliary Search Space)的語音識別置信度技術(shù)，相比較傳統(tǒng)方法主要有以下不同：

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海交通大學(xué);蘇州思必馳信息科技有限公司，未經(jīng)上海交通大學(xué);蘇州思必馳信息科技有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201710060942.2/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種基于放電聲音識別高壓開關(guān)柜狀態(tài)的方法
下一篇：一種復(fù)雜環(huán)境下語音特征映射方法

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L15-00 語音識別
G10L15-02 .語音識別的特征提取；識別單位的選擇
G10L15-04 .分段或字極限檢測
G10L15-06 .創(chuàng)建基準(zhǔn)模板；訓(xùn)練語音識別系統(tǒng)，例如對說話者聲音特征的適應(yīng)
G10L15-08 .語音分類或檢索
G10L15-20 .專門適用于不利環(huán)境

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點擊【登陸】【注冊】