[發(fā)明專利]語音識別方法、裝置、終端和計算機(jī)可讀存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 201710964474.1 | 申請日: | 2017-10-17 |
| 公開(公告)號: | CN107644638B | 公開(公告)日: | 2019-01-04 |
| 發(fā)明(設(shè)計)人: | 何金來;雷宇 | 申請(專利權(quán))人: | 北京智能管家科技有限公司 |
| 主分類號: | G10L15/197 | 分類號: | G10L15/197;G10L15/26 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 孟金喆 |
| 地址: | 101500 北京市密云區(qū)經(jīng)濟(jì)開發(fā)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語音 識別 方法 裝置 終端 計算機(jī) 可讀 存儲 介質(zhì) | ||
本發(fā)明公開了一種語音識別方法,包括根據(jù)采集到的語音的聲學(xué)特征,計算所述語音與解碼網(wǎng)絡(luò)中的音素序列的聲學(xué)相似概率;其中所述解碼網(wǎng)絡(luò)包括多組音素序列;每一組音素序列對應(yīng)一個預(yù)設(shè)的命令詞內(nèi)容或?qū)?yīng)噪音內(nèi)容;根據(jù)所述聲學(xué)相似概率,獲得所述語音與所述音素序列的匹配概率;將所述語音識別為匹配概率最高的音素序列所對應(yīng)的內(nèi)容。相應(yīng)地,本發(fā)明還公開一種語音識別裝置、終端和計算機(jī)可讀存儲介質(zhì)。本發(fā)明實現(xiàn)避免將噪音識別為命令詞,且無需在語音識別后計算置信度,達(dá)到降低誤識別率的效果。
技術(shù)領(lǐng)域
本發(fā)明實施例涉及語音識別技術(shù),尤其涉及一種語音識別方法、裝置、終端和計算機(jī)可讀存儲介質(zhì)。
背景技術(shù)
在語音命令詞識別技術(shù)中,誤識別一直是一個比較難以解決的問題。命令詞識別之所以誤識別率比較高,是因為現(xiàn)有技術(shù)的命令詞識別方法普遍是通過構(gòu)造解碼網(wǎng)絡(luò)來實現(xiàn),該解碼網(wǎng)絡(luò)中包含多組與預(yù)設(shè)的命令詞對應(yīng)的音素序列。輸入任何語音都會根據(jù)該語音從解碼網(wǎng)絡(luò)中搜索出一個最為匹配的音素序列,因此導(dǎo)致誤識別。
目前解決將噪音識別為命令詞的方法是計算識別結(jié)果的置信度,當(dāng)置信度大于預(yù)設(shè)的閾值時表示識別正確,當(dāng)置信度小于該閾值時表示沒有識別到命令詞。由于置信度的計算依賴很多因素,尤其受環(huán)境影響會導(dǎo)致置信度的值變化范圍很大。在嘈雜環(huán)境下,經(jīng)常會出現(xiàn)正確的識別結(jié)果置信度很低但錯誤的識別結(jié)果置信度卻很高的情況,使得誤識別率依然很高。
發(fā)明內(nèi)容
本發(fā)明提供一種語音命令的識別方法、裝置、終端及計算機(jī)可讀存儲介質(zhì),以實現(xiàn)避免將噪音識別為命令詞,且無需在語音識別后計算置信度,達(dá)到降低誤識別率的效果。
第一方面,本發(fā)明實施例提供了一種語音識別方法,包括:
根據(jù)采集到的語音的聲學(xué)特征,計算所述語音與解碼網(wǎng)絡(luò)中的音素序列的聲學(xué)相似概率;其中,所述解碼網(wǎng)絡(luò)包括多組音素序列;每一組音素序列對應(yīng)一個預(yù)設(shè)的命令詞內(nèi)容或?qū)?yīng)噪音內(nèi)容;
根據(jù)所述聲學(xué)相似概率,獲得所述語音與所述音素序列的匹配概率;
將所述語音識別為匹配概率最高的音素序列所對應(yīng)的內(nèi)容。
第二方面,本發(fā)明還提供了一種語音識別裝置,包括:
計算模塊,用于根據(jù)采集到的語音的聲學(xué)特征,計算所述語音與解碼網(wǎng)絡(luò)中的音素序列的聲學(xué)相似概率;其中,所述解碼網(wǎng)絡(luò)包括多組音素序列;每一組音素序列對應(yīng)一個預(yù)設(shè)的命令詞內(nèi)容或?qū)?yīng)噪音內(nèi)容;
匹配模塊,用于根據(jù)所述聲學(xué)相似概率,獲得所述語音與所述音素序列的匹配概率;
識別模塊,用于將所述語音識別為匹配概率最高的音素序列所對應(yīng)的內(nèi)容。
第三方面,本發(fā)明還提供了一種終端,所述終端包括:
一個或多個處理器;
存儲器,用于存儲一個或多個程序,
當(dāng)所述一個或多個程序被所述一個或多個處理器執(zhí)行,使得所述一個或多個處理器實現(xiàn)本發(fā)明任意實施例提供的語音識別方法。
第四方面,本發(fā)明還提供了一種計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,該程序被處理器執(zhí)行時實現(xiàn)本發(fā)明任意實施例提供的語音識別方法。
本發(fā)明通過在解碼網(wǎng)絡(luò)中增加噪音內(nèi)容對應(yīng)的音素序列,采集到的語音可以在解碼網(wǎng)絡(luò)中搜索最匹配音素序列時就被識別為噪音或命令詞,無需在解碼網(wǎng)絡(luò)搜索音素序列后對搜索結(jié)果進(jìn)行置信度計算,從而解決現(xiàn)有技術(shù)采用受環(huán)境音素影響的置信度計算方法造成誤識別率高的問題,實現(xiàn)避免將噪音識別為命令詞,且降低誤識別率的效果。
附圖說明
圖1是本發(fā)明實施例一提供的語音識別方法的流程圖;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京智能管家科技有限公司,未經(jīng)北京智能管家科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710964474.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





