[發(fā)明專利]語音識別方法、語音識別系統(tǒng)及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202011420932.3 | 申請日: | 2020-12-08 |
| 公開(公告)號: | CN114627854A | 公開(公告)日: | 2022-06-14 |
| 發(fā)明(設(shè)計)人: | 朱云峰;嚴(yán)秋紅;陸東明;張亮;董斌 | 申請(專利權(quán))人: | 中國電信股份有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/04;G10L15/26;G10L15/28;G10L25/87 |
| 代理公司: | 中國貿(mào)促會專利商標(biāo)事務(wù)所有限公司 11038 | 代理人: | 許海蘭 |
| 地址: | 100033 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語音 識別 方法 系統(tǒng) 存儲 介質(zhì) | ||
1.一種語音識別方法,包括:
語音流處理步驟,接收語音流,將所述語音流分割為語音幀;
語音幀處理步驟,對所述語音幀進(jìn)行靜音判斷;以及
語音識別步驟,根據(jù)所述靜音判斷的結(jié)果,與語音識別引擎交互消息。
2.根據(jù)權(quán)利要求1所述的語音識別方法,其中,
還包括:識別結(jié)果處理步驟,從所述語音識別引擎獲取識別結(jié)果后,計算所述識別結(jié)果在原語音流中的時間位置。
3.根據(jù)權(quán)利要求2所述的實時語音識別方法,其中,
在所述識別結(jié)果處理步驟中,根據(jù)所述語音識別引擎返回的時間位置及存儲的靜音時長信息計算所述識別結(jié)果在原語音流中的時間位置。
4.根據(jù)權(quán)利要求3所述的實時語音識別方法,其中,
在所述語音識別步驟中,與所述語音識別引擎交互消息包括新建語音識別會話、發(fā)送待識別語音幀、獲取識別結(jié)果、結(jié)束語音識別會話。
5.根據(jù)權(quán)利要求4所述的實時語音識別方法,其中,
新建的所述語音識別會話的會話信息包括:會話標(biāo)識、語音標(biāo)識、語音的呼叫隨路信息、語音的處理位置。
6.根據(jù)權(quán)利要求1所述的語音識別方法,其中,
在所述語音幀處理步驟中,通過語音端點檢測對所述語音幀進(jìn)行靜音判斷。
7.根據(jù)權(quán)利要求6所述的語音識別方法,其中,
如果所述語音幀不是靜音幀,上一幀語音是靜音幀時,新建所述語音識別會話,
如果所述語音幀不是靜音幀,上一幀語音不是靜音幀時,繼續(xù)進(jìn)行所述語音識別;
如果所述語音幀是靜音幀,上一幀語音不是靜音幀時,結(jié)束所述語音識別會話,
如果所述語音幀是靜音幀,上一幀語音是靜音幀時,計算靜音段時長。
8.根據(jù)權(quán)利要求5所述的語音識別方法,其中,
在新建所述語音識別會話時,增加所述語音識別引擎的當(dāng)前并發(fā)數(shù),結(jié)束所述語音識別會話時,減少所述語音識別引擎的當(dāng)前并發(fā)數(shù)。
9.根據(jù)權(quán)利要求8所述的語音識別方法,其中,
如果所述語音識別引擎的并發(fā)數(shù)達(dá)到上限則將新的所述語音幀進(jìn)行緩存,丟棄早期的所述語音幀。
10.根據(jù)權(quán)利要求9所述的語音識別方法,其中,
超出語音幀緩存的最大時長的早期的所述語音幀被丟棄。
11.根據(jù)權(quán)利要求2所述的語音識別方法,其中,
所述語音幀包括首幀、中間幀、末幀,
對所述首幀進(jìn)行如下語音幀處理:
如果所述首幀為靜音幀,則進(jìn)行靜音時間累加;
如果所述首幀為非靜音幀,則判斷所述語音識別引擎是否有空余識別能力,如果有空余識別能力,則進(jìn)行所述語音識別;如果識別能力被占滿,根據(jù)緩存策略,緩存或者丟棄所述語音幀,
對所述中間幀進(jìn)行如下語音幀處理:
如果所述中間幀為靜音幀,則判斷上一幀語音是否為靜音幀,如果上一幀語音為靜音,則進(jìn)行靜音時間累加,如果上一幀語音為非靜音,則結(jié)束所述語音識別,并獲取最后的所述識別結(jié)果,計算所述識別結(jié)果的時間位置;
如果所述中間幀為非靜音幀,則判斷上一幀語音是否為靜音幀,如果上一幀語音為靜音,進(jìn)行與所述首幀為非靜音幀的情況相同的處理;如果上一幀語音非靜音,則根據(jù)會話情況,繼續(xù)緩存或者繼續(xù)進(jìn)行所述語音識別,
對所述末幀進(jìn)行如下語音幀處理:
如果上一幀語音為靜音,則清理緩存,如果上一幀語音為非靜音,則結(jié)束所述語音識別,并獲取最后的所述識別結(jié)果,計算所述識別結(jié)果的時間位置。
12.一種語音識別系統(tǒng),包括:
語音流處理模塊,接收語音流,將所述語音流分割為語音幀;
語音幀處理模塊,對所述語音幀進(jìn)行靜音判斷;以及
語音識別模塊,根據(jù)所述靜音判斷的結(jié)果,與語音識別引擎交互消息。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國電信股份有限公司,未經(jīng)中國電信股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011420932.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





