[發(fā)明專利]一種基于實(shí)時(shí)解碼的語音端點(diǎn)檢測方法有效
| 申請(qǐng)?zhí)枺?/td> | 201210483046.4 | 申請(qǐng)日: | 2012-11-24 |
| 公開(公告)號(hào): | CN102982811A | 公開(公告)日: | 2013-03-20 |
| 發(fā)明(設(shè)計(jì))人: | 吳玲;王兵;趙乾;潘頌聲;何春江;朱群 | 申請(qǐng)(專利權(quán))人: | 安徽科大訊飛信息科技股份有限公司 |
| 主分類號(hào): | G10L25/87 | 分類號(hào): | G10L25/87;G10L13/08;G10L15/02 |
| 代理公司: | 北京科迪生專利代理有限責(zé)任公司 11251 | 代理人: | 成金玉 |
| 地址: | 230088 安徽省*** | 國省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 實(shí)時(shí) 解碼 語音 端點(diǎn) 檢測 方法 | ||
1.一種基于實(shí)時(shí)解碼的語音端點(diǎn)檢測方法,其特征在于實(shí)現(xiàn)步驟如下:
第一步:輸入語音識(shí)別相關(guān)文本,解析文本;
第二步:根據(jù)文本解析結(jié)果構(gòu)建解碼網(wǎng)絡(luò);
第三步:實(shí)時(shí)輸入語音,提取語音中的聲學(xué)特征,基于第二步構(gòu)建的解碼網(wǎng)絡(luò)對(duì)所述聲學(xué)特征進(jìn)行解碼,得到解碼后的語言單元序列;所述語言單元序列中每一個(gè)單元稱為一幀;
第四步:對(duì)解碼后的語音單元序列進(jìn)行語音端點(diǎn)判斷,判斷是否是語音端點(diǎn),所述語音端點(diǎn)分為語音開始點(diǎn)和語音結(jié)束點(diǎn);如果判斷結(jié)果是語音結(jié)束點(diǎn),則把語音結(jié)束點(diǎn)信息反饋給外部應(yīng)用系統(tǒng),否則繼續(xù)第三步;在第四步中語音開始點(diǎn)判斷是可選的,如果外部外部應(yīng)用系統(tǒng)不關(guān)心語音開始點(diǎn),則不判斷語音開始點(diǎn);
所述第四步中的語音開始點(diǎn)判斷如下:
(1.1)取解碼器中的最優(yōu)路徑;
(1.2)語音開始點(diǎn)預(yù)警,即根據(jù)解碼器中的最優(yōu)路徑,判斷當(dāng)前語音文本是否可能達(dá)到語音開始點(diǎn),如果是,進(jìn)行步驟(1.3),否則結(jié)束判斷;
(1.3)確認(rèn)預(yù)警,即判斷語音文本中是否有文本內(nèi)音素或有效的垃圾語音,通過此過程來確認(rèn)當(dāng)前是否真的達(dá)到語音開始點(diǎn);如果是,得到開始點(diǎn),否則直接退出;
所述第四步中的語音結(jié)束點(diǎn)判斷如下:
(2.1)取解碼器中當(dāng)前最優(yōu)路徑;
(2.2)語音結(jié)束點(diǎn)預(yù)警,即根據(jù)解碼器中的最優(yōu)路徑,判斷語音文本中的最后一個(gè)音素是否可能說了,如果是,進(jìn)行步驟(2.3),否則結(jié)束判斷;
(2.3)確認(rèn)預(yù)警,即語音文本中最后一個(gè)音素是否真的說過了,通過幀長,幀平均似然度指標(biāo)來決策,如果判斷為真的說了,則得到語音結(jié)束點(diǎn),結(jié)束流程,否則直接結(jié)束。
2.根據(jù)權(quán)利要求1所述的一種基于實(shí)時(shí)解碼的語音端點(diǎn)檢測方法,其特征在于:在某些的應(yīng)用場景中,有時(shí)候用戶沒讀完文本內(nèi)容,需要返回語音的結(jié)束點(diǎn),這就需要本發(fā)明檢測方法與傳統(tǒng)的端點(diǎn)檢測方法結(jié)合,與傳統(tǒng)的端點(diǎn)檢測方法相結(jié)合的過程步驟如下:
(1)輸入語音識(shí)別相關(guān)文本,解析文本;
(2)根據(jù)第一步文本解析結(jié)果構(gòu)建解碼網(wǎng)絡(luò);
(3)輸入語音,一方面提取語音中的聲學(xué)特征,另一方面把語音傳給傳統(tǒng)的端點(diǎn)檢測模塊;
(4)將本發(fā)明所述的端點(diǎn)檢測方法和傳統(tǒng)端點(diǎn)檢測同時(shí)進(jìn)行,各自檢測出語音端點(diǎn);
(5)結(jié)合本發(fā)明所述的端點(diǎn)檢測方法和傳統(tǒng)端點(diǎn)檢測方法給出的語音端點(diǎn)決策是否是語音端點(diǎn),可以采用上述兩個(gè)中任何一個(gè)方法檢測出是端點(diǎn)就認(rèn)為是端點(diǎn)的策略,還可以用兩種方法都檢測出端點(diǎn)才認(rèn)為是端點(diǎn);
(6)反饋語音端點(diǎn)給外部應(yīng)用系統(tǒng)。
3.根據(jù)權(quán)利要求1或2所述的一種基于實(shí)時(shí)解碼的語音端點(diǎn)檢測方法,其特征在于:所述第二步中構(gòu)建解碼網(wǎng)絡(luò)步驟如下:
(1)得到第一步的文本解析后的最小建模單元,可以是音素、音節(jié)、詞語;
(2)根據(jù)最小建模單元個(gè)數(shù)計(jì)算網(wǎng)絡(luò)中的虛節(jié)點(diǎn)數(shù)和總結(jié)點(diǎn)數(shù),為節(jié)點(diǎn)分配內(nèi)存,并把最小建模單元和網(wǎng)絡(luò)節(jié)點(diǎn)關(guān)聯(lián)起來;
(3)根據(jù)允許的朗讀規(guī)則計(jì)算網(wǎng)絡(luò)中的弧數(shù),并為弧分配內(nèi)存;所述允許的朗讀規(guī)則包括回讀、漏讀;
(4)根據(jù)朗讀規(guī)則,通過弧把節(jié)點(diǎn)連接起來;
(5)輸出解碼網(wǎng)絡(luò)。
4.根據(jù)權(quán)利要求1或2所述的一種基于實(shí)時(shí)解碼的語音端點(diǎn)檢測方法,其特征在于:所述步驟(1.1)和步驟(2.1)中取解碼器中的最優(yōu)路徑的步驟如下:
(1)遍歷當(dāng)前解碼器中所有路徑,解析各路徑得到對(duì)應(yīng)的語音單元序列和概率;
(2)根據(jù)概率對(duì)路徑進(jìn)行排序;
(3)取排序后概率最大的路徑作為最優(yōu)路徑。
5.根據(jù)權(quán)利要求1或2所述的一種基于實(shí)時(shí)解碼的語音端點(diǎn)檢測方法,其特征在于:所述第三步中聲學(xué)特征為梅爾倒譜系數(shù)MFCC、倒譜系數(shù)CEP,線性預(yù)測系數(shù)LPC或感知線性預(yù)測系數(shù)PLP。
6.根據(jù)權(quán)利要求1或2所述的一種基于實(shí)時(shí)解碼的語音端點(diǎn)檢測方法,其特征在于:所述第三步中語音單元序列是音素序列、音節(jié)序列或文字序列。
7.根據(jù)權(quán)利要求1或2所述的一種基于實(shí)時(shí)解碼的語音端點(diǎn)檢測方法,其特征在于:所述第三步中解碼為Viterbi解碼,或是基于動(dòng)態(tài)時(shí)間規(guī)整(DTW)的解碼。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于安徽科大訊飛信息科技股份有限公司,未經(jīng)安徽科大訊飛信息科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210483046.4/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 上一篇:獲得包含帶涂層的基底的材料的方法
- 下一篇:容器的殺菌、清洗方法
- 實(shí)時(shí)解碼系統(tǒng)與實(shí)時(shí)解碼方法
- 實(shí)時(shí)穩(wěn)定
- 實(shí)時(shí)監(jiān)控裝置、實(shí)時(shí)監(jiān)控系統(tǒng)以及實(shí)時(shí)監(jiān)控方法
- 實(shí)時(shí)或準(zhǔn)實(shí)時(shí)流傳輸
- 實(shí)時(shí)或準(zhǔn)實(shí)時(shí)流傳輸
- 實(shí)時(shí)通信方法和實(shí)時(shí)通信系統(tǒng)
- 實(shí)時(shí)更新
- 實(shí)時(shí)內(nèi)核
- 用于通信網(wǎng)絡(luò)的網(wǎng)絡(luò)設(shè)備及相關(guān)方法
- 實(shí)時(shí)量化方法及實(shí)時(shí)量化系統(tǒng)





