[發(fā)明專利]一種語音關鍵詞檢索方法、系統(tǒng)和電子裝置有效
| 申請?zhí)枺?/td> | 202110412011.0 | 申請日: | 2021-04-16 |
| 公開(公告)號: | CN113192535B | 公開(公告)日: | 2022-09-09 |
| 發(fā)明(設計)人: | 程高峰;楊潤延;黎塔;張鵬遠;顏永紅 | 申請(專利權)人: | 中國科學院聲學研究所 |
| 主分類號: | G10L25/54 | 分類號: | G10L25/54;G10L25/24;G10L15/08;G10L15/26;G10L15/02 |
| 代理公司: | 北京億騰知識產(chǎn)權代理事務所(普通合伙) 11309 | 代理人: | 陳霽 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語音 關鍵詞 檢索 方法 系統(tǒng) 電子 裝置 | ||
1.一種語音關鍵詞檢索方法,其特征在于,所述方法包括:
獲取語音信號;
提取所述語音信號的聲學特征;所述聲學特征為梅爾頻率倒譜系數(shù)聲學特征;
將所述聲學特征輸入訓練好的端到端語音識別及音素分類模型進行解碼,輸出至少一條候選文本和音素后驗概率;包括:將所述聲學特征輸入訓練好的序列到序列模型進行計算,將計算結果輸入集束搜索解碼模塊,得到至少一個候選文本;將所述序列到序列模型的一個中間層的輸出值輸入幀級別音素分類器,輸出逐幀的音素后驗概率;
檢索所述至少一條候選文本獲得對應的關鍵詞;
根據(jù)所述關鍵詞將對應的候選文本轉換為音素序列,并在所述音素序列中插入靜音音素;
對所述音素后驗概率和所述音素序列計算,獲得所述關鍵詞的起止時間點和置信度;
對所述關鍵詞按所述置信度進行判決,保留置信度符合判決標準的關鍵詞作為最終的關鍵詞檢索結果。
2.根據(jù)權利要求1所述的語音關鍵詞檢索方法,其特征在于,所述方法還包括訓練所述端到端語音識別及音素分類模型的步驟:
建立訓練集;所述訓練集至少包括若干條語音序列及對應的文本序列、對應的聲學特征以及對應的音素序列的時間對齊信息;
將所述語音序列和對應的聲學特征序列輸入所述序列到序列模型,輸出音素標簽序列的后驗概率;
將所述音素標簽序列的后驗概率與所述對應的文本序列進行比較后進行反向傳播和參數(shù)更新,最終得到訓練好的序列到序列模型;
根據(jù)訓練好的序列到序列模型訓練幀級別音素分類器,得到端到端語音識別及音素分類模型。
3.根據(jù)權利要求2所述的語音關鍵詞檢索方法,其特征在于,所述根據(jù)訓練好的序列到序列模型訓練幀級別音素分類器,包括:
所述將所述序列到序列模型的一個中間層的輸出結果輸入所述幀級別音素分類器,輸出逐幀的音素后驗概率;
將所述逐幀的音素后驗概率與所述音素序列的時間對齊信息進行比較后,在序列到序列模型的參數(shù)保持固定的基礎上進行反向傳播和參數(shù)更新,最終得到訓練好的幀級別音素分類器。
4.根據(jù)權利要求1所述的語音關鍵詞檢索方法,其特征在于,所述提取所述的語音信號的聲學特征,包括:對所述語音信號進行預加重、分幀和加窗處理,提取待各幀的梅爾頻率倒譜系的數(shù)聲學特征。
5.根據(jù)權利要求1所述的語音關鍵詞檢索方法,其特征在于,所述根據(jù)所述關鍵詞將對應的候選文本轉換為音素序列,并在所述音素序列中插入靜音音素,包括:
將所述關鍵詞的對應的候選文本輸入發(fā)音字典,得到逐幀的音素序列;
在所述關鍵詞的對應的候選文本中每兩個相鄰詞對應的每兩個相鄰音素序列之間插入一個靜音音素。
6.根據(jù)權利要求1所述的語音關鍵詞檢索方法,其特征在于,所述對所述音素后驗概率和所述音素序列計算,獲得所述關鍵詞的起止時間點和置信度,包括:
對所述音素后驗概率和包含所述關鍵詞的候選文本對應的音素序列計算動態(tài)概率概率值,獲得一條概率符合要求的幀級別的音素對齊路徑;
根據(jù)所述幀級別的音素對齊路徑得到所述關鍵詞的檢索結果,所述檢索結果至少包括關鍵詞的起止時間點和置信度。
7.根據(jù)權利要求6所述的語音關鍵詞檢索方法,其特征在于,所述根據(jù)所述幀級別的音素對齊路徑得到所述關鍵詞的檢索結果,包括:
根據(jù)所述幀級別的音素對齊路徑得到所述關鍵詞對應的各個音素的起止幀數(shù)和各個幀上所述各個音素的后驗概率;
根據(jù)各個音素的起止幀數(shù)得到所述關鍵詞的起止時間點;
根據(jù)各個幀上所述各個音素的后驗概率獲得所述各個幀的幀平均后驗概率置信度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院聲學研究所,未經(jīng)中國科學院聲學研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110412011.0/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。





