[發明專利]一種語音關鍵詞檢索方法、系統和電子裝置有效
| 申請號: | 202110412011.0 | 申請日: | 2021-04-16 |
| 公開(公告)號: | CN113192535B | 公開(公告)日: | 2022-09-09 |
| 發明(設計)人: | 程高峰;楊潤延;黎塔;張鵬遠;顏永紅 | 申請(專利權)人: | 中國科學院聲學研究所 |
| 主分類號: | G10L25/54 | 分類號: | G10L25/54;G10L25/24;G10L15/08;G10L15/26;G10L15/02 |
| 代理公司: | 北京億騰知識產權代理事務所(普通合伙) 11309 | 代理人: | 陳霽 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語音 關鍵詞 檢索 方法 系統 電子 裝置 | ||
本申請實施例提供了一種語音關鍵詞檢索方法,包括:獲取語音信號;提取所述語音信號的聲學特征;所述聲學特征為梅爾頻率倒譜系數聲學特征;將所述聲學特征輸入端到端語音識別及音素分類模型進行解碼,輸出至少一條候選文本和音素后驗概率;檢索所述至少一條候選文本的關鍵詞;根據所述關鍵詞將對應的候選文本轉換為音素序列,并在所述音素序列中插入靜音音素;對所述音素后驗概率和所述音素序列計算,獲得所述關鍵詞的起止時間點和置信度;對所述關鍵詞檢索結果按所述置信度進行判決,保留置信度符合判決標準的關鍵詞作為最終的關鍵詞檢索結果。
技術領域
本申請實施例屬于語音識別技術領域,具體涉及一種語音關鍵詞檢索方法、系統和電子裝置。
背景技術
語音關鍵詞檢索是指在連續語音流中檢測出一組以文本形式給定的關鍵詞的過程。語音關鍵詞檢索在命令控制,實時對話系統,語音監聽,以及語音數據庫檢索等方面有著廣泛的應用。
近年來基于聯結主義時間分類(connectionist temporal classification,CTC)或注意力機制的端到端語音識別不斷發展。與DNN-HMM混合語音識別相比,端到端語音識別的優點是結構簡單、訓練流程簡單、開發難度低,且語音識別性能已經超過了DNN-HMM混合語音識別。然而端到端語音識別由于一般采取標簽同步的搜索解碼方式,具有無法給出時間點或時間點誤差大、對判決過度自信導致置信度不可靠的不足,導致其應用于語音關鍵詞檢索任務中存在困難。目前尚未有工作能夠克服端到端語音識別應用于關鍵詞檢索中的這兩項障礙。
發明內容
本申請實施例的目的是解決現有技術無法給出時間點或時間點誤差大、對判決過度自信導致置信度不可靠的不足,導致其應用于語音關鍵詞檢索任務中存在困難的問題。為實現上述目的,本申請實施例提供了一種語音關鍵詞檢索方法、系統和電子裝置。
第一方面,本申請實施例提供了一種語音關鍵詞檢索方法,所述方法包括:獲取語音信號;提取所述語音信號的聲學特征;所述聲學特征為梅爾頻率倒譜系數聲學特征;將所述聲學特征輸入訓練好的端到端語音識別及音素分類模型進行解碼,輸出至少一條候選文本和音素后驗概率;檢索所述至少一條候選文本獲得對應的關鍵詞;根據所述關鍵詞將對應的候選文本轉換為音素序列,并在所述音素序列中插入靜音音素;對所述音素后驗概率和所述音素序列計算,獲得所述關鍵詞的起止時間點和置信度;對所述關鍵詞檢索結果按所述置信度進行判決,保留置信度符合判決標準的關鍵詞作為最終的關鍵詞檢索結果。
在一個可能的實施方式中,所述端到端語音識別及音素分類模型至少包括序列到序列模型、幀級別音素分類器和集束搜索解碼模塊;所述方法還包括訓練所述端到端語音識別及音素分類模型的步驟:建立訓練集;所述訓練集至少包括若干條語音序列及對應的文本序列、對應的聲學特征以及對應的音素序列的時間對齊信息;將所述語音序列對應聲學特征序列輸入所述序列到序列模型,輸出音素標簽序列的后驗概率;將所述音素標簽序列的后驗概率與所述對應的人工轉寫文本序列進行比較后進行反向傳播和參數更新,最終得到訓練好的序列到序列模型;根據訓練好的序列到序列模型訓練幀級別音素分類器,得到端到端語音識別及音素分類模型。
在一個可能的實施方式中,所述根據訓練好的序列到序列模型訓練幀級別音素分類器,包括:
所述將所述序列到序列模型的一個中間層的輸出結果輸入所述幀級別音素分類器,輸出逐幀的音素后驗概率;
將所述逐幀的音素后驗概率與所述音素序列的時間對齊信息進行比較后,在序列到序列模型的參數保持固定的基礎上進行反向傳播和參數更新,最終得到訓練好的幀級別音素分類器。
在一個可能的實施方式中,所述提取所述的語音信號的聲學特征,包括:對所述語音信號進行預加重、分幀和加窗處理,提取待各幀的梅爾頻率倒譜系的數聲學特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院聲學研究所,未經中國科學院聲學研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110412011.0/2.html,轉載請聲明來源鉆瓜專利網。





