[發明專利]一種基于時域卷積編解碼網絡的語音識別方法有效
| 申請號: | 202011301480.7 | 申請日: | 2020-11-19 |
| 公開(公告)號: | CN112466297B | 公開(公告)日: | 2022-09-30 |
| 發明(設計)人: | 彭德光;趙清清;孫健;湯斌;黃攀 | 申請(專利權)人: | 重慶兆光科技股份有限公司 |
| 主分類號: | G10L15/16 | 分類號: | G10L15/16;G10L15/22;G10L19/26;G10L25/24 |
| 代理公司: | 重慶渝之知識產權代理有限公司 50249 | 代理人: | 陸蕾 |
| 地址: | 400000 重慶市璧山區璧泉街道*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 時域 卷積 解碼 網絡 語音 識別 方法 | ||
本發明提出一種基于時域卷積編解碼網絡的語音識別方法,包括:輸入音頻信息,獲取音頻特征,其中音頻特征包括梅爾頻率倒譜系數、線性預測倒譜系數;將所述音頻特征輸入預先構建的神經網絡模型,獲取時序特征序列;通過時域卷積網絡對所述時序特征序列進行編碼和解碼操作,得到一組輸出序列;根據輸出序列中每個元素的輸出概率以及所述輸出序列與預設標簽序列的預設映射規則,獲取預測結果;本發明可有效解決語音識別延遲問題。
技術領域
本發明涉及語音識別領域,尤其涉及一種基于時域卷積編解碼網絡的語音識別方法。
背景技術
目前語音識別領域主要有傳統方法和深度學習方法,傳統方法主要使用GMM-HMM或DNN-HMM等基于HMM的方法對每一幀語音進行建模;基于深度學習的方法使用包括卷積神經網絡、循環神經網絡在內的深度神經網絡對大量語音數據進行建?!,F有技術的缺點:傳統的基于HMM的方法需要幀級別的標注,標注工作耗費大量時間和人力;深度學習方法中的雙向循環網絡無法有效解決識別延遲問題。
發明內容
鑒于以上現有技術存在的問題,本發明提出一種基于時域卷積編解碼網絡的語音識別方法,主要解決現有方法標注費時且識別存在延時的問題。
為了實現上述目的及其他目的,本發明采用的技術方案如下。
一種基于時域卷積編解碼網絡的語音識別方法,包括:
輸入音頻信息,獲取音頻特征,其中音頻特征包括梅爾頻率倒譜系數、線性預測倒譜系數;
輸入的所述音頻特征預先通過卷積神經網絡進行特征提取,再將提取的特征輸入循環神經網絡獲取時序特征序列;
通過時域卷積網絡對所述時序特征序列進行編碼和解碼操作,得到一組輸出序列;
根據輸出序列中每個元素的輸出概率以及所述輸出序列與預設標簽序列的預設映射規則,獲取預測結果包括:根據輸出序列中某一元素的輸出概率與輸出該元素之前的所有輸出概率的關系獲取輸出序列中元素的輸出概率;計算所有映射到所述標簽序列中某一標簽的輸出序列的輸出概率之和,作為該標簽的輸出概率;選出輸出概率最高的標簽作為所述預測結果。
可選地,所述卷積神經網絡模型至少包括兩層帶有批量歸一化的卷積層,激活函數采用硬雙曲正切函數。
可選地,所述遞歸神經網絡包括5到7層網絡層,且每層網絡層均采用批量歸一化。
可選地,根據根據輸出序列中每個元素的輸出概率以及每個所述元素與標簽的預設映射規則構建CTC損失函數;
通過所述CTC損失函數反向傳播更新所述時域卷積網絡的參數。
可選地,所述時域卷積網絡通過Softmax激活函數輸出每個時間步輸出序列中元素的輸出概率。
可選地,所述輸出序列中某一元素的輸出概率與輸出該元素之前的所有輸出概率的關系表示為:
其中,設輸出序列表示為π={π1,π2,L,πn},表示第t時間步輸出πt的概率,T表示輸出為π的時間步。
可選地,標簽的輸出概率表示為:
其中,l表示標簽序列;F-1(l)表示標簽映射到輸出序列的映射規則。
可選地,通過預訓練的語言模型對所述預測結果進行校正。
如上所述,本發明一種基于時域卷積編解碼網絡的語音識別方法,具有以下有益效果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶兆光科技股份有限公司,未經重慶兆光科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011301480.7/2.html,轉載請聲明來源鉆瓜專利網。





