[發明專利]語音自適應識別方法、系統、設備及存儲介質在審
| 申請號: | 202111482314.6 | 申請日: | 2021-12-06 |
| 公開(公告)號: | CN114187900A | 公開(公告)日: | 2022-03-15 |
| 發明(設計)人: | 郭武;丁楓林 | 申請(專利權)人: | 中國科學技術大學 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/07;G10L15/16 |
| 代理公司: | 北京凱特來知識產權代理有限公司 11260 | 代理人: | 鄭立明;韓珂 |
| 地址: | 230026 安*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 自適應 識別 方法 系統 設備 存儲 介質 | ||
本發明公開了一種語音自適應識別方法、系統、設備及存儲介質,解決了語音識別聲學建模的在線說話人自適應問題,通過引入一個輔助網絡(即多個基于注意力的門控縮放自適應層構成網絡)實現對主網絡(即聲學模型)的自適應學習,同時,輔助網絡采用自注意力機制可以學習更加區分性的說話人個性特征,從而提升識別率。
技術領域
本發明涉及語音信號處理技術領域,尤其涉及一種語音識別方法、系統、設備及存儲介質。
背景技術
近年來,隨著神經網絡在語音識別領域中的廣泛應用,語音識別系統的性能得到了顯著的改善。目前主流的語音識別系統主要有兩種,一種是基于HMM的語音識別系統(Graves A,Fernández S,Gomez F,et al.Connectionist temporal classification:labelling unsegmented sequence data with recurrent neural networks[C]//Proceedings of the 23rd international conference on Machine learning.ACM,2006:369-376.),另一種則是端到端語音識別系統(Maas A,Xie Z,Jurafsky D,etal.Lexicon-free conversational speech recognition with neural networks[C]//Proceedings of the 2015 Conference of the North American Chapter of theAssociation for Computational Linguistics:Human Language Technologies.2015:345-354.)。相比于基于HMM的語音識別系統,端到端語音識別系統結構更加簡單,通過神經網絡直接把輸入語音特征序列轉化成文字序列,不需要HMM系統的一套發音詞典、決策樹、字級別標注對齊信息,由于其實現簡單且性能優異,因此成為了當前研究的熱點。
端到端語音識別的首次實現是谷歌的Alex Graves和多倫多大學的NavdeepJaitly將鏈接時序分類(ConnectionistTemporal Classification,CTC)準則引入到語音識別系統中(GRAVES A,JAITLY N.Towards end-to-end speech recognition withrecurrent neural networks[C]//International conference on machinelearning.PMLR,2014:1764-1772.)。CTC本質上是一個損失函數,但它在計算損失時解決了硬對齊問題,最初被提出用來解決序列到序列的預測任務(GRAVES A,S,GOMEZ F,et al.Connectionist temporal classification:labelling unsegmentedsequence data with recurrent neural networks[C]//Proceedings of the 23rdinternational conference on Machine learning.2006:369-376.)。語音識別作為一個典型的語音序列到文本序列的預測任務,CTC準則的引入成功實現了直接由輸入語音映射到文本標簽的過程。在結合RNN或卷積神經網絡(Convolutional Neural Network,CNN)對時序信息進行建模的情況下,CTC準則被廣泛的應用到語音識別系統中(LI J,YE G,DAS A,et al.Advancing acoustic-to-word CTC model[C]//2018IEEE InternationalConference on Acoustics,Speech and Signal Processing(ICASSP).IEEE,2018:5794-5798.)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學技術大學,未經中國科學技術大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111482314.6/2.html,轉載請聲明來源鉆瓜專利網。





