[發明專利]一種基于對比學習的端到端音障語音識別方法在審
| 申請號: | 202110588547.8 | 申請日: | 2021-05-28 |
| 公開(公告)號: | CN113450777A | 公開(公告)日: | 2021-09-28 |
| 發明(設計)人: | 孫仕亮;吳麗丹;趙靜;張楠 | 申請(專利權)人: | 華東師范大學 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/02;G10L15/16;G10L15/20;G10L15/22 |
| 代理公司: | 上海藍迪專利商標事務所(普通合伙) 31215 | 代理人: | 徐筱梅;張翔 |
| 地址: | 200241 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 對比 學習 端到端 音障 語音 識別 方法 | ||
本發明公開了一種基于對比學習的端到端音障語音識別方法,該方法具備語音識別能力前需要使用大量正常發音數據預訓練得到一個基本模型,再遷移到音障語音識別的任務中。在訓練完成后,本方法就有了音障語音識別的能力。本發明首先對音障語音數據進行頻譜圖上的數據增強,再通過Transformer模型中的編碼器提取隱層信息,然后該隱層信息經過投影模塊被提取出低維的隱表示。最后本方法在隱表示所在的低維隱空間上進行對比損失的計算。在解碼過程中,解碼器直接使用隱層信息進行解碼。本發明的創新點在于將對比學習與Transformer模型中的編碼器引入到音障語音識別的領域,并通過投影模塊得到的隱表示在隱空間上加速計算,同時在投影模塊前保留足夠多的信息供解碼器使用。
技術領域
本發明涉及計算機技術領域,設計語音識別技術,特別涉及一種基于對比學習和端到端神經網絡的音障語音識別方法。
背景技術
背景技術涉及:音障語音識別技術,Transformer模型及對比學習。
1)音障語音識別技術
音障語音識別技術是將有發音障礙患者的說話音頻信號轉化為文本語言的一種技術。語音識別的建模包括語言模型、聲學模型兩部分。語言模型通常用狀態轉移圖來表示,通過上下文產生概率計算一個序列產生的聯合概率。這些概率在狀態圖的構建中就已經固定,和待識別的語音無關。聲學模型則匹配了語音和音素,是語音識別當中最主要的部分。在過去的研究中,常將有效的語音識別模型遷移到音障語音識別模型上,在進行一些微調后提升實驗效果。
語音識別的探索過程經歷了以下幾個階段:早期通過發音規律進行模版匹配;用概率統計模型對語音識別問題進行建模;用深度神經網絡進行特征提?。恢苯佑枚说蕉司W絡進行訓練。對于長邏輯的語句而言,不僅需要準確地識別出聲音,還要將其翻譯成完整的句子。
聲音輸入一般是語音數據經過信號處理得到的梅爾頻譜系數以及感知線性預測系數。它們丟棄了大量的波形中的無效信息,保留了語音數據的有效特征,通過隱馬爾可夫模型(Hidden Markov Models,HMM)來提取出隱層的音素信息。高斯混合模型(GaussianMixture Models,GMM)能豐富地建模隱馬爾可夫模型中的隱狀態和聲音輸入之間的關系。自從引入期望最大化算法進行訓練以來,GMM-HMM就開始在語音識別領域取得不錯的成績。然而,GMM也存在其局限性。由于其固定了發射概率的形式,即使是建模簡單的非線性映射關系,也需要大量的參數。實際上,語音是通過調節一個動力學系統中的少量參數而產生的,這意味著過多的參數是對語音任務的復雜化建模。因此,如何有效地利用幀中的信息是語音建模任務的關鍵。實際上,利用一些非線性網絡去建模HMM中的隱狀態和聲音輸入之間的關系曾獲得一定的成功,但由于當時的計算能力不足以支持更深的網絡層,并沒有引起足夠多的關注。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華東師范大學,未經華東師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110588547.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種組織塊清洗裝置及其清洗方法
- 下一篇:一種聲衰減建筑材料及其加工工藝





