[發(fā)明專利]基于拼音約束聯(lián)合學(xué)習(xí)的漢語語音識別方法在審
| 申請?zhí)枺?/td> | 202010988154.1 | 申請日: | 2020-09-18 |
| 公開(公告)號: | CN112349288A | 公開(公告)日: | 2021-02-09 |
| 發(fā)明(設(shè)計)人: | 余正濤;梁仁鳳;王振晗;朱俊國;高盛祥;毛存禮 | 申請(專利權(quán))人: | 昆明理工大學(xué) |
| 主分類號: | G10L15/26 | 分類號: | G10L15/26;G10L15/187;G06N3/08;G06N3/04 |
| 代理公司: | 昆明人從眾知識產(chǎn)權(quán)代理有限公司 53204 | 代理人: | 何嬌 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 拼音 約束 聯(lián)合 學(xué)習(xí) 漢語 語音 識別 方法 | ||
本發(fā)明涉及基于拼音約束聯(lián)合學(xué)習(xí)的漢語語音識別方法,屬于自然語言處理技術(shù)領(lǐng)域。本發(fā)明首先從公開中文語料集中收集與語音、文本對應(yīng)的拼音文本,其次通過共享編碼器對語音特征編碼,再以拼音語音識別為輔助任務(wù),然后,在解碼過程中利用拼音作為解碼約束,基于共享編碼器將拼音語音識別語漢語語音識別聯(lián)合學(xué)習(xí),引入一種更接近語音的歸納偏置,增強編碼器對漢語語音的表達能力。本發(fā)明提出的基于拼音約束聯(lián)合學(xué)習(xí)的漢語語音識別方法,對漢語的識別降低了詞錯率,為后續(xù)在漢語語音識別過程中融入拼音以及使用拼音糾錯等工作提供強有力的支撐;緩解了端到端的模型對漢字的識別難以收斂的問題。
技術(shù)領(lǐng)域
本發(fā)明涉及基于拼音約束聯(lián)合學(xué)習(xí)的漢語語音識別方法,屬于自然語言處理技術(shù)領(lǐng)域
背景技術(shù)
在自動語音識別領(lǐng)域,當前的語音識別模型在英語、法語等表音文字中已經(jīng)取得很好的效果。然而,漢語是一種典型的表意文字,漢字與語音沒有直接的對應(yīng)關(guān)系,但拼音作為漢字讀音的標注符號,與漢字存在相互轉(zhuǎn)換的內(nèi)在聯(lián)系。將語音特征識別為音節(jié)(拼音)單元、再通過一個轉(zhuǎn)換模型將拼音變換為漢字的級聯(lián)方法存在錯誤傳播,為了避免這種問題,漢字-拼音識別模型在訓(xùn)練時使用拼音幫助對漢字的識別,但是這種方法識別效果不佳,對此,基于音節(jié)(包含1400個拼音)的貪婪級聯(lián)解碼器模型,取得相對較好的效果。在漢語語音識別中,引入拼音作為對漢字解碼的約束,能夠促使模型學(xué)習(xí)更好的語音特征。因此,提出基于拼音約束聯(lián)合學(xué)習(xí)的漢語語音識別方法,在漢語語音識別中引入拼音語音識別任務(wù)作為輔助任務(wù)聯(lián)合訓(xùn)練,共同學(xué)習(xí),相互促進。
發(fā)明內(nèi)容
本發(fā)明提供了基于拼音約束聯(lián)合學(xué)習(xí)的漢語語音識別方法,以用于在漢語語音識別總引入拼音作為對漢字解碼的約束,能夠促使模型學(xué)習(xí)更好的語音特征,緩解了當前系統(tǒng)對漢字識別難以收斂的問題。
本發(fā)明的技術(shù)方案是:基于拼音約束聯(lián)合學(xué)習(xí)的漢語語音識別方法,首先從公開中文語料集data_aishell中收集與語音、文本對應(yīng)的拼音文本,其次通過共享編碼器對語音特征編碼,再以拼音語音識別為輔助任務(wù),然后,在解碼過程中利用拼音作為解碼約束,基于共享編碼器將拼音語音識別語漢語語音識別聯(lián)合學(xué)習(xí),引入一種更接近語音的歸納偏置,增強編碼器對漢語語音的表達能力。所述基于拼音約束聯(lián)合學(xué)習(xí)的漢語語音識別方法具體步驟如下:
Step1、收集與語音、漢字文本相對應(yīng)的拼音文本;在公開訓(xùn)練語料data_aishell上,收集與語音、漢字文本相對應(yīng)的拼音文本,從而得到語音、漢語文本、拼音文本訓(xùn)練集、測試集和驗證集。
Step2、共享編碼器;共享編碼器采用4層的卷積網(wǎng)絡(luò)和5層的雙向LSTM,雙向LSTM每個方向有512個隱狀態(tài)單元,在模型訓(xùn)練時,能同時感知到拼音、漢字的監(jiān)督信號、從而引入一種更接近漢語語音的歸納偏置。
Step3、拼音語音識別;在解碼過程中,拼音語音識別解碼器基于共享編碼器的輸出狀態(tài),以前一時刻的輸出和當前時刻的上下文向量作為當前時刻的輸入進行解碼,輸出拼音。
Step4、基于拼音約束聯(lián)合學(xué)習(xí)的漢字識別;以拼音語音識別為輔助任務(wù),漢語語音識別為主要任務(wù),拼音語音識別和漢語語音識別分別有一個解碼器,訓(xùn)練時,模型的交叉熵是兩個解碼器分別計算損失后正則求和;反向傳播時,編碼器的參數(shù)被兩個任務(wù)同時更新,兩個任務(wù)共同促進的效果。
其中,模型共享一個編碼器,編碼器采用雙向長短期記憶網(wǎng)絡(luò)(Long Short TermMemory networks,LSTM)。共享編碼器將語音信號特征x=(x1,x2,...,xT)作為輸入,使用VGG對x抽取特征轉(zhuǎn)為高緯的隱表征,輸出為h=(h1,h2,...,hL)。這里T表示語音特征的幀索引,L為對語音特征下采樣后的幀索引(L≤T)。編碼器的編碼過程表示為:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于昆明理工大學(xué),未經(jīng)昆明理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010988154.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 中繼網(wǎng)絡(luò)中的聯(lián)合方法、系統(tǒng)、中繼站及移動臺
- 中繼網(wǎng)絡(luò)中的聯(lián)合方法、系統(tǒng)、中繼站及移動臺
- 便攜信息終端、以及便攜信息終端的控制方法
- 電法與地震同步聯(lián)合反演方法及系統(tǒng)
- 銀行聯(lián)合放款的放款方法、裝置及計算機可讀存儲介質(zhì)
- 一種基于自主學(xué)習(xí)群搜索算法的聯(lián)合調(diào)度方法及系統(tǒng)
- 一種基于多目標種群群搜索算法的聯(lián)合調(diào)度方法及系統(tǒng)
- 聯(lián)合貸款中的罰息與利息結(jié)算方法、裝置、介質(zhì)和設(shè)備
- 一種基坑支護用H型鋼構(gòu)件
- 用于云環(huán)境的語義元聯(lián)合代理





