[發(fā)明專利]基于拼音約束聯(lián)合學(xué)習(xí)的漢語語音識別方法在審

申請?zhí)枺?/td>	202010988154.1	申請日：	2020-09-18
公開（公告）號：	CN112349288A	公開（公告）日：	2021-02-09
發(fā)明（設(shè)計）人：	余正濤;梁仁鳳;王振晗;朱俊國;高盛祥;毛存禮	申請（專利權(quán)）人：	昆明理工大學(xué)
主分類號：	G10L15/26	分類號：	G10L15/26;G10L15/187;G06N3/08;G06N3/04
代理公司：	昆明人從眾知識產(chǎn)權(quán)代理有限公司 53204	代理人：	何嬌
地址：	650093 云***	國省代碼：	云南;53
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	基于拼音約束聯(lián)合學(xué)習(xí) 漢語語音識別方法
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明涉及基于拼音約束聯(lián)合學(xué)習(xí)的漢語語音識別方法，屬于自然語言處理技術(shù)領(lǐng)域。本發(fā)明首先從公開中文語料集中收集與語音、文本對應(yīng)的拼音文本，其次通過共享編碼器對語音特征編碼，再以拼音語音識別為輔助任務(wù)，然后，在解碼過程中利用拼音作為解碼約束，基于共享編碼器將拼音語音識別語漢語語音識別聯(lián)合學(xué)習(xí)，引入一種更接近語音的歸納偏置，增強編碼器對漢語語音的表達能力。本發(fā)明提出的基于拼音約束聯(lián)合學(xué)習(xí)的漢語語音識別方法，對漢語的識別降低了詞錯率，為后續(xù)在漢語語音識別過程中融入拼音以及使用拼音糾錯等工作提供強有力的支撐；緩解了端到端的模型對漢字的識別難以收斂的問題。

技術(shù)領(lǐng)域

本發(fā)明涉及基于拼音約束聯(lián)合學(xué)習(xí)的漢語語音識別方法，屬于自然語言處理技術(shù)領(lǐng)域

背景技術(shù)

在自動語音識別領(lǐng)域，當前的語音識別模型在英語、法語等表音文字中已經(jīng)取得很好的效果。然而，漢語是一種典型的表意文字，漢字與語音沒有直接的對應(yīng)關(guān)系，但拼音作為漢字讀音的標注符號，與漢字存在相互轉(zhuǎn)換的內(nèi)在聯(lián)系。將語音特征識別為音節(jié)(拼音)單元、再通過一個轉(zhuǎn)換模型將拼音變換為漢字的級聯(lián)方法存在錯誤傳播，為了避免這種問題，漢字-拼音識別模型在訓(xùn)練時使用拼音幫助對漢字的識別，但是這種方法識別效果不佳，對此，基于音節(jié)(包含1400個拼音)的貪婪級聯(lián)解碼器模型，取得相對較好的效果。在漢語語音識別中，引入拼音作為對漢字解碼的約束，能夠促使模型學(xué)習(xí)更好的語音特征。因此，提出基于拼音約束聯(lián)合學(xué)習(xí)的漢語語音識別方法，在漢語語音識別中引入拼音語音識別任務(wù)作為輔助任務(wù)聯(lián)合訓(xùn)練，共同學(xué)習(xí)，相互促進。

發(fā)明內(nèi)容

本發(fā)明提供了基于拼音約束聯(lián)合學(xué)習(xí)的漢語語音識別方法，以用于在漢語語音識別總引入拼音作為對漢字解碼的約束，能夠促使模型學(xué)習(xí)更好的語音特征，緩解了當前系統(tǒng)對漢字識別難以收斂的問題。

本發(fā)明的技術(shù)方案是：基于拼音約束聯(lián)合學(xué)習(xí)的漢語語音識別方法，首先從公開中文語料集data_aishell中收集與語音、文本對應(yīng)的拼音文本，其次通過共享編碼器對語音特征編碼，再以拼音語音識別為輔助任務(wù)，然后，在解碼過程中利用拼音作為解碼約束，基于共享編碼器將拼音語音識別語漢語語音識別聯(lián)合學(xué)習(xí)，引入一種更接近語音的歸納偏置，增強編碼器對漢語語音的表達能力。所述基于拼音約束聯(lián)合學(xué)習(xí)的漢語語音識別方法具體步驟如下：

Step1、收集與語音、漢字文本相對應(yīng)的拼音文本；在公開訓(xùn)練語料data_aishell上，收集與語音、漢字文本相對應(yīng)的拼音文本，從而得到語音、漢語文本、拼音文本訓(xùn)練集、測試集和驗證集。

Step2、共享編碼器；共享編碼器采用4層的卷積網(wǎng)絡(luò)和5層的雙向LSTM，雙向LSTM每個方向有512個隱狀態(tài)單元，在模型訓(xùn)練時，能同時感知到拼音、漢字的監(jiān)督信號、從而引入一種更接近漢語語音的歸納偏置。

Step3、拼音語音識別；在解碼過程中，拼音語音識別解碼器基于共享編碼器的輸出狀態(tài)，以前一時刻的輸出和當前時刻的上下文向量作為當前時刻的輸入進行解碼，輸出拼音。

Step4、基于拼音約束聯(lián)合學(xué)習(xí)的漢字識別；以拼音語音識別為輔助任務(wù)，漢語語音識別為主要任務(wù)，拼音語音識別和漢語語音識別分別有一個解碼器，訓(xùn)練時，模型的交叉熵是兩個解碼器分別計算損失后正則求和；反向傳播時，編碼器的參數(shù)被兩個任務(wù)同時更新，兩個任務(wù)共同促進的效果。

其中，模型共享一個編碼器，編碼器采用雙向長短期記憶網(wǎng)絡(luò)(Long Short TermMemory networks,LSTM)。共享編碼器將語音信號特征x＝(x₁,x₂,...,x_T)作為輸入，使用VGG對x抽取特征轉(zhuǎn)為高緯的隱表征，輸出為h＝(h₁,h₂,...,h_L)。這里T表示語音特征的幀索引，L為對語音特征下采樣后的幀索引(L≤T)。編碼器的編碼過程表示為：

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于昆明理工大學(xué)，未經(jīng)昆明理工大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010988154.1/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L15-00 語音識別
G10L15-02 .語音識別的特征提取；識別單位的選擇
G10L15-04 .分段或字極限檢測
G10L15-06 .創(chuàng)建基準模板；訓(xùn)練語音識別系統(tǒng)，例如對說話者聲音特征的適應(yīng)
G10L15-08 .語音分類或檢索
G10L15-20 .專門適用于不利環(huán)境

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】