[發(fā)明專利]一種基于注意力特征處理網(wǎng)絡(luò)的中文語音識別方法在審
| 申請?zhí)枺?/td> | 202310088585.6 | 申請日: | 2023-01-29 |
| 公開(公告)號: | CN116189662A | 公開(公告)日: | 2023-05-30 |
| 發(fā)明(設(shè)計)人: | 王春艷;許召輝;呂榮闖;范光宇;饒蕾 | 申請(專利權(quán))人: | 中航華東光電(上海)有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/06;G10L15/20;G10L15/22 |
| 代理公司: | 上海樂泓專利代理事務(wù)所(普通合伙) 31385 | 代理人: | 張雪 |
| 地址: | 201114 上海市*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 注意力 特征 處理 網(wǎng)絡(luò) 中文 語音 識別 方法 | ||
本發(fā)明提供的一種基于注意力特征處理網(wǎng)絡(luò)的中文語音識別方法,所述語音識別方法包括:獲取用于訓(xùn)練的語音信號,提取語譜圖特征;在初始的所述語譜圖特征中篩選關(guān)鍵特征信息;將所述關(guān)鍵特征信息分別進行放大特征維度;進行一次判斷,判斷上采樣后的特征圖維度是否滿足條件;如果滿足,放大后的特征維度不等于初始時輸入的特征維度,則繼續(xù)執(zhí)行上采樣放大操作;將所述特征維度進行融合,并發(fā)送至聲學(xué)模型,實現(xiàn)模型的訓(xùn)練和預(yù)測。采用一種基于注意力機制特征處理網(wǎng)絡(luò)結(jié)構(gòu),實現(xiàn)更高精度的語音識別效果。
技術(shù)領(lǐng)域
本發(fā)明涉及語音識別技術(shù)領(lǐng)域,尤其涉及一種基于注意力特征處理網(wǎng)絡(luò)的中文語音識別方法。
背景技術(shù)
現(xiàn)有技術(shù)中,利用神經(jīng)網(wǎng)絡(luò)搭建聲學(xué)模型實現(xiàn)語音識別已成為一種主流的趨勢,隨著現(xiàn)在對模型預(yù)測精度要求的提高,在訓(xùn)練模型時需要往數(shù)據(jù)集中注入大量數(shù)據(jù)樣本才能實現(xiàn)較高的準(zhǔn)確率。但是現(xiàn)存的深度學(xué)習(xí)數(shù)據(jù)集中存在著嚴(yán)重的數(shù)據(jù)集信息冗余的問題,一個樣本中真正有用的信息占比很小,以語音數(shù)據(jù)集為例,在語音數(shù)據(jù)集中存在各種噪聲,如:每一時刻都會存在的加性噪聲、以及因自身發(fā)音而導(dǎo)致的拖音、混音、氣息聲音、等問題帶來的單條訓(xùn)練樣本信息冗余問題。這些問題嚴(yán)重影響了模型的預(yù)測精度。
發(fā)明內(nèi)容
鑒于上述問題,提出了本發(fā)明以便提供克服上述問題或者至少部分地解決上述問題的一種基于注意力特征處理網(wǎng)絡(luò)的中文語音識別方法。
根據(jù)本發(fā)明的一個方面,提供了一種基于注意力特征處理網(wǎng)絡(luò)的中文語音識別方法,所述語音識別方法包括:
獲取用于訓(xùn)練的語音信號,提取語譜圖特征;
在初始的所述語譜圖特征中篩選關(guān)鍵特征信息;
將所述關(guān)鍵特征信息分別進行放大特征維度;
進行一次判斷,判斷上采樣后的特征圖維度是否滿足條件;
如果滿足,放大后的特征維度不等于初始時輸入的特征維度,則繼續(xù)執(zhí)行上采樣放大操作;
將所述特征維度進行融合,并發(fā)送至聲學(xué)模型,實現(xiàn)模型的訓(xùn)練和預(yù)測。
可選的,所述獲取用于訓(xùn)練的語音信號,提取語譜圖特征具體包括:將用于訓(xùn)練的語音信號進行分幀、加窗操作,提取到語譜圖特征。
可選的,所述語譜圖特征為用于語音識別的特征。
可選的,所述在初始的所述語譜圖特征中篩選關(guān)鍵特征信息具體包括:將初始的所述語譜圖特征輸入到卷積層操作中進行壓縮操作,實現(xiàn)對關(guān)鍵特征信息的篩選。
可選的,所述將所述關(guān)鍵特征信息分別進行放大特征維度具體包括:將多次壓縮之后的特征信息分別進行某種上采樣操作實現(xiàn)特征維度的放大。
可選的,所述將所述特征維度進行融合,并發(fā)送至聲學(xué)模型,實現(xiàn)模型的訓(xùn)練和預(yù)測具體包括:滿足判斷條件之后,將多層編碼層的輸出經(jīng)過上采樣之后,實現(xiàn)融合;
輸出融合之后的特征信息,輸送至聲學(xué)模型,實現(xiàn)模型的訓(xùn)練和預(yù)測。
本發(fā)明提供的一種基于注意力特征處理網(wǎng)絡(luò)的中文語音識別方法,所述語音識別方法包括:獲取用于訓(xùn)練的語音信號,提取語譜圖特征;在初始的所述語譜圖特征中篩選關(guān)鍵特征信息;將所述關(guān)鍵特征信息分別進行放大特征維度;進行一次判斷,判斷上采樣后的特征圖維度是否滿足條件;如果滿足,放大后的特征維度不等于初始時輸入的特征維度,則繼續(xù)執(zhí)行上采樣放大操作;將所述特征維度進行融合,并發(fā)送至聲學(xué)模型,實現(xiàn)模型的訓(xùn)練和預(yù)測。一種基于注意力機制特征處理網(wǎng)絡(luò)結(jié)構(gòu),實現(xiàn)更高精度的語音識別效果。
上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠更明顯易懂,以下特舉本發(fā)明的具體實施方式。
附圖說明
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中航華東光電(上海)有限公司,未經(jīng)中航華東光電(上海)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310088585.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





