[發明專利]一種基于注意力特征處理網絡的中文語音識別方法在審
| 申請號: | 202310088585.6 | 申請日: | 2023-01-29 |
| 公開(公告)號: | CN116189662A | 公開(公告)日: | 2023-05-30 |
| 發明(設計)人: | 王春艷;許召輝;呂榮闖;范光宇;饒蕾 | 申請(專利權)人: | 中航華東光電(上海)有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/06;G10L15/20;G10L15/22 |
| 代理公司: | 上海樂泓專利代理事務所(普通合伙) 31385 | 代理人: | 張雪 |
| 地址: | 201114 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 注意力 特征 處理 網絡 中文 語音 識別 方法 | ||
1.一種基于注意力特征處理網絡的中文語音識別方法,其特征在于,所述語音識別方法包括:
獲取用于訓練的語音信號,提取語譜圖特征;
在初始的所述語譜圖特征中篩選關鍵特征信息;
將所述關鍵特征信息分別進行放大特征維度;
進行一次判斷,判斷上采樣后的特征圖維度是否滿足條件;
如果滿足,放大后的特征維度不等于初始時輸入的特征維度,則繼續執行上采樣放大操作;
將所述特征維度進行融合,并發送至聲學模型,實現模型的訓練和預測。
2.根據權利要求1所述的一種基于注意力特征處理網絡的中文語音識別方法,其特征在于,所述獲取用于訓練的語音信號,提取語譜圖特征具體包括:將用于訓練的語音信號進行分幀、加窗操作,提取到語譜圖特征。
3.根據權利要求1所述的一種基于注意力特征處理網絡的中文語音識別方法,其特征在于,所述語譜圖特征為用于語音識別的特征。
4.根據權利要求1所述的一種基于注意力特征處理網絡的中文語音識別方法,其特征在于,所述在初始的所述語譜圖特征中篩選關鍵特征信息具體包括:將初始的所述語譜圖特征輸入到卷積層操作中進行壓縮操作,實現對關鍵特征信息的篩選。
5.根據權利要求1所述的一種基于注意力特征處理網絡的中文語音識別方法,其特征在于,所述將所述關鍵特征信息分別進行放大特征維度具體包括:將多次壓縮之后的特征信息分別進行某種上采樣操作實現特征維度的放大。
6.根據權利要求1所述的一種基于注意力特征處理網絡的中文語音識別方法,其特征在于,所述將所述特征維度進行融合,并發送至聲學模型,實現模型的訓練和預測具體包括:滿足判斷條件之后,將多層編碼層的輸出經過上采樣之后,實現融合;
輸出融合之后的特征信息,輸送至聲學模型,實現模型的訓練和預測。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中航華東光電(上海)有限公司,未經中航華東光電(上海)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310088585.6/1.html,轉載請聲明來源鉆瓜專利網。





