[發明專利]多語種混說語音的語種識別方法及裝置在審
| 申請號: | 202010043379.X | 申請日: | 2020-01-15 |
| 公開(公告)號: | CN113205795A | 公開(公告)日: | 2021-08-03 |
| 發明(設計)人: | 陳運兵 | 申請(專利權)人: | 普天信息技術有限公司 |
| 主分類號: | G10L15/00 | 分類號: | G10L15/00;G10L15/02;G10L15/06;G10L15/08;G10L15/26 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 王瑩 |
| 地址: | 100080 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語種 語音 識別 方法 裝置 | ||
本發明實施例提供一種多語種混說語音的語種識別方法及裝置,所述方法包括:對待識別多語種混說語音數據進行端點檢測,得到多幀語音狀態信息;將所有的語音狀態信息輸入至語種識別模型,輸出所述待識別多語種混說語音數據中每一幀語音狀態信息所屬的語種;其中,所述語種識別模型是基于多語種混說語音樣本以及預先確定的多語種混說語音樣本中每一幀語音狀態信息所屬的語種進行訓練后得到。本發明實施例提供的多語種混說語音的語種識別方法及裝置,通過縮減人工預處理和后續處理,以原始語音波形作為輸入,將特征提取和分類建立一體化結構模型,盡可能簡化模型從原始輸入到最終輸出的步驟,增加模型的整體契合度,提高了語種識別的準確率。
技術領域
本發明涉及語音識別技術領域,尤其涉及一種多語種混說語音的語種識別方法及裝置。
背景技術
語種識別是通過計算機識別出一段語音段所屬語言的過程。在工作和日常生活中,多語種混說的現象越來越常見,而這給單一語言的語音識別帶了巨大困難。
現有技術中,語種識別主要分為三個過程,首先根據語音信號進行特征提取,然后建立語種識別模型,最后是對測試語音進行語種判決。傳統的語種識別系統包括基于HMM等機器學習的語種識別、基于音素識別器的語種識別、基于底層聲學特征的語種識別等。
但是,現有技術中的語種識別局限于聲學的研究和建模的不足,導致語種識別系統的復雜較高,并且語種識別的準確率有待提高。
發明內容
本發明實施例提供一種多語種混說語音的語種識別方法及裝置,用于解決現有技術中的上述技術問題。
為了解決上述技術問題,一方面,本發明實施例提供一種多語種混說語音的語種識別方法,包括:
對待識別多語種混說語音數據進行端點檢測,得到多幀語音狀態信息;
將所有的語音狀態信息輸入至語種識別模型,輸出所述待識別多語種混說語音數據中每一幀語音狀態信息所屬的語種;
其中,所述語種識別模型是基于多語種混說語音樣本以及預先確定的多語種混說語音樣本中每一幀語音狀態信息所屬的語種進行訓練后得到。
進一步地,將所有的語音狀態信息輸入至語種識別模型,輸出所述待識別多語種混說語音數據中每一幀語音狀態信息所屬的語種,具體包括:
將所有的語音狀態信息輸入至所述語種識別模型中的編碼端,輸出每一幀語音狀態信息的高維語音特征;
將所有的高維語音特征輸入至所述語種識別模型中的解碼端,輸出每一幀語音狀態信息所屬的語種。
進一步地,所述編碼端由卷積層和全連接層組成,所述編碼端的激活函數為線性整流函數。
進一步地,所述編碼端中的卷積層的層數為四層;
所述編碼端中的全連接層的層數為兩層。
進一步地,所述解碼端為注意力機制。
進一步地,將所有的高維語音特征輸入至所述語種識別模型中的解碼端,輸出每一幀語音狀態信息所屬的語種,具體包括:
將所有的高維語音特征輸入至所述解碼端的Attend函數,輸出每一語音狀態信息的歸一化權重;
根據所有的高維語音特征和所有的歸一化權重,確定注意力向量;
基于所述注意力向量,利用Softmax函數確定每一幀語音狀態信息所屬的語種。
進一步地,利用如下公式確定所述注意力向量:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于普天信息技術有限公司,未經普天信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010043379.X/2.html,轉載請聲明來源鉆瓜專利網。





