[發明專利]一種語言類別的識別方法、裝置、電子設備及存儲介質有效
| 申請號: | 202110186793.0 | 申請日: | 2021-02-18 |
| 公開(公告)號: | CN112530456B | 公開(公告)日: | 2021-05-28 |
| 發明(設計)人: | 萬同堂;王秋明 | 申請(專利權)人: | 北京遠鑒信息技術有限公司 |
| 主分類號: | G10L25/24 | 分類號: | G10L25/24;G10L15/16 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 劉鳳 |
| 地址: | 100000 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語言 類別 識別 方法 裝置 電子設備 存儲 介質 | ||
1.一種語言類別的識別方法,其特征在于,所述識別方法包括:
將待識別語音中各原始幀的梅爾倒譜特征向量輸入至預先訓練好的第一語言類別識別模型中,確定所述第一語言類別識別模型中的高階特征轉換層輸出的所述待識別語音中各合成幀的中間特征向量;
基于所述待識別語音中各合成幀的中間特征向量,確定所述待識別語音的高階特征向量;
將所述待識別語音的高階特征向量輸入至預先訓練好的第二語言類別識別模型中,確定所述待識別語音所屬的目標語言類別;其中,所述第一語言類別識別模型為神經網絡模型,所述第二語言類別識別模型為概率線性判斷分析模型;
所述將待識別語音中各原始幀的梅爾倒譜特征向量輸入至預先訓練好的第一語言類別識別模型中,確定所述第一語言類別識別模型中的高階特征轉換層輸出的所述待識別語音中各合成幀的中間特征向量,包括:
針對所述待識別語音的每個原始幀,根據該原始幀的梅爾倒譜特征向量,以及與該原始幀相鄰的預設數量的其他原始幀的梅爾倒譜特征向量,更新該原始幀的梅爾倒譜特征向量;
根據所述待識別語音中各原始幀的更新后的梅爾倒譜特征向量,以及預設的每個合成幀包含的原始幀的數量,確定所述高階特征轉換層輸出的所述待識別語音中各合成幀的中間特征向量;
所述基于所述待識別語音中各合成幀的中間特征向量,確定所述待識別語音的高階特征向量,包括:
基于所述待識別語音中各合成幀的中間特征向量,確定所述待識別語音的合成特征向量;
基于所述待識別語音的合成特征向量,以及預設的投影矩陣,確定所述待識別語音的高階特征向量;其中,所述高階特征向量的維度小于所述合成特征向量的維度;所述投影矩陣用于降低合成特征向量的維度;
其中,所述基于所述待識別語音中各合成幀的中間特征向量,確定所述待識別語音的合成特征向量,包括:
將待識別語音中各合成幀的中間特征向量進行拼接,得到待識別語音的合成特征向量。
2.根據權利要求1所述的語言類別的識別方法,其特征在于,通過如下方式對所述第一語言類別識別模型進行訓練:
獲取多個樣本語音,以及各個樣本語音被標記的標準語言類別;
針對每個樣本語音,將該樣本語音的各原始幀的梅爾倒譜特征向量輸入至第一初始語言類別識別模型中,確定該樣本語音所屬的第一預測語言類別;
根據每個樣本語音所屬的第一預測語言類別,以及該樣本語音被標記的標準語言類別,確定該樣本語音對應的第一損失值;
若各個樣本語音對應的第一損失值均小于第一預設閾值,則將當前的第一初始語言類別識別模型確定為所述第一語言類別識別模型,否則,繼續對當前的第一初始語言類別識別模型進行訓練。
3.根據權利要求1所述的語言類別的識別方法,其特征在于,通過如下方式確定所述投影矩陣:
獲取多個樣本語音,以及各個樣本語音被標記的標準語言類別;
針對每個樣本語音,將樣本語音中各原始幀的梅爾倒譜特征向量輸入至所述第一語言類別識別模型中,確定該樣本語音的合成特征向量;
基于各個樣本語音的合成特征向量,以及各個樣本語音被標記的標準語言類別,計算類內聚散度矩陣和類間聚散度矩陣;
基于所述類內聚散度矩陣和類間聚散度矩陣,計算多個特征值,以及每個特征值對應的特征向量;其中,所述特征值的數量等于所述高階特征向量的維度;
基于每個特征值對應的特征向量,確定所述投影矩陣。
4.根據權利要求1所述的語言類別的識別方法,其特征在于,通過如下方式對所述第二語言類別識別模型進行訓練:
獲取多個樣本語音,以及各個樣本語音被標記的標準語言類別;
針對每個樣本語音,將樣本語音中各原始幀的梅爾倒譜特征向量輸入至所述第一語言類別識別模型中,確定該樣本語音的高階特征向量;
將該樣本語音的高階特征向量輸入至第二初始語言類別識別模型中,確定所述樣本語音所屬的第二預測語言類別;
根據每個樣本語音所屬的第二預測語言類別,以及該樣本語音被標記的標準語言類別,確定該樣本語音對應的第二損失值;
若各個樣本語音對應的第二損失值均小于第二預設閾值,則將當前的第二初始語言類別識別模型確定為所述第二語言類別識別模型,否則,繼續對當前的第二初始語言類別識別模型進行訓練。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京遠鑒信息技術有限公司,未經北京遠鑒信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110186793.0/1.html,轉載請聲明來源鉆瓜專利網。





