[發明專利]一種語言類別的識別方法、裝置、電子設備及存儲介質有效

申請號：	202110186793.0	申請日：	2021-02-18
公開（公告）號：	CN112530456B	公開（公告）日：	2021-05-28
發明（設計）人：	萬同堂;王秋明	申請（專利權）人：	北京遠鑒信息技術有限公司
主分類號：	G10L25/24	分類號：	G10L25/24;G10L15/16
代理公司：	北京超凡宏宇專利代理事務所(特殊普通合伙) 11463	代理人：	劉鳳
地址：	100000 北京市海淀區***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種語言類別識別方法裝置電子設備存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種語言類別的識別方法，其特征在于，所述識別方法包括：

將待識別語音中各原始幀的梅爾倒譜特征向量輸入至預先訓練好的第一語言類別識別模型中，確定所述第一語言類別識別模型中的高階特征轉換層輸出的所述待識別語音中各合成幀的中間特征向量；

基于所述待識別語音中各合成幀的中間特征向量，確定所述待識別語音的高階特征向量；

將所述待識別語音的高階特征向量輸入至預先訓練好的第二語言類別識別模型中，確定所述待識別語音所屬的目標語言類別；其中，所述第一語言類別識別模型為神經網絡模型，所述第二語言類別識別模型為概率線性判斷分析模型；

所述將待識別語音中各原始幀的梅爾倒譜特征向量輸入至預先訓練好的第一語言類別識別模型中，確定所述第一語言類別識別模型中的高階特征轉換層輸出的所述待識別語音中各合成幀的中間特征向量，包括：

針對所述待識別語音的每個原始幀，根據該原始幀的梅爾倒譜特征向量，以及與該原始幀相鄰的預設數量的其他原始幀的梅爾倒譜特征向量，更新該原始幀的梅爾倒譜特征向量；

根據所述待識別語音中各原始幀的更新后的梅爾倒譜特征向量，以及預設的每個合成幀包含的原始幀的數量，確定所述高階特征轉換層輸出的所述待識別語音中各合成幀的中間特征向量；

所述基于所述待識別語音中各合成幀的中間特征向量，確定所述待識別語音的高階特征向量，包括：

基于所述待識別語音中各合成幀的中間特征向量，確定所述待識別語音的合成特征向量；

基于所述待識別語音的合成特征向量，以及預設的投影矩陣，確定所述待識別語音的高階特征向量；其中，所述高階特征向量的維度小于所述合成特征向量的維度；所述投影矩陣用于降低合成特征向量的維度；

其中，所述基于所述待識別語音中各合成幀的中間特征向量，確定所述待識別語音的合成特征向量，包括：

將待識別語音中各合成幀的中間特征向量進行拼接，得到待識別語音的合成特征向量。

2.根據權利要求1所述的語言類別的識別方法，其特征在于，通過如下方式對所述第一語言類別識別模型進行訓練：

獲取多個樣本語音，以及各個樣本語音被標記的標準語言類別；

針對每個樣本語音，將該樣本語音的各原始幀的梅爾倒譜特征向量輸入至第一初始語言類別識別模型中，確定該樣本語音所屬的第一預測語言類別；

根據每個樣本語音所屬的第一預測語言類別，以及該樣本語音被標記的標準語言類別，確定該樣本語音對應的第一損失值；

若各個樣本語音對應的第一損失值均小于第一預設閾值，則將當前的第一初始語言類別識別模型確定為所述第一語言類別識別模型，否則，繼續對當前的第一初始語言類別識別模型進行訓練。

3.根據權利要求1所述的語言類別的識別方法，其特征在于，通過如下方式確定所述投影矩陣：

獲取多個樣本語音，以及各個樣本語音被標記的標準語言類別；

針對每個樣本語音，將樣本語音中各原始幀的梅爾倒譜特征向量輸入至所述第一語言類別識別模型中，確定該樣本語音的合成特征向量；

基于各個樣本語音的合成特征向量，以及各個樣本語音被標記的標準語言類別，計算類內聚散度矩陣和類間聚散度矩陣；

基于所述類內聚散度矩陣和類間聚散度矩陣，計算多個特征值，以及每個特征值對應的特征向量；其中，所述特征值的數量等于所述高階特征向量的維度；

基于每個特征值對應的特征向量，確定所述投影矩陣。

4.根據權利要求1所述的語言類別的識別方法，其特征在于，通過如下方式對所述第二語言類別識別模型進行訓練：

獲取多個樣本語音，以及各個樣本語音被標記的標準語言類別；

針對每個樣本語音，將樣本語音中各原始幀的梅爾倒譜特征向量輸入至所述第一語言類別識別模型中，確定該樣本語音的高階特征向量；

將該樣本語音的高階特征向量輸入至第二初始語言類別識別模型中，確定所述樣本語音所屬的第二預測語言類別；

根據每個樣本語音所屬的第二預測語言類別，以及該樣本語音被標記的標準語言類別，確定該樣本語音對應的第二損失值；

若各個樣本語音對應的第二損失值均小于第二預設閾值，則將當前的第二初始語言類別識別模型確定為所述第二語言類別識別模型，否則，繼續對當前的第二初始語言類別識別模型進行訓練。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于北京遠鑒信息技術有限公司，未經北京遠鑒信息技術有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110186793.0/1.html，轉載請聲明來源鉆瓜專利網。

上一篇：一種基于本地磁盤的存儲自動供給方法及系統
下一篇：喉栓式變推力發動機總體參數設計方法、裝置和設備

同類專利

專利分類

G 物理

G10 樂器；聲學
G10L 語音分析或合成；語音識別；音頻分析或處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】