[發明專利]語種識別方法、裝置、電子設備和存儲介質有效

申請號：	202010187616.X	申請日：	2020-03-17
公開（公告）號：	CN111445898B	公開（公告）日：	2022-05-17
發明（設計）人：	方昕;李晉;劉俊華	申請（專利權）人：	科大訊飛股份有限公司
主分類號：	G10L15/00	分類號：	G10L15/00;G10L15/02;G10L15/06;G10L15/18
代理公司：	北京路浩知識產權代理有限公司 11002	代理人：	馬瑞
地址：	230088 安徽省***	國省代碼：	安徽;34
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	語種識別方法裝置電子設備存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明實施例提供一種語種識別方法、裝置、電子設備和存儲介質，其中方法包括：確定待識別語音數據；將待識別語音數據輸入至語種識別模型中，得到語種識別模型輸出的語種識別結果；語種識別模型是基于樣本語音數據、樣本語音數據的語種，以及多個語種的描述文本訓練得到的；多個語種包括集內語種和集外語種，集內語種為樣本語音數據的語種。本發明實施例提供的語種識別方法、裝置、電子設備和存儲介質，語種識別模型基于集內語種和集外語種的描述文本，對待識別語音數據進行語種識別，實現了包含集外語種在內的準確的語種識別。

技術領域

本發明涉及自然語言處理技術領域，尤其涉及一種語種識別方法、裝置、電子設備和存儲介質。

背景技術

語種識別是指機器根據輸入的語音數據，自動判斷該語音數據所屬的語言種類，例如漢語、英語、法語或日語等。

目前的語種識別方法，例如基于音素識別器的語種識別方法或者基于深度神經網絡的語種識別方法，均為針對閉集的語種識別方案，即僅能夠識別訓練集中的樣本語音所對應的語種。如果待識別的語音數據所對應的語種從未在訓練集中出現，則目前的語種識別方法無法準確識別出該語音數據的語種。

發明內容

本發明實施例提供一種語種識別方法、裝置、電子設備及存儲介質，用以解決現有語種識別方法無法識別不在訓練集中的語種的問題。

第一方面，本發明實施例提供一種語種識別方法，包括：

確定待識別語音數據；

將所述待識別語音數據輸入至語種識別模型中，得到所述語種識別模型輸出的語種識別結果；

其中，所述語種識別模型是基于樣本語音數據、所述樣本語音數據的語種，以及多個語種的描述文本訓練得到的；所述多個語種包括集內語種和集外語種，所述集內語種為所述樣本語音數據的語種。

可選地，所述語種識別模型用于確定所述待識別語音數據對應的語音語種表征向量，并基于所述語音語種表征向量以及所述多個語種的文本語種表征向量進行語種識別，任一語種的文本語種表征向量是基于所述任一語種的描述文本確定的。

可選地，所述將所述待識別語音數據輸入至語種識別模型中，得到所述語種識別模型輸出的語種識別結果，具體包括：

將所述待識別語音數據輸入至所述語種識別模型的語音語種表征層，得到所述語音語種表征層輸出的所述語音語種表征向量；

將所述語音語種表征向量和每一語種的文本語種表征向量輸入至所述語種識別模型的相似度判決層，得到所述相似度判決層輸出的所述語種識別結果。

可選地，所述將所述待識別語音數據輸入至所述語種識別模型的語音語種表征層，得到所述語音語種表征層輸出的所述語音語種表征向量，具體包括：

將所述待識別語音數據輸入至所述語音語種表征層的語音特征提取層，得到所述語音特征提取層輸出的語音特征向量；

將所述語音特征向量輸入至所述語音語種表征層的空間變換層，得到所述空間變換層輸出的所述語音語種表征向量。

可選地，所述語音語種表征層還包括語種分類層，所述語種分類層用于確定所述語音特征向量對應的語種；

所述語音特征提取層與所述語種分類層構成語種分類模型，所述語種分類模型是基于樣本語音數據，以及所述樣本語音數據的語種訓練得到的。

可選地，所述語音語種表征層構成語音語種表征模型，所述語音語種表征模型是基于樣本語音數據，以及所述樣本語音數據的語種的描述文本所對應的文本語種表征向量訓練得到的。

可選地，所述語音語種表征模型是基于樣本語音數據、所述樣本語音數據的語種的描述文本所對應的文本語種表征向量，以及語種表征判別器訓練得到的；

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于科大訊飛股份有限公司，未經科大訊飛股份有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010187616.X/2.html，轉載請聲明來源鉆瓜專利網。

同類專利

專利分類

G 物理

G10 樂器；聲學
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L15-00 語音識別
G10L15-02 .語音識別的特征提取；識別單位的選擇
G10L15-04 .分段或字極限檢測
G10L15-06 .創建基準模板；訓練語音識別系統，例如對說話者聲音特征的適應
G10L15-08 .語音分類或檢索
G10L15-20 .專門適用于不利環境

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】