[發明專利]一種語種識別方法以及語種識別設備有效
| 申請號: | 201710035625.5 | 申請日: | 2017-01-17 |
| 公開(公告)號: | CN108335693B | 公開(公告)日: | 2022-02-25 |
| 發明(設計)人: | 張大威;賁國生 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G10L15/00 | 分類號: | G10L15/00;G10L15/06;G10L15/02 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙) 44285 | 代理人: | 王仲凱 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語種 識別 方法 以及 設備 | ||
1.一種語種識別方法,其特征在于,包括:
獲取用于線下訓練的目標音視頻數據;
對所述目標音視頻數據進行特征提取,以獲取與所述目標音視頻數據對應的特征數據;
在所述特征數據中設置目標分類標簽,所述目標分類標簽為用于指示所述目標音頻數據的語種的標簽;
通過訓練網絡所包括的按層級排序的N層長短時記憶網絡LSTM依次對所述特征數據進行迭代訓練,以獲取目標訓練模型,所述目標訓練模型用于進行語種識別,所述進行語種識別包括:根據所述目標訓練模型和用于線上識別的音視頻數據的特征數據獲取目標分數,確定所述目標分數所屬的預設目標分數范圍,確定與所述預設目標分數范圍對應的語種識別結果信息。
2.根據權利要求1所述的方法,其特征在于,所述通過訓練網絡所包括的按層級排序的N層長短時記憶網絡LSTM依次對所述特征數據進行迭代訓練包括:
通過所述訓練網絡所包括的所述N層長短時記憶網絡LSTM依次對設置有所述目標分類標簽的所述特征數據進行迭代訓練,以獲取所述目標訓練模型。
3.根據權利要求1或2所述的方法,其特征在于,所述獲取所述目標音視頻數據包括:
獲取用于線下訓練的音視頻文件;
通過解碼器對所述音視頻文件進行解碼以生成音視頻數據;
通過話音激活檢測VAD過濾所述音視頻數據中的無效靜音段以生成所述目標音視頻數據。
4.一種語種識別方法,其特征在于,包括:
獲取用于線上識別的第一目標音視頻數據;
對所述第一目標音視頻數據進行特征提取,以獲取與所述第一目標音視頻數據對應的第一特征數據;
確定目標訓練模型,所述目標訓練模型為使用訓練網絡對第二特征數據進行訓練得到,所述訓練網絡包括按層級排序的N層長短時記憶網絡LSTM,所述N為大于等于2的正整數,所述第二特征數據為對獲取到的第二目標音視頻數據進行特征提取得到,所述第二特征數據中設置了目標分類標簽,所述目標分類標簽為用于指示目標音頻數據的語種的標簽;
根據所述目標訓練模型和所述第一特征數據獲取目標分數;
確定所述目標分數所屬的預設目標分數范圍,確定所述預設目標分數范圍對應的語種識別結果信息,所述語種識別結果信息用于指示所述第一目標音視頻數據所屬的語種。
5.根據權利要求4所述的方法,其特征在于,所述獲取用于線上識別的第一目標音視頻數據包括:
獲取用于線上識別的第一音視頻文件;
通過解碼器對所述第一音視頻文件進行解碼以生成第一音視頻數據;
通過話音激活檢測VAD過濾所述第一音視頻數據中的無效靜音段以生成所述第一目標音視頻數據。
6.根據權利要求4所述的方法,其特征在于,所述獲取用于線上識別的第一目標音視頻數據之前,所述方法還包括:
通過所述訓練網絡所包括的所述N層長短時記憶網絡LSTM依次對所述第二特征數據進行迭代訓練,以獲取所述目標訓練模型。
7.根據權利要求6所述的方法,其特征在于,所述通過所述訓練網絡所包括的所述N層長短時記憶網絡LSTM依次對所述第二特征數據進行迭代訓練包括:
通過所述訓練網絡所包括的所述N層長短時記憶網絡LSTM依次對設置有所述目標分類標簽的所述第二特征數據進行迭代訓練,以獲取所述目標訓練模型。
8.根據權利要求6或7所述的方法,其特征在于,所述獲取第二目標音視頻數據包括:
獲取用于線下訓練的第二音視頻文件;
通過解碼器對所述第二音視頻文件進行解碼以生成第二音視頻數據;
通過話音激活檢測VAD過濾所述第二音視頻數據中的無效靜音段以生成所述第二目標音視頻數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710035625.5/1.html,轉載請聲明來源鉆瓜專利網。





