[發明專利]一種基于音素的語種區分性特征的語種識別方法在審
| 申請號: | 202210096847.9 | 申請日: | 2022-01-26 |
| 公開(公告)號: | CN115019775A | 公開(公告)日: | 2022-09-06 |
| 發明(設計)人: | 龍華;蘇樹盟;邵玉斌;杜慶治;黃張衡;段云;王延凱 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/16;G10L15/18 |
| 代理公司: | 昆明明潤知識產權代理事務所(普通合伙) 53215 | 代理人: | 王鵬飛 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 音素 語種 區分 特征 識別 方法 | ||
1.一種基于音素的語種區分性特征的語種識別方法,其特征在于:
Step1:首先獲取LibriVox音頻數據,再采用短時譜熵、短時能量,短時過零率參數進行完整語義短時語音段切分;
Step2:讀入TIMIT數據集,依據TIMIT數據集合中的手動標記信息提取音素集合;
Step3:依據音素集合中的音素基音頻率信息、共振峰頻率信息構造音素區分性特征;
Step4:利用GMM模型對音素區分性特征進行訓練和測試,構建幀級的音素識別器;
Step5:將完整語義短時語音段進行預處理并分幀,再將幀信號輸入音素識別器,輸出不同語種整語義短時語音段的幀音素概率向量;
Step6:在TIMIT音素集基礎上,根據不同語種語音幀音素概率的信息熵判斷擴充多語種音素集;
Step7:先根據語音段幀音素概率向量求語音段音素向量及語音段音素概率向量,再根據語音段音素向量及語音段音素概率向量求語音段的n-gram元法的音素概率向量,最后以語音段的n-gram元法的音素后驗概率向量組合作為音素區分性信息,完成語音段的音素語種區分性特征的構造;
Step8:先將二維的語音段的音素語種區分性特征轉為灰度圖,再采用經典的殘差神經網絡Resnet進行語種識別,最后獲得較高識別率的語種識別結果。
2.根據權利要求1所述的基于音素的語種區分性特征的語種識別方法,其特征在于,所述Step1具體為:
Step1.1:在采用幀長0.025s幀移0.001s的微幀的短時能量閾值、短時過零率閾值、短時譜熵閾值確定出語音段中一段理想的無話段;
Step1.2:根據所找的無話段短時能量與短時過零率確定語音的音節邊界;
Step1.3:依據邊界對音頻進行消除無話段并指定時長做無破壞切分。
3.根據權利要求1所述的基于音素的語種區分性特征的語種識別方法,其特征在于,所述Step6具體為:將多語種語音幀信號集輸入GMM音素識別器,根據得出的音素概率向量求幀音素概率向量的信息熵,根據信息熵判定擴充多語種擬合多語種音素。
4.根據權利要求1所述的基于音素的語種區分性特征的語種識別方法,其特征在于,所述Step7具體為:
Step7.1:求音素捆綁的多個幀的幀音素概率向量P(O)的最大值pi的平均值,將其作為語音段音素概率向量中對應音素的概率值;
Step7.2:求取語音段n-gram元法的音素概率向量;
Step7.3:求取l(l=1,2,3)元音素后驗概率[Pl];
Step7.4:將[Pl](l=1,2,3)拼接成一個q×3·q的二維矩陣[P]來作為語音段的音素語音學語種區分性特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210096847.9/1.html,轉載請聲明來源鉆瓜專利網。





