[發明專利]一種基于頻譜包絡圖的可變時長語音的語種識別方法在審
| 申請號: | 202110238968.8 | 申請日: | 2021-03-04 |
| 公開(公告)號: | CN113112990A | 公開(公告)日: | 2021-07-13 |
| 發明(設計)人: | 龍華;王瑤;邵玉斌;杜慶治;王延凱;陳亮;唐維康 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G10L15/00 | 分類號: | G10L15/00;G10L15/04;G10L15/06;G10L15/18 |
| 代理公司: | 昆明明潤知識產權代理事務所(普通合伙) 53215 | 代理人: | 王鵬飛 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 頻譜 包絡 可變 語音 語種 識別 方法 | ||
1.一種基于頻譜包絡圖的可變時長語音的語種識別方法,其特征在于:
Step1:將不同語種的長段語音信號分割為短時語音,將短時語音信號的時長定義為t秒;
Step2:對于短時語音進行分幀、加窗函數,然后求出時長為t秒的短時語音的每一幀的頻譜包絡;
Step3:將同一短時語音的每一幀頻譜包絡組合起來,繪制出每段語音對應的頻譜包絡圖;
Step4:對生成的頻譜包絡圖進行濾波,使其頻率在500HZ到3000HZ的范圍內;
Step5:將每種語種的頻譜包絡圖按N:m分配為訓練集和測試集,并打上對應語種的標簽;
Step6:將訓練集擬合到殘差網絡,通過調整參數得到不同的語種識別模型,用測試集對這些語種識別模型進行測試,選出語種識別率最高的語種識別模型;
Step7:當待測語音的時長不等時,將這些語音信號分割為若干的短時語音信號,時長為t秒,再將每段長語音分割得到的若干短語音擬合到Step6中的語種識別模型中,通過統計這些短語音的識別情況來判別時長語音的語種。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110238968.8/1.html,轉載請聲明來源鉆瓜專利網。





