[發明專利]一種基于音素的語種區分性特征的語種識別方法在審
| 申請號: | 202210096847.9 | 申請日: | 2022-01-26 |
| 公開(公告)號: | CN115019775A | 公開(公告)日: | 2022-09-06 |
| 發明(設計)人: | 龍華;蘇樹盟;邵玉斌;杜慶治;黃張衡;段云;王延凱 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/16;G10L15/18 |
| 代理公司: | 昆明明潤知識產權代理事務所(普通合伙) 53215 | 代理人: | 王鵬飛 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 音素 語種 區分 特征 識別 方法 | ||
本發明涉及一種基于音素的語種區分性特征的語種識別方法,屬于音頻信號處理技術領域。本發明先從TIMIT數據集中抽離出音素集,對音素集構建了音素語音學區分性特征,采用音素語音學區分性特征訓練并測試音素識別器,輸出音頻的幀級音素概率向量;再從LibriVox音頻數據庫獲取多語種語料,針對多語種語料對TIMIT數據集中抽離出音素集進行音素擴充,輸出語種短時完整語義語音段的幀音素概率特征;最后根據音素識別器輸出的不同語種的幀音素概率特征構建語音段音素概率特征,進而構建語音段語種區分性特征。本發明可在經典的二維卷積神經網絡中進行語種識別,獲得較高識別率的語種識別結果。
技術領域
本發明涉及一種基于音素的語種區分性特征的語種識別方法,屬于音頻信號處理技術領域。
背景技術
傳統的語種識別方法通常是將語音在幀級別上進行語音降維,提取一系列音頻的聲學特征,包括MFCC特征,SDC特征,GFCC特征,BFCC特征,PLP特征,LPCC特征,i-vector特征等。音頻的聲學特征參數包含了語音豐富的時序信息,在包含語種識別的大多數語音和聲學模式識別問題中運用廣泛。
作為語音學模式識別問題,語種識別采用一系列音頻的聲學特征參數、音頻的聲學特征參數的衍生參數、音頻的聲學特征參數的融合特征參數等作為主流的識別特征。雖然主流特征在特定的語料下與一些分類系統模型相結合取得了較好的效果,但這些特征在真實的聲學環境中難以取得理想的識別結果,因為這些聲學特征中包含很多環境特征、說話人特征,極大的降低了聲學特征中的語種區分性信息特征的占比。
傳統的基于音素的語種識別一般采用的方法分3個模塊,音素識別模塊,音素語種區分性特征構建模塊,語種信息分類模塊。其中,音素識別模塊,以神經網絡的方式直接對音素集進行訓練,采用訓練好的模型構建音素識別器;這種識別方法常常采用輸入語音聲學特征的方式,音素識別的結果會受到說話人和信道干擾因素的影響。
音素語種區分性特征構建模塊,采用具有連貫聲學特性的類音素取代語音學音素構建音素語音學特征;與語音學音素相比,以最小化語言片段失真度測量的類因素的語音辨識度大幅度降低。
語種信息分類模塊,基于語音特征的二維語音特征重構的卷積神經網絡比高斯混合模型GMM的分類性能更加優越,但是這種基于二維語音特征重構僅應用于語音語譜圖或這語音聲學特征的二維圖譜,在音頻語音學特征中為尚未被使用。
發明內容
本發明要解決的技術問題是提供一種基于音素的語種區分性特征的語種識別方法,用以解決上述問題。
本發明的技術方案是:一種基于音素的語種區分性特征的語種識別方法,構建了TIMIT音素集的音素區分性特征,通過GMM得分判定構建出輸出幀音素概率特征向量的音素識別器,進一步采用音素識別器識別多語種的幀音素概率向量,依據輸出的多語種幀音素概率向量的信息熵做TIMIT集外音素擴充,并且以語音段為單位推導語音段的音素向量及音素概率向量,采用語音段的音素向量及音素概率向量分別求語音段的n-gram元法的音素后驗概率向量組合作為音素區分性信息,基于音素的語音學特征構造了多語種的語種區分性的特征,最后將所構造的音素語種區分性信息轉為灰度圖,采用經典的殘差神經網絡Resnet進行語種識別,以獲得較高識別率的語種識別結果。
具體步驟為:
Stepl:首先獲取LibriVox音頻數據,再采用短時譜熵、短時能量,短時過零率參數進行完整語義短時語音段切分。
Step2:讀入TIMIT數據集,依據TIMIT數據集合中的手動標記信息提取音素集合。
Step3:依據音素集合中的音素基音頻率信息、共振峰頻率信息構造音素區分性特征。
Step4:利用GMM模型對音素區分性特征進行訓練和測試,構建幀級的音素識別器。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210096847.9/2.html,轉載請聲明來源鉆瓜專利網。





