[發(fā)明專利]基于MFCC和BP神經(jīng)網(wǎng)絡的說話人識別系統(tǒng)及方法有效
| 申請?zhí)枺?/td> | 202110266020.3 | 申請日: | 2021-03-11 |
| 公開(公告)號: | CN113053398B | 公開(公告)日: | 2022-09-27 |
| 發(fā)明(設計)人: | 高小清;張浩;劉浩;羅挺;劉年 | 申請(專利權)人: | 東風汽車集團股份有限公司 |
| 主分類號: | G10L17/18 | 分類號: | G10L17/18;G10L25/24;G10L25/30 |
| 代理公司: | 武漢開元知識產(chǎn)權代理有限公司 42104 | 代理人: | 李滿 |
| 地址: | 430056 湖北省武*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 mfcc bp 神經(jīng)網(wǎng)絡 說話 識別 系統(tǒng) 方法 | ||
本發(fā)明公開了基于MFCC和BP神經(jīng)網(wǎng)絡的說話人識別系統(tǒng),它的語音信號預處理模塊依次對語音信號進行分幀、選幀和預加重的信號預處理,語音信號加窗處理模塊對預處理后的語音信號進行加窗處理,頻譜分析模塊對加窗處理后的語音信號進行頻譜分析,濾波模塊對語音信號各幀頻譜的譜線能量進行美爾濾波處理,離散余弦變換模塊用于對美爾濾波后的語音信號各幀頻譜進行離散余弦變換;BP神經(jīng)網(wǎng)絡模塊生成BP神經(jīng)網(wǎng)絡訓練數(shù)據(jù)集,并為每個說話人分別建立對應的BP神經(jīng)網(wǎng)絡,對各個BP神經(jīng)網(wǎng)絡進行訓練。本發(fā)明提高了說話人識別的可靠性和準確性。
技術領域
本發(fā)明涉及語音識別技術領域,具體地指一種基于MFCC和BP 神經(jīng)網(wǎng)絡的說話人識別系統(tǒng)及方法。
背景技術
說話人識別,又稱聲紋識別,區(qū)別于語音識別。語音識別是要 確定語音的語義信息,而說話人識別是利用說話人的語音特征對說話 人的身份進行辨認或確認。
按照不同的應用目的,說話人識別可以分為說話人辨識和說話 人確認兩種。說話人辨認用來確定待識別的語音是哪一位注冊過的說 話人說的,而說話人確認用來確定待識別的語音是不是說話人所宣稱 的那個人說的。本專利屬于說話人辨認一類。
根據(jù)識別方式,說話人識別分為與文本有關和與文本無關兩種 方式。前者要求在識別時,說話人提供與訓練語音文本相同的關鍵詞 串或者語句,而后者則沒有這樣的要求,說話人說話內(nèi)容是任意的。 本專利屬于與文本無關的說話人識別。
日常生活中,人們能根據(jù)語音判定出是哪個人在說話,這說明 每個人的語音有區(qū)別于其他人的特征。MFCC參數(shù)可以很好的描述這 個特征。MFCC(Mel Frequency CepstrumCoefficient,美爾頻率倒譜 系數(shù)),Mel(美爾)是主觀音高的單位,而Hz(赫茲)則是客觀音高的單位。Mel頻率是基于人耳聽覺特性提出來的,它與赫茲頻率是 非線性關系。美爾頻率倒譜系數(shù)是利用它們之間的這種關系,計算得 到的倒譜特征。
專利《基于情感補償?shù)穆暭y識別方法》(專利號:CN101226742A) 公開了一種基于情感補償?shù)穆暭y識別方法,所提出的情感補償包括情 感檢測、特征補償、情感拓展三塊,擬依據(jù)情感檢測技術計算語音情 感因子,分別從特征與模型兩個層面對情感變化所引起的語音變化進 行補償,最終提高聲紋識別技術對情感變化的魯棒性。
該專利未通過分析語音發(fā)生機理和語音特征,對語音信號進行 選幀處理,從而減少訓練樣本量。該專利未建立識別結果的可靠性指 標。
發(fā)明內(nèi)容
本發(fā)明的目的就是要提供一種基于MFCC和BP神經(jīng)網(wǎng)絡的說話 人識別系統(tǒng)及方法,本發(fā)明通過分析語音發(fā)生機理和語音特征,提取 了更有效的能反映個體聲道差異的訓練樣本,避免了訓練樣本量過大 導致的BP神經(jīng)網(wǎng)絡訓練時間過長乃至無法進行進行訓練的弊端。
為實現(xiàn)此目的,本發(fā)明所設計的基于MFCC和BP神經(jīng)網(wǎng)絡的說 話人識別系統(tǒng),它包括語音信號預處理模塊、語音信號加窗處理模塊、 頻譜分析模塊、濾波模塊、離散余弦變換模塊、BP神經(jīng)網(wǎng)絡模塊和 實際場景說話人識別模塊,所述語音信號預處理模塊用于依次對語音 信號進行分幀、選幀和預加重的信號預處理,語音信號加窗處理模塊 用于對預處理后的語音信號進行加窗處理,頻譜分析模塊用于對加窗 處理后的語音信號進行頻譜分析得到語音信號各幀的頻譜,濾波模塊 用于對語音信號各幀頻譜的譜線能量進行美爾濾波處理,離散余弦變 換模塊用于對美爾濾波后的語音信號各幀頻譜進行離散余弦變換得 到語音信號的美爾頻率倒譜系數(shù);
BP神經(jīng)網(wǎng)絡模塊用于將所有需要身份識別的說話人語音數(shù)據(jù)分 為訓練集和測試集,利用訓練集中說話人語音數(shù)據(jù)的美爾頻率倒譜系 數(shù)生成BP神經(jīng)網(wǎng)絡訓練數(shù)據(jù)集,并為每個說話人分別建立對應的BP 神經(jīng)網(wǎng)絡,利用BP神經(jīng)網(wǎng)絡訓練集對各個BP神經(jīng)網(wǎng)絡進行訓練;
實際場景說話人識別模塊用于將實際場景中采集到的語音信號 的美爾頻率倒譜系數(shù)輸入到已完成訓練的各個對應BP神經(jīng)網(wǎng)絡中進 行實際場景說話人識別。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東風汽車集團股份有限公司,未經(jīng)東風汽車集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110266020.3/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 硬件神經(jīng)網(wǎng)絡轉換方法、計算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡
- 神經(jīng)網(wǎng)絡的生成方法、生成裝置和電子設備
- 一種舌診方法、裝置、計算設備及計算機存儲介質(zhì)
- 學習神經(jīng)網(wǎng)絡結構
- 脈沖神經(jīng)網(wǎng)絡轉換方法及相關轉換芯片
- 圖像處理方法、裝置、可讀存儲介質(zhì)和計算機設備
- 一種適應目標數(shù)據(jù)集的網(wǎng)絡模型微調(diào)方法、系統(tǒng)、終端和存儲介質(zhì)
- 用于重構人工神經(jīng)網(wǎng)絡的處理器及其操作方法、電氣設備
- 一種圖像神經(jīng)網(wǎng)絡結構的優(yōu)化方法及裝置





