[發明專利]基于發音過程中生理信息的自動語音識別方法在審
| 申請號: | 201611243868.X | 申請日: | 2016-12-29 |
| 公開(公告)號: | CN106782503A | 公開(公告)日: | 2017-05-31 |
| 發明(設計)人: | 王建榮;高應磊;于健;喻梅;徐天一;趙滿坤 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/14;G10L15/24 |
| 代理公司: | 天津市北洋有限責任專利代理事務所12201 | 代理人: | 程小艷 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 發音 過程 生理 信息 自動 語音 識別 方法 | ||
1.基于發音過程中生理信息的自動語音識別方法,其特征在于,具體包括如下步驟:
步驟一:預處理訓練數據;
步驟二:語音信號處理,提取語音信號特征參數;
步驟三:選擇磁共振圖像視頻主要特征區域,提取出特征區域的圖像特征參數;
步驟四:融合上述步驟二中語音信號特征參數與步驟三中圖像特征參數,獲得融合特征參數;
步驟五:采用上述步驟四融合特征參數進行語音識別模型訓練,獲得語音識別模型;
步驟六:使用上述步驟五獲得語音識別模型進行語音識別,通過與人工標注的語音數據進行比對識別準確性,同時將結果與純語音信號的語音識別系統性能進行比較。
2.根據權利要求1所述的方法,其特征在于,所述步驟一中預處理訓練數據是采用對文本進行人工標注,獲得標注文件;具體步驟:首先是聽取語音數據,對其中顯而易見的誤讀等人為造成的與語音文本不符的錯誤修改,使用GoldWave對其進行靜音操作,即將其變為沉默時間,這個過程應保證語音時間長度不變,以便與視頻相對應;然后進行對語音數據進行音素級別的標注,這個過程使用的是p2fa標注工具,通過文本與語音文件相對應生成音素標注文件;經過工具生成的標注文件需要在進行人工修正,以提升標注的準確性。
3.根據權利要求1所述的方法,其特征在于,所述步驟一中數據指的是F1、F5、M1、M3的語音數據,每個人包含92個語音數據文件,這些語音數據有對應的文本,4個被測試人員均按照文本朗讀,訓練數據與測試數據比例為9:1,即從中選取83個作為訓練數據,其余9個作為測試數據。
4.根據權利要求1所述的方法,其特征在于,所述步驟二中提取語音信號特征參數是將語音信號轉換到梅爾頻率倒譜域上,提取梅爾頻率倒譜系數MFCC參數作為語音信號特征參數,具體步驟包括:首先對信號進行預加重操作,增強信號,之后對信號進行分幀、加窗、快速傅里葉變換FFT將語音信號從時域轉換到頻域,便于分析信號,接下來將信號通過Mel濾波器組,將信號從頻域轉到倒譜域上,最后對倒譜域上的信號進行對數運算及離散余弦變換DCT獲得MFCC參數,對MFCC參數取一階、二階差分,再加上語音信號的幀能量,即為特征參數。
5.根據權利要求1所述的方法,其特征在于,所述步驟三選擇磁共振圖像視頻主要特征區域采用主成分分析的方法提取出特征區域的圖像特征參數;磁共振圖像參數屬于高維空間參數,圖像特征參數提取的具體步驟包括:離散余弦變換DCT、降維、插值、歸一化、加窗分幀以及再次降維處理。
6.根據權利要求1所述的方法,其特征在于,所述步驟五融合特征參數維數選擇66至87維。
7.根據權利要求1所述的方法,其特征在于,所述步驟五語音識別模型訓練是采用隱馬爾科夫模型訓練,進行多次迭代訓練,直至模型趨于平穩,獲得語音識別模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611243868.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種兒童機器人用的語音識別裝置
- 下一篇:語音識別方法和裝置





