[發(fā)明專利]基于集成特征和神經(jīng)網(wǎng)絡(luò)的語音可視化方法無效
| 申請?zhí)枺?/td> | 201110200635.2 | 申請日: | 2011-07-18 |
| 公開(公告)號: | CN102231281A | 公開(公告)日: | 2011-11-02 |
| 發(fā)明(設(shè)計)人: | 韓志艷;倫淑嫻;王健;王東;于忠黨;王巍;邰治新 | 申請(專利權(quán))人: | 渤海大學(xué) |
| 主分類號: | G10L21/06 | 分類號: | G10L21/06 |
| 代理公司: | 錦州遼西專利事務(wù)所 21225 | 代理人: | 李輝 |
| 地址: | 121000 遼寧省*** | 國省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 集成 特征 神經(jīng)網(wǎng)絡(luò) 語音 可視化 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種漢語普通話的可視化方法,特別涉及一種基于集成特征和神經(jīng)網(wǎng)絡(luò)的語音可視化方法。
背景技術(shù)
語音是語言的聲學(xué)表現(xiàn),是人類交流信息最自然、最有效、最方便的手段,也是人類思維的一種依托。而對聾啞人來說,語言交流變成一件很難實現(xiàn)的事情,一部分聾啞人不能說話是因為他們的聽覺器官遭到破壞,不能將語音信息采集到大腦。研究表明,人類聽覺系統(tǒng)和視覺系統(tǒng)是兩個性質(zhì)不同的并具有互補(bǔ)性的信息系統(tǒng),視覺系統(tǒng)是一個高度并行的信息接收和處理系統(tǒng),人類眼球中視網(wǎng)膜上的數(shù)百萬個錐狀細(xì)胞通過纖維狀神經(jīng)組織與大腦相連,形成一個高度并行的信道,視覺信道接受信息的速率是很高的,據(jù)測量和估算,看電視時的信息接收速率大致可達(dá)到2×104b/s,這比聽覺系統(tǒng)聽語音時的信息接收速度高出上千倍,因此人們相信人類所獲得的信息有70%是通過視覺獲得的說法。所以對于聾啞人人來說,這無疑就是一個很大的助手,聽覺的缺陷由視覺來補(bǔ)償,語音不僅能聽見,還可以通過多種其他形式使聾啞人“看”見。
1947年R.K.Potter和G.A.Kopp等人就提出了一種可視化方法—語譜圖,隨后有不同的語音研究專家開始研究改進(jìn)這種語音可視化方法,比如在1976年L.C.Stewart等人提出了有色譜圖和1984年G.M.Kuhn等人提出了對聾人進(jìn)行訓(xùn)練的實時的語譜圖系統(tǒng),以及1986年P(guān).E.Stern、1998年F.Plante和2008年R.Steinberg等人也提出了許多語譜圖的改進(jìn)方法,但是顯示的語譜圖的專業(yè)性很強(qiáng),而且很難辨別記憶。尤其是對于同一個語音不同的人來說,甚至是同一個語音同一個人來說都有可能造成語譜圖的變化,對于不同環(huán)境下錄制的語音信號其魯棒性能更為不好。
此外,還有一些學(xué)者對人的發(fā)音器官的運動變化以及面部表情的變化來實現(xiàn)語音可視化,有效地剖析了人的發(fā)音過程,但就其語音可懂度而言,還難以達(dá)到理想效果,除極少數(shù)專家以外,人們很難直接通過觀察發(fā)音器官的運動和面部表情的變化而準(zhǔn)確地感知語音。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是提供一種簡單易懂且高魯棒性的基于集成特征和神經(jīng)網(wǎng)絡(luò)的語音可視化方法,通過該方法可幫助聽力障礙者進(jìn)行語言訓(xùn)練,建立、完善聽覺認(rèn)知,形成正確的言語反射,重建聽覺言語鏈,可以最大可能的恢復(fù)自身的語音功能。
一種基于集成特征和神經(jīng)網(wǎng)絡(luò)的語音可視化方法,包括以下步驟:
1、語音信號預(yù)處理
通過麥克風(fēng)輸入語音信號,由處理單元采樣量化后獲得相應(yīng)語音數(shù)據(jù),然后進(jìn)行預(yù)加重、分幀加窗和端點檢測;
2、特征提取
(2.1)?采用基于Hilbert-Huang變換的方法來估算預(yù)處理后的語音信號共振峰頻率;
(2.2)?計算出預(yù)處理后語音信號的基音頻率曲線的一次斜率、二次斜率、曲線的谷點和曲線的平坦度作為聲調(diào)特征參數(shù);
(2.3)計算出基于MUSIC和感知特性的魯棒特征參數(shù)(PMUSIC-MFCC):PMUSIC-MFCC1~PMUSIC-MFCC?12;
(2.4)計算出基于小波包變換的語音信號魯棒特征參數(shù)(WPTC):WPTC1~WPTC20;
3、特征優(yōu)化
采用基于正交實驗設(shè)計的語音識別特征參數(shù)優(yōu)化的方法對所述的PMUSIC-MFCC1~PMUSIC-MFCC?12和WPTC1~WPTC20進(jìn)行優(yōu)化,得到優(yōu)化特征參數(shù)組合;
4、神經(jīng)網(wǎng)絡(luò)設(shè)計
所述的神經(jīng)網(wǎng)絡(luò)是由神經(jīng)網(wǎng)絡(luò)Ⅰ和神經(jīng)網(wǎng)絡(luò)Ⅱ組成,其中神經(jīng)網(wǎng)絡(luò)Ⅰ的輸入層有4個神經(jīng)元,輸出層有2個神經(jīng)元,神經(jīng)網(wǎng)絡(luò)Ⅱ的輸入層的數(shù)量與優(yōu)化特征參數(shù)組合的數(shù)量相同,輸出層有n個神經(jīng)元,n為7、8或9;
5、位置信息映射
將優(yōu)化特征參數(shù)組合作為神經(jīng)網(wǎng)絡(luò)Ⅱ的輸入,將特征編成具有m個碼的方陣,2n-1≤m≤2n,按著由左到右、由上到下的順序依次對應(yīng)著圖像中的一個位置并用“0”、“1”組合進(jìn)行編碼,每個位置對應(yīng)一個無調(diào)單語音;
6、主顏色編碼
采用共振峰特征來對主顏色信息進(jìn)行編碼,把所有的共振峰特征值F1、F2、F3分別求平均值,然后通過R=5F1/F3、G=3F3/5F2、B=F2/3F1,將其轉(zhuǎn)換成主顏色信息;
7、圖案信息編碼
采用聲調(diào)特征來對圖案信息進(jìn)行編碼,四個聲調(diào)特征參數(shù)作為神經(jīng)網(wǎng)絡(luò)Ⅰ的輸入,神經(jīng)網(wǎng)絡(luò)Ⅰ的輸出即為相應(yīng)的圖案信息,用00、01、10、11分別表示陰平、陽平、上聲和去聲;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于渤海大學(xué),未經(jīng)渤海大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110200635.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 硬件神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法、計算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡(luò)
- 神經(jīng)網(wǎng)絡(luò)的生成方法、生成裝置和電子設(shè)備
- 一種舌診方法、裝置、計算設(shè)備及計算機(jī)存儲介質(zhì)
- 學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
- 脈沖神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法及相關(guān)轉(zhuǎn)換芯片
- 圖像處理方法、裝置、可讀存儲介質(zhì)和計算機(jī)設(shè)備
- 一種適應(yīng)目標(biāo)數(shù)據(jù)集的網(wǎng)絡(luò)模型微調(diào)方法、系統(tǒng)、終端和存儲介質(zhì)
- 用于重構(gòu)人工神經(jīng)網(wǎng)絡(luò)的處理器及其操作方法、電氣設(shè)備
- 一種圖像神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化方法及裝置





