[發(fā)明專利]一種基于DIVA神經(jīng)網(wǎng)絡(luò)模型的語(yǔ)音生成方法有效
| 申請(qǐng)?zhí)枺?/td> | 201210219670.3 | 申請(qǐng)日: | 2012-06-28 |
| 公開(公告)號(hào): | CN102789594A | 公開(公告)日: | 2012-11-21 |
| 發(fā)明(設(shè)計(jì))人: | 張少白;徐磊;劉欣 | 申請(qǐng)(專利權(quán))人: | 南京郵電大學(xué) |
| 主分類號(hào): | G06N3/08 | 分類號(hào): | G06N3/08 |
| 代理公司: | 南京經(jīng)緯專利商標(biāo)代理有限公司 32200 | 代理人: | 許方 |
| 地址: | 210003 江蘇*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 diva 神經(jīng)網(wǎng)絡(luò) 模型 語(yǔ)音 生成 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種語(yǔ)音生成方法,特別是一種基于DIVA神經(jīng)網(wǎng)絡(luò)模型的語(yǔ)音生成方法。
背景技術(shù)
隨著人工智能的發(fā)展,人們對(duì)這個(gè)領(lǐng)域的研究不斷深入。對(duì)類似真人發(fā)音的語(yǔ)音生成和獲取的控制,是機(jī)器人發(fā)音系統(tǒng)急需解決的問題。語(yǔ)音生成與獲取是一個(gè)涉及大腦諸多部位復(fù)雜的認(rèn)知過程,這個(gè)過程包括一種從依照句法和語(yǔ)法組織句子或短語(yǔ)的表述一直延伸到音素產(chǎn)生的分層結(jié)構(gòu),需要根據(jù)發(fā)聲時(shí)大腦中各種感官和運(yùn)動(dòng)區(qū)域的交互作用建立相應(yīng)的神經(jīng)網(wǎng)絡(luò)模型。目前DIVA(Directions?Into?Velocities?of?Articulators)模型就是一種關(guān)于語(yǔ)音生成與獲取后描述相關(guān)處理過程的數(shù)學(xué)模型,主要被用來仿真和描述有關(guān)大腦中涉及語(yǔ)音生成和語(yǔ)音理解區(qū)域的相關(guān)功能。也可以說它是一種為了生成單詞、音節(jié)或者音素,而用來控制模擬聲道運(yùn)動(dòng)的自適應(yīng)神經(jīng)網(wǎng)絡(luò)模型。在當(dāng)今真正具有生物學(xué)意義的語(yǔ)音生成和獲取的神經(jīng)網(wǎng)絡(luò)模型中,DIVA模型的定義和測(cè)試相對(duì)而言是最徹底的,并且是唯一一種應(yīng)用偽逆控制方案的模型。
人們對(duì)于人類語(yǔ)言能力的統(tǒng)一計(jì)算模型的需求推動(dòng)著DIVA模型的發(fā)展。這個(gè)模型自從由MIT大學(xué)語(yǔ)音實(shí)驗(yàn)室的Guenther1994年首次提出以來,近些年來不斷地被更新、完善和改進(jìn)。DIVA系統(tǒng)由語(yǔ)音通道模塊、耳蝸模塊、聽覺皮層模型模塊、聽覺皮層類別感知模塊、語(yǔ)音細(xì)胞集模塊、運(yùn)動(dòng)皮層模塊、聲道模塊、體覺皮質(zhì)模塊、感覺模塊和感覺通道模塊組成。
通過對(duì)DIVA模型的分析,我們可以發(fā)現(xiàn)其聽覺皮層類別感知模塊中所使用的分類方法是RBF。而RBF神經(jīng)網(wǎng)絡(luò)對(duì)樣本的依賴性很大,對(duì)于某一具體的研究問題,如何確定合適的隱含層節(jié)點(diǎn)數(shù),目前尚無通用有效的算法或者定理。人們更多的是憑借經(jīng)驗(yàn),反復(fù)試驗(yàn)來確定網(wǎng)絡(luò)的規(guī)模,這種試湊的方法非常繁瑣,不易找到合適的結(jié)構(gòu)。網(wǎng)絡(luò)隱含層的節(jié)點(diǎn)數(shù)對(duì)網(wǎng)絡(luò)的收斂速度、精度及泛化能力都有很大的影響。隱含層節(jié)點(diǎn)過多,雖可以完成訓(xùn)練,但會(huì)影響收斂速度,而且有可能出現(xiàn)過學(xué)習(xí);而隱含層節(jié)點(diǎn)過少,網(wǎng)絡(luò)不能充分學(xué)習(xí),達(dá)不到訓(xùn)練精度的要求。此外,RBF神經(jīng)網(wǎng)絡(luò)訓(xùn)練的時(shí)間也不夠快。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種發(fā)音精度高、學(xué)習(xí)速度快的基于DIVA神經(jīng)網(wǎng)絡(luò)模型的語(yǔ)音生成方法。
實(shí)現(xiàn)本發(fā)明目的的技術(shù)解決方案為:一種基于DIVA神經(jīng)網(wǎng)絡(luò)模型的語(yǔ)音生成方法,包括語(yǔ)音樣本提取、語(yǔ)音樣本分類與學(xué)習(xí)、語(yǔ)音輸出和修正輸出語(yǔ)音,所述語(yǔ)音樣本分類與學(xué)習(xí)采用自適應(yīng)生長(zhǎng)型神經(jīng)網(wǎng)絡(luò)(AGNN)實(shí)現(xiàn)對(duì)語(yǔ)音樣本的分類學(xué)習(xí),具體為:
步驟一、將提取的語(yǔ)音共振峰頻率通過雅克比行列式轉(zhuǎn)換為矩陣形式,該矩陣的特征向量的維數(shù)即輸入層候選神經(jīng)元的數(shù)目m;計(jì)算輸入層候選神經(jīng)元的適應(yīng)度函數(shù)值并按適應(yīng)度函數(shù)值遞增的順序排列候選神經(jīng)元,輸入層候選神經(jīng)元適應(yīng)度函數(shù)值的列表相應(yīng)的為S={Si1≤Si2≤…≤Sim},并按相應(yīng)的順序?qū)⒑蜻x神經(jīng)元放在列表X中,X=(x1,...,xm),所述適應(yīng)度函數(shù)計(jì)算公式為:
yi為實(shí)際輸出值,為目標(biāo)值,n為數(shù)據(jù)集中樣本的數(shù)目且n為自然數(shù);
步驟二、初始隱層神經(jīng)元個(gè)數(shù)r=0并設(shè)C0=Si1,C0為隱層神經(jīng)元個(gè)數(shù)r=0時(shí)的適應(yīng)度函數(shù)值;
步驟三、設(shè)r=r+1和p=r+1,其中r為第r個(gè)隱層候選神經(jīng)元,生成一個(gè)有p個(gè)輸入的隱層候選神經(jīng)元;
步驟四、若r>1,將該隱層候選神經(jīng)元分別連接到其前面所有的隱層神經(jīng)元和輸入節(jié)點(diǎn)x1上;否則把該隱層候選神經(jīng)元只連接到輸入節(jié)點(diǎn)x1上;
步驟五、設(shè)置下一個(gè)需要和新添加的隱層候選神經(jīng)元相連接的集合X中的元素所處的位置h的初始值為2,其中2≤h≤m,m、h為正整數(shù);將此隱層候選神經(jīng)元的第P個(gè)輸入連接到列表X中位置為h的輸入節(jié)點(diǎn)上;
步驟六、訓(xùn)練此隱層候選神經(jīng)元并計(jì)算它的適應(yīng)度函數(shù)值Cr,若Cr≥Cr-1,則執(zhí)行步驟七;若Cr<Cr-1則將此隱層候選神經(jīng)元連接到網(wǎng)絡(luò)中作為第r個(gè)隱層神經(jīng)元,再返回執(zhí)行步驟三至步驟六,直到第m個(gè)輸入層神經(jīng)元接入網(wǎng)絡(luò)中不滿足此條件為止;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京郵電大學(xué),未經(jīng)南京郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210219670.3/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 硬件神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法、計(jì)算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡(luò)
- 神經(jīng)網(wǎng)絡(luò)的生成方法、生成裝置和電子設(shè)備
- 一種舌診方法、裝置、計(jì)算設(shè)備及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
- 脈沖神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法及相關(guān)轉(zhuǎn)換芯片
- 圖像處理方法、裝置、可讀存儲(chǔ)介質(zhì)和計(jì)算機(jī)設(shè)備
- 一種適應(yīng)目標(biāo)數(shù)據(jù)集的網(wǎng)絡(luò)模型微調(diào)方法、系統(tǒng)、終端和存儲(chǔ)介質(zhì)
- 用于重構(gòu)人工神經(jīng)網(wǎng)絡(luò)的處理器及其操作方法、電氣設(shè)備
- 一種圖像神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化方法及裝置





