[發(fā)明專利]基于DIVA模型的帶聲調(diào)的漢語元音發(fā)音方法無效
| 申請(qǐng)?zhí)枺?/td> | 201310261128.9 | 申請(qǐng)日: | 2013-06-26 |
| 公開(公告)號(hào): | CN103310273A | 公開(公告)日: | 2013-09-18 |
| 發(fā)明(設(shè)計(jì))人: | 張少白;紀(jì)艷春 | 申請(qǐng)(專利權(quán))人: | 南京郵電大學(xué) |
| 主分類號(hào): | G06N3/02 | 分類號(hào): | G06N3/02 |
| 代理公司: | 南京經(jīng)緯專利商標(biāo)代理有限公司 32200 | 代理人: | 許方 |
| 地址: | 210003 江蘇*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 diva 模型 聲調(diào) 漢語 元音 發(fā)音 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種發(fā)音方法,更具體地說是一種基于DIVA神經(jīng)網(wǎng)絡(luò)模型的帶聲調(diào)的漢語元音發(fā)音方法。
背景技術(shù)
在神經(jīng)解剖學(xué)和神經(jīng)心理學(xué)層次上仿真和描述大腦中涉及語音生成和理解區(qū)域的相關(guān)功能,這是近來人工語音合成系統(tǒng)所追求的主要思想。語音生成與獲取是一個(gè)涉及大腦諸多部位復(fù)雜的認(rèn)知過程,這個(gè)過程包括一種從依照句法和語法組織句子或短語的表述一直延伸到音素產(chǎn)生的分層結(jié)構(gòu),需要根據(jù)發(fā)聲時(shí)大腦中各種感官和運(yùn)動(dòng)區(qū)域的交互作用建立相應(yīng)的神經(jīng)網(wǎng)絡(luò)模型。麻省理工學(xué)院MIT語音實(shí)驗(yàn)室的Guenther于1994年首次提出一種為了生成單詞、音節(jié)或者音素,而用來控制模擬聲道運(yùn)動(dòng)的語音生成與獲取模型,近些年來不斷地被更新、完善和改進(jìn)。該模型是由前饋和反饋控制子系統(tǒng)構(gòu)成的,具體包括:聲道模型、發(fā)音器官的位置及方向向量、規(guī)劃位置向量和規(guī)劃方向向量、語音發(fā)聲神經(jīng)元組、變換(映射)學(xué)習(xí)機(jī)制和控制機(jī)構(gòu)。模型的學(xué)習(xí)過程大體是:每次提供給模型一個(gè)新的語音作為一個(gè)語音樣本學(xué)習(xí)時(shí),語音映射單元中沒有被使用的一個(gè)細(xì)胞就會(huì)被激活來代表那個(gè)語音。語音被學(xué)習(xí)后,激活語音映射單元的細(xì)胞就會(huì)通過模型的前饋和反饋?zhàn)酉到y(tǒng)來產(chǎn)生相應(yīng)的語音。
DIVA模型現(xiàn)階段是用于英語的語音生成和獲取的模型,通過改進(jìn)DIVA模型實(shí)現(xiàn)帶聲調(diào)的漢語元音的正確發(fā)音,并仿真和描述有關(guān)大腦中涉及語音生成和語音理解區(qū)域的相關(guān)功能,對(duì)于中文發(fā)音的學(xué)習(xí)是很有必要的。
漢語與西方語言或其他亞洲語言相比,從語音學(xué)的觀點(diǎn)來看,有著明顯的特點(diǎn)。漢語的孤立字是由單音節(jié)和四聲(聲調(diào))構(gòu)成的,漢語的同一聲音有四種聲調(diào)而有四種不同的含意。漢語的這種聲調(diào)都表現(xiàn)在元音中,這就使元音和四聲有著密切的關(guān)系,聲調(diào)是一個(gè)音節(jié)之間基頻周期的變化。
聲調(diào)是漢語普通話最為主要的特征,其聲調(diào)情況直接決定了漢語發(fā)音質(zhì)量的好壞。音質(zhì)、音長、音強(qiáng)和基頻是聲音的四個(gè)要素,任何聲音都包含那四種要素,缺少其中任何一種聲音就不能存在,音質(zhì)、音長、音強(qiáng)和基頻是聲音的客觀屬性?;糁芷谑侵赴l(fā)濁音時(shí)相鄰聲門閉合點(diǎn)之間的時(shí)間長度,基音周期的倒數(shù)即基頻(F0),基頻是聲調(diào)的主要載體,雖然人們認(rèn)識(shí)到,嗓音特性也是區(qū)分聲調(diào)的重要音素,到目前為止,在言語工程應(yīng)用中,基頻仍然是任何聲調(diào)系統(tǒng)都不可或缺的最普遍、最重要的區(qū)別因素,是區(qū)分漢語聲調(diào)的最佳特征?;l的檢測(cè)和估計(jì)是語音信號(hào)處理的重要內(nèi)容,尤其在漢語語音處理中更是如此,這是因?yàn)闈h語的聲調(diào)主要體現(xiàn)在元音的基頻(F0)隨時(shí)間變化的軌跡上。本研究增加了DIVA模型中對(duì)基頻的控制來模擬漢語聲調(diào)的生成和獲取。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是提供一種基于DIVA模型的帶聲調(diào)的漢語元音發(fā)音方法,通過改變基頻和共振峰頻率來修改發(fā)音器官的的運(yùn)動(dòng)指令,進(jìn)而生成帶聲調(diào)的元音和相應(yīng)的大腦活動(dòng)區(qū)域。
為解決上述技術(shù)問題,本發(fā)明基于DIVA(Directions?Into?of?Articulators)模型的帶聲調(diào)的漢語元音發(fā)音方法,利用時(shí)域自相關(guān)算法提取漢語元音聲調(diào)基頻,采用LPC(Linear?Prediction?Coding,線性預(yù)測(cè)編碼)提取漢語元音前三個(gè)共振峰頻率,通過改變基頻和共振峰頻率來修改發(fā)音器官的的運(yùn)動(dòng)指令,進(jìn)而生成帶聲調(diào)的元音和相應(yīng)的大腦活動(dòng)區(qū)域,包括如下步驟:
步驟1、采集帶聲調(diào)的漢語元音,并獲取帶聲調(diào)的漢語元音的前三個(gè)共振峰頻率和基頻序列;
步驟2、把帶聲調(diào)的漢語元音的前三個(gè)共振峰頻率和基頻序列輸入到DIVA神經(jīng)網(wǎng)絡(luò)模型中,對(duì)該漢語元音進(jìn)行訓(xùn)練和學(xué)習(xí),語音映射單元中沒有被使用的一個(gè)細(xì)胞就會(huì)被激活來代表此語音,對(duì)于已經(jīng)學(xué)習(xí)過的語音,只需要激活對(duì)應(yīng)的語音映射細(xì)胞;
步驟3、被激活的語音映射單元的相應(yīng)細(xì)胞通過模型的前饋和反饋?zhàn)酉到y(tǒng)來產(chǎn)生相應(yīng)的語音。
優(yōu)選地,本發(fā)明基于DIVA模型的帶聲調(diào)的漢語元音發(fā)音方法中,所述步驟1中,獲取共振峰頻率的方法為基于線性預(yù)測(cè)LPC或倒譜法。
優(yōu)選地,本發(fā)明基于DIVA模型的帶聲調(diào)的漢語元音發(fā)音方法中,所述步驟1中,獲取基頻序列的方法為時(shí)域自相關(guān)算法。
本發(fā)明的基于DIVA模型的帶聲調(diào)的漢語元音發(fā)音方法,利用DIVA神經(jīng)網(wǎng)絡(luò)模型,在神經(jīng)解剖學(xué)和神經(jīng)心理學(xué)層次上仿真和描述了帶聲調(diào)的漢語元音生成和獲取的相關(guān)功能,實(shí)現(xiàn)對(duì)帶聲調(diào)的漢語元音發(fā)音的生成和獲取,對(duì)人工智能領(lǐng)域以及醫(yī)學(xué)領(lǐng)域語言障礙疾病的研究與發(fā)展具有重要意義。
附圖說明
圖1為現(xiàn)有的DIVA神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu)示意圖。
圖2為四種聲調(diào)基頻求解流程圖。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京郵電大學(xué),未經(jīng)南京郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310261128.9/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 移動(dòng)通信終端的聲調(diào)標(biāo)記方法
- 聲調(diào)識(shí)別方法和系統(tǒng)
- 聲音合成裝置
- 一種錯(cuò)誤自感知的聲調(diào)發(fā)音學(xué)習(xí)方法和系統(tǒng)
- 一種聲調(diào)評(píng)測(cè)方法
- 基于改進(jìn)聲調(diào)核模型的漢語語音聲調(diào)識(shí)別方法
- 彩色聲調(diào)顯示系統(tǒng)及其方法
- 一種聲調(diào)評(píng)估方法
- 基于彩色進(jìn)行聲調(diào)聯(lián)想的裝置和方法以及漢字發(fā)音變換規(guī)則顯示裝置和方法
- 識(shí)別語音詞匯的方法和系統(tǒng)





