[發(fā)明專利]一種基于DIVA神經(jīng)網(wǎng)絡(luò)模型的漢語元音發(fā)音方法有效

申請?zhí)枺?/td>	201210239129.9	申請日：	2012-07-10
公開（公告）號：	CN102880906A	公開（公告）日：	2013-01-16
發(fā)明（設(shè)計）人：	張少白;劉欣;徐磊;徐歆冰	申請（專利權(quán)）人：	南京郵電大學(xué)
主分類號：	G06N3/08	分類號：	G06N3/08;G06F3/14
代理公司：	南京經(jīng)緯專利商標(biāo)代理有限公司 32200	代理人：	許方
地址：	210003 江蘇省南京***	國省代碼：	江蘇;32
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種基于 diva 神經(jīng)網(wǎng)絡(luò) 模型漢語元音發(fā)音方法
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

技術(shù)領(lǐng)域

?????本發(fā)明涉及一種發(fā)音方法，更具體地說是一種基于DIVA神經(jīng)網(wǎng)絡(luò)模型的漢語元音發(fā)音方法。

背景技術(shù)

將大腦中的思維過程“閱讀出來,這一直是人類的一個夢想。波士頓大學(xué)語音實(shí)驗室的弗蘭克·岡瑟教授（Guenther.F.H.）提出的DIVA自適應(yīng)神經(jīng)網(wǎng)絡(luò)模型幫助人們實(shí)現(xiàn)了這一夢想。他發(fā)明的DIVA模型依賴的語音背景是英文的29個基本音素，圖5中給出了DIVA模型依賴的29個英文音素。對于以漢語為母語的中國人來講，要“閱讀”其思維過程，需要對漢語語音加工過程中的大腦機(jī)制進(jìn)行深入研究和討論。DIVA(Directions?Into?of?Articulators)模型是一種關(guān)于語音生成與獲取后描述相關(guān)處理過程的數(shù)學(xué)模型，主要用來仿真和描述有關(guān)大腦中涉及語音生成和語音理解區(qū)域的相關(guān)功能。可以說，它是一種為了生成單詞、音節(jié)或音素，用來控制模擬聲道運(yùn)動的自適應(yīng)神經(jīng)網(wǎng)絡(luò)模型。該網(wǎng)絡(luò)模型在計算機(jī)中學(xué)習(xí)控制模擬聲道的運(yùn)動，以產(chǎn)生相應(yīng)的語音。學(xué)習(xí)完成之后，模型能夠產(chǎn)生語音的任意組合。DIVA網(wǎng)絡(luò)模型為許多長期研究的語音生成現(xiàn)象包括運(yùn)動等效、語境變化、說話時速度的影響、預(yù)期的協(xié)同發(fā)音和結(jié)轉(zhuǎn)協(xié)同發(fā)音提供了一個統(tǒng)一的解釋。

對于人類語言能力統(tǒng)一計算模型的需求推動著DIVA模型的發(fā)展，自岡瑟教授在1994年首次提出DIVA網(wǎng)絡(luò)模型以來涌現(xiàn)出了不少新的版本，不同版本的DIVA模型大致地反映了神經(jīng)解剖學(xué)和大腦有關(guān)區(qū)域的關(guān)聯(lián)性。到目前為止，DIVA網(wǎng)絡(luò)的定義和測試相對而言仍然是最徹底的，并且是唯一應(yīng)用偽逆控制方案的模型，這種控制方案對于人類發(fā)音器官的運(yùn)動學(xué)數(shù)據(jù)提供了十分精確的解釋。

要讓DIVA模型“讀懂”中文發(fā)音者的思想，讓說漢語的人能將其思維過程用人工語音合成系統(tǒng)自然的表述出來，需要建立正確的映射關(guān)系，這涉及到兩方面的知識：

（1）漢語發(fā)音的腦機(jī)制研究和腦區(qū)成像研究；

（2）DIVA網(wǎng)絡(luò)模型對成像結(jié)果的再利用。

DIVA模型的語言基礎(chǔ)是英文的29個基本音素。對于母語為漢語的中國人來說DIVA模型是否也能完成中文語音生成和獲取的任務(wù)呢？漢語是一門有語調(diào)的語言，它不像英語的語音識別是通過僅憑音節(jié)的識別就能獲得很好的識別結(jié)果。對于漢語的識別，音調(diào)和韻律起著非常重要的作用。相同的音節(jié)不同的音調(diào)也會導(dǎo)致識別為不同的漢字。語音加工是語言認(rèn)知的核心功能，其腦機(jī)制是當(dāng)前研究者關(guān)心的重要問題，有關(guān)語音加工腦機(jī)制的研究，既包括聽覺通道中語音加工的腦機(jī)制，也包括視覺通道中語音加工的腦機(jī)制。這個過程涉及到不同語言持有者在說話的時候，其發(fā)音過程對大腦皮層中布洛卡(Broca)區(qū)以及相關(guān)區(qū)域的不同影響。一系列的實(shí)驗結(jié)果發(fā)現(xiàn)左側(cè)顳上回后部的威爾尼克區(qū)與語音理解有關(guān)，左側(cè)額下回的布洛卡區(qū)與語音產(chǎn)生有關(guān)。有多個腦區(qū)參與了聽覺和視覺通道中的語音加工過程，包括左側(cè)額下回、左側(cè)顳上回、左側(cè)頂下小葉、以及左側(cè)顳頂枕聯(lián)合區(qū)等腦區(qū)；而且某些腦區(qū)的功能似乎并不單一，例如左側(cè)額下回既負(fù)責(zé)語音復(fù)述又負(fù)責(zé)語音的短時儲存。各腦區(qū)在功能上不是孤立的，而是相互聯(lián)系與影響，構(gòu)成一個神經(jīng)網(wǎng)絡(luò)共同負(fù)責(zé)語音加工的過程。

如果將DIVA模型應(yīng)用到中文發(fā)音的語音合成任務(wù)中，就要對其已有的英文因素—腦區(qū)映射關(guān)系進(jìn)行重新考慮和修改，找到適合中文—腦區(qū)的映射關(guān)系。其中最重要的一個步驟就是漢語語音建模的問題。過去的幾十年里，在中文語音識別系統(tǒng)中，研究人員分別考慮用過不同粒度的建模單元，這其中包括：詞(word)、音節(jié)(syllable)、聲韻母(initial/final,IF）、音素(phoneme)等。

以詞或者音節(jié)為粒度去構(gòu)建建模單元集，往往會造成建模單元數(shù)目過于龐大，從而出現(xiàn)訓(xùn)練數(shù)據(jù)稀疏的問題，導(dǎo)致模型參數(shù)得不到充分而準(zhǔn)確的估計，而且還會使解碼的搜索空間增大，大大降低解碼效率，因此一般只適合用在一些小詞匯量的中文識別系統(tǒng)（如命令詞或者數(shù)字串識別系統(tǒng)）中。

以聲韻母構(gòu)建建模單元集，在一定程度上反映了中文語音學(xué)的知識和特點(diǎn)，并且被成功地用于搭建大詞匯量連續(xù)語音識別系統(tǒng)，也是目前被廣泛認(rèn)可的建模單元集。但是與英文音素建模單元集相比，聲韻母建模單元集的建模單元數(shù)目還是比較多，特別是在帶調(diào)的情況下。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費(fèi)下載。

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京郵電大學(xué)，未經(jīng)南京郵電大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201210239129.9/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種在光子微波信號發(fā)生器中調(diào)節(jié)產(chǎn)生多種形狀脈沖的方法
下一篇：相移光掩模制作方法

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06N 基于特定計算模型的計算機(jī)系統(tǒng)
G06N3-00 基于生物學(xué)模型的計算機(jī)系統(tǒng)
G06N3-02 .采用神經(jīng)網(wǎng)絡(luò)模型
G06N3-12 .采用遺傳模型
G06N3-06 ..物理實(shí)現(xiàn)，即神經(jīng)網(wǎng)絡(luò)、神經(jīng)元或神經(jīng)元部分的硬件實(shí)現(xiàn)
G06N3-08 ..學(xué)習(xí)方法

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

滑坡模型實(shí)驗?zāi)Ｐ图?/a>

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊】