[發(fā)明專利]一種基于DIVA神經(jīng)網(wǎng)絡(luò)模型的漢語元音發(fā)音方法有效
| 申請?zhí)枺?/td> | 201210239129.9 | 申請日: | 2012-07-10 |
| 公開(公告)號: | CN102880906A | 公開(公告)日: | 2013-01-16 |
| 發(fā)明(設(shè)計)人: | 張少白;劉欣;徐磊;徐歆冰 | 申請(專利權(quán))人: | 南京郵電大學(xué) |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08;G06F3/14 |
| 代理公司: | 南京經(jīng)緯專利商標(biāo)代理有限公司 32200 | 代理人: | 許方 |
| 地址: | 210003 江蘇省南京*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 diva 神經(jīng)網(wǎng)絡(luò) 模型 漢語 元音 發(fā)音 方法 | ||
技術(shù)領(lǐng)域
?????本發(fā)明涉及一種發(fā)音方法,更具體地說是一種基于DIVA神經(jīng)網(wǎng)絡(luò)模型的漢語元音發(fā)音方法。
背景技術(shù)
將大腦中的思維過程“閱讀出來,這一直是人類的一個夢想。波士頓大學(xué)語音實(shí)驗室的弗蘭克·岡瑟教授(Guenther.F.H.)提出的DIVA自適應(yīng)神經(jīng)網(wǎng)絡(luò)模型幫助人們實(shí)現(xiàn)了這一夢想。他發(fā)明的DIVA模型依賴的語音背景是英文的29個基本音素,圖5中給出了DIVA模型依賴的29個英文音素。對于以漢語為母語的中國人來講,要“閱讀”其思維過程,需要對漢語語音加工過程中的大腦機(jī)制進(jìn)行深入研究和討論。DIVA(Directions?Into?of?Articulators)模型是一種關(guān)于語音生成與獲取后描述相關(guān)處理過程的數(shù)學(xué)模型,主要用來仿真和描述有關(guān)大腦中涉及語音生成和語音理解區(qū)域的相關(guān)功能。可以說,它是一種為了生成單詞、音節(jié)或音素,用來控制模擬聲道運(yùn)動的自適應(yīng)神經(jīng)網(wǎng)絡(luò)模型。該網(wǎng)絡(luò)模型在計算機(jī)中學(xué)習(xí)控制模擬聲道的運(yùn)動,以產(chǎn)生相應(yīng)的語音。學(xué)習(xí)完成之后,模型能夠產(chǎn)生語音的任意組合。DIVA網(wǎng)絡(luò)模型為許多長期研究的語音生成現(xiàn)象包括運(yùn)動等效、語境變化、說話時速度的影響、預(yù)期的協(xié)同發(fā)音和結(jié)轉(zhuǎn)協(xié)同發(fā)音提供了一個統(tǒng)一的解釋。
對于人類語言能力統(tǒng)一計算模型的需求推動著DIVA模型的發(fā)展,自岡瑟教授在1994年首次提出DIVA網(wǎng)絡(luò)模型以來涌現(xiàn)出了不少新的版本,不同版本的DIVA模型大致地反映了神經(jīng)解剖學(xué)和大腦有關(guān)區(qū)域的關(guān)聯(lián)性。到目前為止,DIVA網(wǎng)絡(luò)的定義和測試相對而言仍然是最徹底的,并且是唯一應(yīng)用偽逆控制方案的模型,這種控制方案對于人類發(fā)音器官的運(yùn)動學(xué)數(shù)據(jù)提供了十分精確的解釋。
要讓DIVA模型“讀懂”中文發(fā)音者的思想,讓說漢語的人能將其思維過程用人工語音合成系統(tǒng)自然的表述出來,需要建立正確的映射關(guān)系,這涉及到兩方面的知識:
(1)漢語發(fā)音的腦機(jī)制研究和腦區(qū)成像研究;
(2)DIVA網(wǎng)絡(luò)模型對成像結(jié)果的再利用。
DIVA模型的語言基礎(chǔ)是英文的29個基本音素。對于母語為漢語的中國人來說DIVA模型是否也能完成中文語音生成和獲取的任務(wù)呢?漢語是一門有語調(diào)的語言,它不像英語的語音識別是通過僅憑音節(jié)的識別就能獲得很好的識別結(jié)果。對于漢語的識別,音調(diào)和韻律起著非常重要的作用。相同的音節(jié)不同的音調(diào)也會導(dǎo)致識別為不同的漢字。語音加工是語言認(rèn)知的核心功能,其腦機(jī)制是當(dāng)前研究者關(guān)心的重要問題,有關(guān)語音加工腦機(jī)制的研究,既包括聽覺通道中語音加工的腦機(jī)制,也包括視覺通道中語音加工的腦機(jī)制。這個過程涉及到不同語言持有者在說話的時候,其發(fā)音過程對大腦皮層中布洛卡(Broca)區(qū)以及相關(guān)區(qū)域的不同影響。一系列的實(shí)驗結(jié)果發(fā)現(xiàn)左側(cè)顳上回后部的威爾尼克區(qū)與語音理解有關(guān),左側(cè)額下回的布洛卡區(qū)與語音產(chǎn)生有關(guān)。有多個腦區(qū)參與了聽覺和視覺通道中的語音加工過程,包括左側(cè)額下回、左側(cè)顳上回、左側(cè)頂下小葉、以及左側(cè)顳頂枕聯(lián)合區(qū)等腦區(qū);而且某些腦區(qū)的功能似乎并不單一,例如左側(cè)額下回既負(fù)責(zé)語音復(fù)述又負(fù)責(zé)語音的短時儲存。各腦區(qū)在功能上不是孤立的,而是相互聯(lián)系與影響,構(gòu)成一個神經(jīng)網(wǎng)絡(luò)共同負(fù)責(zé)語音加工的過程。
如果將DIVA模型應(yīng)用到中文發(fā)音的語音合成任務(wù)中,就要對其已有的英文因素—腦區(qū)映射關(guān)系進(jìn)行重新考慮和修改,找到適合中文—腦區(qū)的映射關(guān)系。其中最重要的一個步驟就是漢語語音建模的問題。過去的幾十年里,在中文語音識別系統(tǒng)中,研究人員分別考慮用過不同粒度的建模單元,這其中包括:詞(word)、音節(jié)(syllable)、聲韻母(initial/final,IF)、音素(phoneme)等。
以詞或者音節(jié)為粒度去構(gòu)建建模單元集,往往會造成建模單元數(shù)目過于龐大,從而出現(xiàn)訓(xùn)練數(shù)據(jù)稀疏的問題,導(dǎo)致模型參數(shù)得不到充分而準(zhǔn)確的估計,而且還會使解碼的搜索空間增大,大大降低解碼效率,因此一般只適合用在一些小詞匯量的中文識別系統(tǒng)(如命令詞或者數(shù)字串識別系統(tǒng))中。
以聲韻母構(gòu)建建模單元集,在一定程度上反映了中文語音學(xué)的知識和特點(diǎn),并且被成功地用于搭建大詞匯量連續(xù)語音識別系統(tǒng),也是目前被廣泛認(rèn)可的建模單元集。但是與英文音素建模單元集相比,聲韻母建模單元集的建模單元數(shù)目還是比較多,特別是在帶調(diào)的情況下。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京郵電大學(xué),未經(jīng)南京郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210239129.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 硬件神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法、計算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡(luò)
- 神經(jīng)網(wǎng)絡(luò)的生成方法、生成裝置和電子設(shè)備
- 一種舌診方法、裝置、計算設(shè)備及計算機(jī)存儲介質(zhì)
- 學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
- 脈沖神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法及相關(guān)轉(zhuǎn)換芯片
- 圖像處理方法、裝置、可讀存儲介質(zhì)和計算機(jī)設(shè)備
- 一種適應(yīng)目標(biāo)數(shù)據(jù)集的網(wǎng)絡(luò)模型微調(diào)方法、系統(tǒng)、終端和存儲介質(zhì)
- 用于重構(gòu)人工神經(jīng)網(wǎng)絡(luò)的處理器及其操作方法、電氣設(shè)備
- 一種圖像神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化方法及裝置





