[發(fā)明專利]一種基于混合高斯隨機(jī)過程的分簇語音轉(zhuǎn)換方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 201410662811.8 | 申請日: | 2014-11-19 |
| 公開(公告)號: | CN104464744A | 公開(公告)日: | 2015-03-25 |
| 發(fā)明(設(shè)計(jì))人: | 徐寧;胡芳;蔣愛民;劉小峰 | 申請(專利權(quán))人: | 河海大學(xué)常州校區(qū) |
| 主分類號: | G10L21/007 | 分類號: | G10L21/007 |
| 代理公司: | 常州市科誼專利代理事務(wù)所 32225 | 代理人: | 孫彬 |
| 地址: | 213022 江蘇*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 混合 隨機(jī) 過程 語音 轉(zhuǎn)換 方法 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明涉及用于處理音頻數(shù)據(jù)的方法和系統(tǒng),尤其涉及一種語音轉(zhuǎn)換的方法和系統(tǒng)。
背景技術(shù)
語音轉(zhuǎn)換的目的在于改變?nèi)我庖粋€說話人的話音個性特征,使其聽起來像另一個指定的目標(biāo)人的聲音。而實(shí)現(xiàn)這一目標(biāo),通常需要對大量數(shù)據(jù)進(jìn)行訓(xùn)練才能完成。在大數(shù)據(jù)時代,數(shù)據(jù)呈現(xiàn)出量大、關(guān)聯(lián)性強(qiáng)等特點(diǎn)。如何利用好這些數(shù)據(jù),對語音轉(zhuǎn)換任務(wù)來說,亦至關(guān)重要。就中文語音而言,雖然涉及到的字詞讀音非常豐富,但本質(zhì)上都是由若干有限個聲母、韻母、輔音,再配以一定的音調(diào)所構(gòu)成的。因此,在語音轉(zhuǎn)換的過程中,可以針對這一特點(diǎn)進(jìn)行分簇建模;另一方面,需要借助于優(yōu)秀的映射算法來精準(zhǔn)高效的映射源和目標(biāo)說話人之間的特征參數(shù)。一般來說,非線性算法應(yīng)該能獲得比線性映射算法更加優(yōu)異的性能。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種分簇語音轉(zhuǎn)換方法,其借助于高斯隨機(jī)過程這一數(shù)學(xué)工具,結(jié)合語音數(shù)據(jù)的特點(diǎn),設(shè)計(jì)了一種新型的高斯隨機(jī)過程結(jié)構(gòu),并在此基礎(chǔ)上給出了訓(xùn)練和轉(zhuǎn)換算法。該方法能在大數(shù)據(jù)量環(huán)境下,有效的利用數(shù)據(jù)間的關(guān)聯(lián)性,提高轉(zhuǎn)換精度。另外,該方法還是一種非線性映射方法,對復(fù)雜數(shù)據(jù)的建模具有良好的適應(yīng)性。
為了解決上述技術(shù)問題,本發(fā)明提供了一種分簇語音轉(zhuǎn)換方法,在于包括如下步驟:
步驟S100,訓(xùn)練階段,即將源、目標(biāo)語音數(shù)據(jù)分別進(jìn)行特征參數(shù)提取后進(jìn)行訓(xùn)練;以及步驟S200,轉(zhuǎn)換階段,即將再次提取的源的特征參數(shù)與訓(xùn)練結(jié)果進(jìn)行轉(zhuǎn)換,并合成得到重構(gòu)的語音數(shù)據(jù)。
進(jìn)一步,為了實(shí)現(xiàn)對源、目標(biāo)語音數(shù)據(jù)分別進(jìn)行特征參數(shù)提取;所述步驟S100中將源、目標(biāo)語音數(shù)據(jù)分別進(jìn)行特征參數(shù)提取的步驟包括:步驟S110,語音分析,即對源、目標(biāo)語音數(shù)據(jù)分別進(jìn)行語音分解;步驟S120,參數(shù)預(yù)處理,即提取經(jīng)語音分解后的源、目標(biāo)語音數(shù)據(jù)的特征參數(shù),并將兩特征參數(shù)對齊;以及步驟S130,特征參數(shù)訓(xùn)練,將兩特征參數(shù)進(jìn)行混合高斯隨機(jī)過程訓(xùn)練。
進(jìn)一步,為了實(shí)現(xiàn)對源、目標(biāo)語音數(shù)據(jù)分別進(jìn)行語音分解;所述步驟S110中對源、目標(biāo)語音數(shù)據(jù)分別進(jìn)行語音分解的步驟包括:步驟S111,對源或目標(biāo)的語音信號進(jìn)行固定時長的分幀,用互相關(guān)法對基音頻率進(jìn)行估計(jì),以獲得濁音、清音信號;以及步驟S112,在濁音信號設(shè)置一個最大濁音頻率分量,用來劃分諧波成分和隨機(jī)成分的主能量區(qū)域;再利用最小二乘算法估計(jì)得到離散的諧波幅度值和相位值。
進(jìn)一步,為了實(shí)現(xiàn)對濁音、清音的特征參數(shù)提取;所述步驟S120中提取特征參數(shù)的方法包括:通過提取源、目標(biāo)語音數(shù)據(jù)中的濁音特征參數(shù)和清音特征參數(shù),以獲得所述源或目標(biāo)的語音數(shù)據(jù)的特征參數(shù);其中提取所述濁音特征參數(shù)的步驟包括:步驟S121,對步驟S112中得到的諧波幅度求取平方;步驟S122,根據(jù)功率譜密度函數(shù)和自相關(guān)函數(shù)的一一對應(yīng)關(guān)系,得到關(guān)于濁音線性預(yù)測系數(shù)的托普里茨矩陣方程,求解該方程獲得所述濁音線性預(yù)測系數(shù);步驟S123,將所述濁音線性預(yù)測系數(shù)轉(zhuǎn)換為濁音線性譜頻率系數(shù),該系數(shù)即為濁音特征參數(shù);以及提取所述清音特征參數(shù)的方法包括:在清音信號,利用線性預(yù)測分析法對其進(jìn)行分析,從而得到清音線性預(yù)測系數(shù);再將所述清音線性預(yù)測系數(shù)轉(zhuǎn)換為清音線性譜頻率系數(shù),該系數(shù)即為清音特征參數(shù)。
進(jìn)一步,為了實(shí)現(xiàn)兩特征參數(shù)對齊,所述步驟S120中對兩特征參數(shù)對齊的步驟包括:步驟S124,對于源和目標(biāo)的特征參數(shù),利用動態(tài)時間規(guī)整算法將其中一特征參數(shù)的時間軸非線性的映射到另一特征參數(shù)的時間軸上,實(shí)現(xiàn)一一對應(yīng)的匹配;步驟S125,在對齊的過程中,通過迭代優(yōu)化一個預(yù)設(shè)的累積失真函數(shù),并限制搜索區(qū)域,以獲得時間匹配函數(shù)。
進(jìn)一步,為了訓(xùn)練特征參數(shù),所述步驟S130中將特征參數(shù)訓(xùn)練的步驟包括:步驟S131,構(gòu)建具有混合結(jié)構(gòu)的高斯隨機(jī)過程模型;步驟S132,用馬爾科夫鏈蒙特卡洛方法來近似估計(jì)所述高斯隨機(jī)過程模型的參數(shù),即該參數(shù)和隸屬標(biāo)識變量的聯(lián)合后驗(yàn)概率密度函數(shù);步驟S133,對概率密度函數(shù)進(jìn)行迭代邊緣化,分別得到對隸屬標(biāo)識變量概率分布和模型參數(shù)的概率分布的估計(jì),以確定混合高斯隨機(jī)過程的結(jié)構(gòu)參數(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于河海大學(xué)常州校區(qū),未經(jīng)河海大學(xué)常州校區(qū)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410662811.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 隨機(jī)數(shù)生成設(shè)備及控制方法、存儲器存取控制設(shè)備及通信設(shè)備
- 隨機(jī)接入方法、用戶設(shè)備、基站及系統(tǒng)
- 真隨機(jī)數(shù)檢測裝置及方法
- 隨機(jī)元素生成方法及隨機(jī)元素生成裝置
- 數(shù)據(jù)交互方法、裝置、服務(wù)器和電子設(shè)備
- 一種隨機(jī)數(shù)發(fā)生器的多隨機(jī)源管理方法
- 用于彩票行業(yè)的隨機(jī)數(shù)獲取方法及系統(tǒng)
- 隨機(jī)接入方法、裝置及存儲介質(zhì)
- 偽隨機(jī)方法、系統(tǒng)、移動終端及存儲介質(zhì)
- 模型訓(xùn)練方法、裝置和計(jì)算設(shè)備





