[發(fā)明專利]一種模擬用戶歌聲的語音合成系統(tǒng)及方法有效
| 申請?zhí)枺?/td> | 201711079095.0 | 申請日: | 2017-11-06 |
| 公開(公告)號: | CN108053814B | 公開(公告)日: | 2023-10-13 |
| 發(fā)明(設(shè)計)人: | 孟猛 | 申請(專利權(quán))人: | 芋頭科技(杭州)有限公司 |
| 主分類號: | G10H1/00 | 分類號: | G10H1/00 |
| 代理公司: | 北京市競天公誠律師事務(wù)所 11770 | 代理人: | 陳果 |
| 地址: | 310000 浙江省杭州市余杭區(qū)*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 模擬 用戶 歌聲 語音 合成 系統(tǒng) 方法 | ||
本發(fā)明公開了一種模擬用戶歌聲的語音合成系統(tǒng)及方法,屬于語音模擬技術(shù)領(lǐng)域;其原理在于:獲取外部輸入的用戶正常說話語音并轉(zhuǎn)換成發(fā)音文本,根據(jù)發(fā)音文本形成音子序列;根據(jù)音子序列處理得到基本音子的原始時段信息;將基本音子的原始時段信息調(diào)整為對應(yīng)曲譜信息的節(jié)拍時段信息;針對基本音子比較原始時段信息和節(jié)拍時段信息,并根據(jù)判斷結(jié)果相應(yīng)調(diào)整基本音子的語音合成參數(shù);根據(jù)基本音子的經(jīng)過調(diào)整的語音合成參數(shù)以及發(fā)音文本,形成模擬用戶歌聲的合成語音并輸出。上述技術(shù)方案的有益效果是:無需建模就能模擬用戶唱歌,提高語音模擬的效率,達到近乎實時反饋的效果,保留用戶的音色信息,細節(jié)豐富,效果逼真,由此提升了用戶體驗。
技術(shù)領(lǐng)域
本發(fā)明涉及語音模擬技術(shù)領(lǐng)域,尤其涉及一種模擬用戶歌聲的語音合成系統(tǒng)及方法。
背景技術(shù)
隨著語音合成技術(shù)的不斷發(fā)展,越來越多的應(yīng)用軟件開始采用語音合成技術(shù)來模擬人的說話內(nèi)容,例如采用語音合成技術(shù)模擬人說話的內(nèi)容以得到“學(xué)舌”的目的,或者采用語音合成技術(shù)來模擬人唱歌等與普通說話場景不同的語音。
具體地,現(xiàn)有技術(shù)中,在模擬用戶唱歌的場景中,通常的做法是采用語音合成數(shù)據(jù)庫中固有的音色來生成歌曲,并且需要對用戶的音色信息進行建模,采用音色變換技術(shù)在歌曲固有音色的基礎(chǔ)上實現(xiàn)用戶聲音的歌聲效果。這種做法的缺陷主要在于:
1.需要事先對用戶的音色信息進行建模,使得語音合成的過程比較復(fù)雜;
2.需要根據(jù)構(gòu)建的模型來實現(xiàn)用戶聲音的變換,從而得到合成的歌聲,其處理速度較慢,處理效率低,無法實現(xiàn)實時處理并輸出歌聲的效果;
3.采用合成器數(shù)據(jù)庫中固有的音色信息來實現(xiàn)語音合成和模擬的方式無法保留用戶本身的音色特征,使得語音模擬的結(jié)果比較呆板,模擬效果與實際音色不符。
發(fā)明內(nèi)容
根據(jù)現(xiàn)有技術(shù)中存在的上述問題,現(xiàn)提供一種模擬用戶歌聲的語音合成系統(tǒng)及方法的技術(shù)方案,直接將用戶正常說話時的說話聲音轉(zhuǎn)換成某種曲調(diào)的唱歌聲,旨在提高語音模擬的效率,達到近乎實時反饋給用戶唱歌的效果,并且保留用戶的音色信息,合成的語音細節(jié)豐富,效果逼真,由此提升了用戶體驗。
上述技術(shù)方案具體包括:
一種模擬用戶歌聲的語音合成系統(tǒng),適用于語音模擬應(yīng)用中;其中,包括:
第一獲取單元,用于獲取外部輸入的用戶正常說話時的用戶語音;
第一轉(zhuǎn)換單元,連接所述第一獲取單元,用于將所述用戶語音轉(zhuǎn)換成對應(yīng)的發(fā)音文本,以及根據(jù)所述發(fā)音文本形成對應(yīng)的包括基本音子的音子序列;
第一處理單元,連接所述第一轉(zhuǎn)換單元,用于根據(jù)所述音子序列處理得到每個所述基本音子對應(yīng)的原始時段信息,所述原始時段信息用于表示每個所述基本音子在所述用戶語音中的起止時間;
第一合成單元,分別連接所述第一獲取單元和所述第一處理單元,用于根據(jù)所述用戶語音的基頻信息以及每個所述基本音子的所述原始時段信息分別處理得到所述用戶語音每個所述基本音子的語音合成參數(shù);
第二獲取單元,用于獲取一預(yù)設(shè)的目標歌曲中的曲譜信息;
第二處理單元,分別連接所述第一處理單元和所述第二獲取單元,用于將每個所述基本音子的所述原始時段信息分別調(diào)整為對應(yīng)所述曲譜信息的節(jié)拍時段信息,所述節(jié)拍時段信息用于表示每個所述基本音子在所述目標歌曲中對應(yīng)的節(jié)拍中的起止時間;
第二合成單元,分別連接所述第一合成單元和所述第二處理單元,用于針對每個所述基本音子比較所述原始時段信息和所述節(jié)拍時段信息,并根據(jù)判斷結(jié)果相應(yīng)調(diào)整每個所述基本音子的所述語音合成參數(shù);
語音模擬單元,分別連接所述第二合成單元、第二獲取單元和所述第一轉(zhuǎn)換單元,用于根據(jù)每個所述基本音子的經(jīng)過調(diào)整的所述語音合成參數(shù)以及所述發(fā)音文本,形成模擬用戶歌聲的合成語音并輸出。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于芋頭科技(杭州)有限公司,未經(jīng)芋頭科技(杭州)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711079095.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





