[發(fā)明專利]一種音色轉換方法及計算設備有效
| 申請?zhí)枺?/td> | 201710443089.2 | 申請日: | 2017-06-13 |
| 公開(公告)號: | CN107240401B | 公開(公告)日: | 2020-05-15 |
| 發(fā)明(設計)人: | 張康;方博偉;卓鵬鵬;尤嘉華;張偉 | 申請(專利權)人: | 廈門美圖之家科技有限公司 |
| 主分類號: | G10L21/007 | 分類號: | G10L21/007;G10L25/03;G10L25/48 |
| 代理公司: | 北京思睿峰知識產(chǎn)權代理有限公司 11396 | 代理人: | 謝建云;趙愛軍 |
| 地址: | 361008 福建省廈門*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 音色 轉換 方法 計算 設備 | ||
本發(fā)明公開了一種音色轉換方法,該方法適于根據(jù)待處理語音的音素從預置的源?目標音素特征單元對中搜索匹配的語音進行轉換,包括步驟:提取待處理語音中每一幀語音的特征;計算待處理語音中每一幀語音所屬音素,將同一音素內(nèi)的連續(xù)幀作為一個音素集;按順序將一個音素集分成一個或多個第一幀長的音素單元,其中相鄰音素單元之間相互重疊第二幀長;根據(jù)每幀語音的特征拼接得到對應音素單元的特征;對于每個音素單元,根據(jù)其音素和特征從源?目標音素特征單元對中選取出代價最小的目標音素特征單元,作為最優(yōu)音素特征單元;對多個音素單元對應的多個最優(yōu)音素特征單元進行時域拼接處理,得到音色轉換后的語音。本發(fā)明一并公開了相應的計算設備。
技術領域
本發(fā)明涉及音頻處理技術領域,尤其是一種音色轉換方法及計算設備。
背景技術
在現(xiàn)有電影或電視劇的配音中,演員需要根據(jù)電影或電視劇的劇本臺詞進行語音錄入,這種情形下,若是電影或電視劇稍有改動就需要演員再重新錄制配音,而演員一般排期緊、價位高,這對制片方或者演員來說都是非常不劃算的。
現(xiàn)有的語音合成技術,大部分都只能合成某個固定人的聲音;另有一些語音合成技術可以合成需要的說話人聲音,但是計算量非常大,運行時間長,無法用于實際。
而在實際生活中,人們常常會對一些諸如男女音色轉換的應用表現(xiàn)出很大的興趣。因此,需要一種能夠將用戶的語音轉換成具有另一種音色的語音的方法。
現(xiàn)有的音色轉換方法,主要分為基于高斯混合模型的音色轉換方法和基于音素拼接的音色轉換方法。前者主要的缺點是存在過擬合或欠擬合的毛病,表現(xiàn)為音質單薄、音色與目標音色有較大差距;而后者雖然可以使轉換后的語音更加符合目標音色,但拼接上存在銜接不流暢的情況。
故而,需要一種音色轉換方法,能夠使得轉換后的語音逼近目標說話人自己說的話。
發(fā)明內(nèi)容
為此,本發(fā)明提供了一種音色轉換方法及計算設備,以力圖解決或者至少緩解上面存在的至少一個問題。
根據(jù)本發(fā)明的一個方面,提供了一種音色轉換方法,該方法適于根據(jù)待處理語音的音素從預置的源-目標音素特征單元對中搜索到匹配的語音進行轉換,該方法包括步驟:提取待處理語音中每一幀語音的特征;計算待處理語音中每一幀語音所屬的音素,將同一音素內(nèi)的連續(xù)幀作為一個音素集;按照順序將一個音素集分成一個或多個第一幀長的音素單元,其中相鄰音素單元之間相互重疊第二幀長;根據(jù)每幀語音的特征拼接得到對應音素單元的特征;對于每個音素單元,根據(jù)其音素和特征從源-目標音素特征單元對中選取出代價最小的目標音素特征單元,作為最優(yōu)音素特征單元;以及對多個音素單元對應的多個最優(yōu)音素特征單元進行時域拼接處理,得到音色轉換后的語音。
可選地,在根據(jù)本發(fā)明的音色轉換方法中,還包括建立源語音庫和目標語音庫的步驟,其中,所述源語音庫和目標語音庫是平行語料庫;在建立源語音庫和目標語音庫的步驟之后,還包括步驟:根據(jù)源語音庫和目標語音庫中對應語句的特征生成源-目標音素特征單元對,其中,一個源-目標音素特征單元對中包含一個源音素特征單元和與其對應的一個目標音素特征單元。
可選地,在根據(jù)本發(fā)明的音色轉換方法中,根據(jù)源語音庫和目標語音庫中的對應語句的特征生成源-目標音素特征單元對的步驟包括:對源語音庫和目標語音庫中的對應語句分別進行分幀處理,得到每個語句的源語音序列和目標語音序列;分別提取源語音序列和目標語音序列中每幀語音的特征;根據(jù)所提取的特征對源語音序列和目標語音序列進行動態(tài)時間規(guī)整處理,得到一一對應的源-目標特征幀對;計算目標語音序列中每一幀語音所屬的音素;將同一音素內(nèi)連續(xù)幀的目標特征幀所屬的源-目標特征幀對作為一個源-目標音素集;以及按照順序將一個源-目標音素集分成一個或多個第一幀長的源-目標音素特征單元對,其中相鄰源-目標音素特征單元對之間相互重疊第二幀長。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門美圖之家科技有限公司,未經(jīng)廈門美圖之家科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710443089.2/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:建筑施工用混凝土循環(huán)攪拌混合罐
- 下一篇:一種新型橋梁施工設備





