[發明專利]一種語音轉換方法、裝置、電子設備和存儲介質有效
| 申請號: | 202110693848.7 | 申請日: | 2021-06-22 |
| 公開(公告)號: | CN113421571B | 公開(公告)日: | 2023-01-24 |
| 發明(設計)人: | 賀來朋;孫見青;梁家恩 | 申請(專利權)人: | 云知聲智能科技股份有限公司 |
| 主分類號: | G10L15/26 | 分類號: | G10L15/26;G10L13/08;G10L13/04;G10L13/02 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100096 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語音 轉換 方法 裝置 電子設備 存儲 介質 | ||
本發明涉及一種語音轉換方法、裝置、電子設備和存儲介質,該方法應用于將源發音人的語音轉換為目標發音人的語音,包括:獲取源發音人的語音,根據源發音人的語音確定源發音人的文本;將源發音人的文本輸入至目標發音人的語音合成模型和時長強制對齊模型中合成目標發音人的語音;其中,譜特征預測模塊中包括時長模型以及聲學特征模塊。本申請通過時長強制對齊模型對源發音人的語音做強制對齊,得到源發音人的強制對齊時長信息,使用強制對齊的時長信息對時長模型預測的時長做調整,得到調整后的時長信息,并根據調整后的時長信息合成目標發音人的語音,使得轉換后語音的語速與輸入語音保持一致,從而使得轉換后語音的發音風格與源發音人保持一致。
技術領域
本發明涉及語音轉換技術領域,具體涉及一種語音轉換方法、裝置、電子設備和存儲介質。
背景技術
目前,說話人轉換技術,就是以源發音人的語音作為輸入,將語音音色轉換為目標發音人音色,同時保持說話內容不變?,F有的技術方案,大都同時需要源發音人和目標發音人的訓練數據,很多系統還必須要有平行數據(即兩個發音人必須朗讀相同的文本內容)。由于數據獲取的困難,這大大限制了語音轉換技術的使用場景。另一類采用ASR+TTS技術方案,使用ASR系統從源發音人錄音中獲取發音文本,然后送給目標發音人的TTS系統做合成。該方案不需要源發音人的訓練數據,也不需要做與源發音人有關的模型訓練,可以實現一套模型支持任意源發音人到特定目標發音人的語音轉換。
目前的ASR+TTS語音轉換方案可以實現任意源發音人到特定目標發音人的語音轉換,但是這些系統無法根據源發音人的輸入語音來控制目標發音人的發音風格,導致轉換前后語音的發音風格存在明顯差異。
發明內容
本發明提供一種語音轉換方法、裝置、電子設備和存儲介質,能夠解決上述語音轉換過程中前后語音的發音風格存在明顯差異的技術問題。
本發明解決上述技術問題的技術方案如下:
第一方面,本發明實施例提供了一種語音轉換方法,應用于將源發音人的語音轉換為目標發音人的語音,包括:
獲取源發音人的語音,根據所述源發音人的語音確定源發音人的文本;
將所述源發音人的文本輸入至目標發音人的語音合成模型和時長強制對齊模型中合成目標發音人的語音;
其中,所述目標發音人的語音合成模型包括:前端模塊、譜特征預測模塊、神經網絡聲碼器;所述譜特征預測模塊中包括時長模型以及聲學特征模塊。
在一些實施例中,上述語音轉換方法中,將源發音人的語音和源發音人的文本輸入至目標發音人的語音合成模型和時長強制對齊模型中合成目標發音人的語音,包括:
將源發音人的文本輸入至所述前端模塊中輸出上下文相關信息;
從源發音人的語音中提取所述源發音人的聲學特征;
將上下文相關信息輸入至時長模型中得到每個音素的預測時長;
將源發音人的聲學特征、上下文相關信息輸入至時長強制對齊模型中得到每個音素的強制對齊時長;
使用每個音素的強制對齊時長調整每個音素的預測時長得到調整后的時長;
將上下文相關信息、調整后的時長輸入至聲學特征模塊中輸出每一幀的聲學特征;
將每一幀的聲學特征輸入至神經網絡聲碼器中得到目標發音人的語音。
在一些實施例中,上述語音轉換方法中,訓練時長強制對齊模型的步驟包括:
獲取多個語音和多個文本對;
根據多個文本確定第一上下文相關信息;
提取多個語音中的梅爾倒譜特征,非周期譜特征和對數基頻特征;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于云知聲智能科技股份有限公司,未經云知聲智能科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110693848.7/2.html,轉載請聲明來源鉆瓜專利網。





