[發明專利]語音轉換方法、裝置和系統及存儲介質在審
| 申請號: | 202011609527.6 | 申請日: | 2020-12-30 |
| 公開(公告)號: | CN112750446A | 公開(公告)日: | 2021-05-04 |
| 發明(設計)人: | 武劍桃;李秀林 | 申請(專利權)人: | 標貝(北京)科技有限公司 |
| 主分類號: | G10L21/013 | 分類號: | G10L21/013;G10L25/27 |
| 代理公司: | 北京睿邦知識產權代理事務所(普通合伙) 11481 | 代理人: | 徐丁峰;戴亞南 |
| 地址: | 100192 北京市海淀區西小口路66號中關*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 轉換 方法 裝置 系統 存儲 介質 | ||
本發明提供一種語音轉換方法、裝置和系統及存儲介質。方法包括:獲取源說話者的源語音;對源語音進行特征提取;將源識別聲學特征輸入語音識別模型,以獲得源說話者的語音后驗概率;將多個時間幀中的至少部分時間幀所對應的后驗概率向量輸入特征轉換模型,以獲得目標合成聲學特征,目標合成聲學特征包括與至少部分時間幀一一對應的合成聲學特征向量,至少部分時間幀包括多個時間幀中的所有有效時間幀;基于有效聲學特征進行語音合成,以獲得目標說話者的有效語音;語音識別模型或特征轉換模型還輸出源音頻狀態信息,多個時間幀中的每個時間幀屬于有效時間幀還是無效時間幀基于源音頻狀態信息確定。這種聯合建模的方式可有效提升語音轉換的實時性。
技術領域
本發明涉及語音信號處理技術領域,具體地,涉及一種語音轉換方法、裝置和系統及存儲介質。
背景技術
在語音信號處理領域中,語音轉換(即語音音色轉換)技術是當前比較重要的一個研究方向。語音轉換旨在修改任意說話者的音色,將其轉換為某一固定說話者的音色,同時說話內容保持不變。語音轉換涉及到前端信號處理、語音識別和語音合成技術。基于自動語音識別(ASR)技術的語音轉換系統可以從任意的源輸入語音中提取與說話人無關的特征,進而通過特征轉換模型和聲碼器,轉換得到具有指定目標說話者的音色的聲音。
現有的語音轉換技術,通常會將源語音數據輸入預訓練好的端點檢測網絡,檢測出有效音頻信號的起點和尾點,之后將有效音頻信號輸入與說話者無關的自動語音識別(SI-ASR)系統提取得到語音后驗概率(PPG),并進行后續處理。端點檢測網絡通常由深度學習模型構建,訓練該網絡需要耗費一定的時間,并且在通過該網絡進行端點檢測的過程中,往往需要等到提供了一部分語音數據的時候才能判定有效音頻信號的起點位置,這會造成一定的延時。
發明內容
為了至少部分地解決現有技術中存在的問題,提供一種語音轉換方法、裝置和系統及存儲介質。
根據本發明一個方面,提供一種語音轉換方法,包括:獲取源說話者的源語音;對源語音進行特征提取,以獲得源說話者的源識別聲學特征;將源識別聲學特征輸入語音識別模型,以獲得語音識別模型輸出的源說話者的語音后驗概率,語音后驗概率包括與多個時間幀一一對應的多個后驗概率向量;將多個時間幀中的至少部分時間幀所對應的后驗概率向量輸入特征轉換模型,以獲得特征轉換模型輸出的目標說話者的目標合成聲學特征,其中,目標合成聲學特征包括與至少部分時間幀一一對應的合成聲學特征向量,多個時間幀中的每個時間幀屬于有效時間幀或無效時間幀,有效時間幀是指所對應的源語音音頻段是有效音頻段的時間幀,無效時間幀是指所對應的源語音音頻段是無效音頻段的時間幀,至少部分時間幀包括多個時間幀中的所有有效時間幀;基于有效聲學特征進行語音合成,以獲得目標說話者的有效語音,其中,有效聲學特征包括目標合成聲學特征中的與所有有效時間幀一一對應的合成聲學特征向量;其中,語音識別模型或特征轉換模型還輸出源音頻狀態信息,源音頻狀態信息包括與多個時間幀一一對應的多組幀音頻狀態信息,每組幀音頻狀態信息表示對應時間幀下的源語音音頻段屬于有效音頻段還是無效音頻段,多個時間幀中的每個時間幀屬于有效時間幀還是無效時間幀基于源音頻狀態信息確定。
示例性地,在基于有效聲學特征進行語音合成,以獲得目標說話者的有效語音之后,方法還包括:將有效語音與預設靜音音頻結合,以獲得目標說話者的目標語音,其中,預設靜音音頻包括與多個時間幀中的所有無效時間幀一一對應的靜音音頻片段。
示例性地,語音識別模型包括第一共享網絡層、語音后驗概率輸出層和音頻狀態輸出層,將源識別聲學特征輸入語音識別模型,以獲得語音識別模型輸出的源說話者的語音后驗概率包括:將源識別聲學特征輸入第一共享網絡層,以獲得第一共享網絡層輸出的第一共享特征;將第一共享特征分別輸入語音后驗概率輸出層和音頻狀態輸出層,以獲得語音后驗概率輸出層輸出的語音后驗概率以及音頻狀態輸出層輸出的源音頻狀態信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于標貝(北京)科技有限公司,未經標貝(北京)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011609527.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:語音轉換方法、裝置和系統及存儲介質
- 下一篇:蘇打水兩段提升輸送系統





