[發明專利]語音轉換方法、裝置和系統及存儲介質在審
| 申請號: | 202011609526.1 | 申請日: | 2020-12-30 |
| 公開(公告)號: | CN112750445A | 公開(公告)日: | 2021-05-04 |
| 發明(設計)人: | 武劍桃;李秀林 | 申請(專利權)人: | 標貝(北京)科技有限公司 |
| 主分類號: | G10L21/013 | 分類號: | G10L21/013;G10L25/27;G10L15/20 |
| 代理公司: | 北京睿邦知識產權代理事務所(普通合伙) 11481 | 代理人: | 徐丁峰;戴亞南 |
| 地址: | 100192 北京市海淀區西小口路66號中關*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 轉換 方法 裝置 系統 存儲 介質 | ||
本發明提供一種語音轉換方法、裝置和系統及存儲介質。方法包括:獲取源說話者的源語音;對源語音進行特征提取;將源說話者的聲學特征輸入語音識別模型,以獲得PPG;從PPG中檢測概率分布存在問題的至少一個時間幀集,每個時間幀集包括多個連續的時間幀,概率分布存在問題的時間幀集是指該時間幀集中的所有時間幀所對應的預測語音類別的一致性不滿足預設要求,預測語音類別是對應時間幀下后驗概率最大的語音類別;對至少一個時間幀集所對應的后驗概率向量進行修正;將經修正的PPG輸入特征轉換模型,以獲得目標說話者的聲學特征;基于目標說話者的聲學特征進行語音合成。修正PPG中概率分布異常進而導致所識別的語音內容有誤的部分,提升語音轉換的效果。
技術領域
本發明涉及語音信號處理技術領域,具體地,涉及一種語音轉換方法、裝置和系統及存儲介質。
背景技術
在語音信號處理領域中,語音轉換(即語音音色轉換)技術是當前比較重要的一個研究方向。語音轉換旨在修改任意說話者的音色,將其轉換為某一固定說話者的音色,同時說話內容保持不變。語音轉換涉及到前端信號處理、語音識別和語音合成技術。基于自動語音識別(ASR)技術的語音轉換系統可以從任意的源輸入語音中提取與說話人無關的特征,進而通過特征轉換模型和聲碼器,轉換得到具有指定目標說話者的音色的聲音。
現有的語音轉換技術具有以下缺點:聲音轉換的源輸入場景繁雜,背景噪聲多種多樣,當背景噪聲比較嘈雜或者比較陌生的噪聲出現在源輸入語音中時,轉換后的語音內容往往會有些模糊,不夠清晰,聽感上語音含糊不清,嚴重影響用戶體驗。
發明內容
為了至少部分地解決現有技術中存在的問題,提供一種語音轉換方法、裝置和系統及存儲介質。
根據本發明一個方面,提供一種語音轉換方法,包括:獲取源說話者的源語音;對源語音進行特征提取,以獲得源說話者的聲學特征;將源說話者的聲學特征輸入語音識別模型,以獲得語音識別模型輸出的源說話者的語音后驗概率,語音后驗概率包括與多個時間幀一一對應的多個后驗概率向量,每個后驗概率向量包括與C1個語音類別一一對應的C1個元素,每個元素表示在對應時間幀下對應語音類別的后驗概率,其中,C1為大于0的整數;從語音后驗概率中檢測概率分布存在問題的至少一個時間幀集,每個時間幀集包括多個連續的時間幀,其中,概率分布存在問題的時間幀集是指該時間幀集中的所有時間幀所對應的預測語音類別的一致性不滿足預設要求,預測語音類別是對應時間幀下后驗概率最大的語音類別;對至少一個時間幀集所對應的后驗概率向量進行修正,以獲得經修正的語音后驗概率;將經修正的語音后驗概率輸入特征轉換模型,以獲得特征轉換模型輸出的目標說話者的聲學特征;基于目標說話者的聲學特征進行語音合成,以獲得目標說話者的目標語音。
示例性地,從語音后驗概率中檢測概率分布存在問題的至少一個時間幀集包括:
從語音后驗概率的所有時間幀中劃分出m-k+1個時間窗,其中,m是語音后驗概率的所有時間幀的總數目,k是每個時間窗包括的時間幀的數目,第i個時間窗包括語音后驗概率的所有時間幀中的第i個時間幀至第i+k-1個時間幀,其中,m為大于0的整數,k為大于0的整數,km,i=1,2,……,m-k+1;
針對第i個時間窗,
計算k個預測語音類別中數目最多的關鍵語音類別在k個預測語音類別中所占的比例,其中,k個預測語音類別與第i個時間窗所包括的k個時間幀一一對應;
在所計算的比例小于比例閾值的情況下,確定第i個時間窗是波動時間窗,否則,確定第i個時間窗是非波動時間窗;
對所有波動時間窗進行分組,以獲得至少一個波動時間窗組,其中,每個波動時間窗組包括至少一個波動時間窗且每個波動時間窗組中的任意兩個相鄰的波動時間窗之間不存在非波動時間窗;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于標貝(北京)科技有限公司,未經標貝(北京)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011609526.1/2.html,轉載請聲明來源鉆瓜專利網。





