[發明專利]基于半監督特征學習的語音轉換方法在審
| 申請號: | 202111277502.5 | 申請日: | 2021-10-30 |
| 公開(公告)號: | CN114023343A | 公開(公告)日: | 2022-02-08 |
| 發明(設計)人: | 李學龍;張強;陳穆林 | 申請(專利權)人: | 西北工業大學 |
| 主分類號: | G10L21/007 | 分類號: | G10L21/007;G10L15/06 |
| 代理公司: | 西北工業大學專利中心 61204 | 代理人: | 常威威 |
| 地址: | 710072 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 監督 特征 學習 語音 轉換 方法 | ||
1.一種基于半監督特征學習的語音轉換方法,其特征在于步驟如下:
步驟1:利用開源語音包librosa對訓練集中的每一條語音數據進行預處理,包括讀入語音數據,對每一條語音數據進行預加重、加窗和分幀處理,對已分幀的語音數據的每一幀進行短時傅里葉變換,將其從時域信號轉換為頻域信號,再對轉換為頻域信號的語音數據進行篩選處理,得到符合長度的語音段,訓練集中所有經過預處理的語音段構成聲學特征段集合;
從訓練集隨機選取不超過半數的說話人,并將這些說話人的語音數據輸入到廣義端對端損失設計的編碼器,提取得到表示說話人身份信息的聲學特征;所述的編碼器由長短期記憶網絡層和線性層構成,長短期記憶網絡層的輸入、輸出和隱藏層維度分別為80、256、256,線性層的輸入、輸出維度均為256,線性層的激活函數為ReLu函數,編碼器采用端對端損失約束;
步驟2:構建語音轉換網絡,包括變分自編碼器、解碼器和后置網絡,其中,變分自編碼器包括說話人編碼器和內容編碼器兩個分支,說話人編碼器由兩個單元大小為768的長短期記憶網絡層組成,從輸入的語音數據中提取得到說話人身份信息;內容編碼器由3個5×1卷積層、2個單元大小為32的雙向長短期記憶網絡層和1個實例歸一化層組成,從輸入的語音數據中提取得到語音內容表示;解碼器由3個5×1卷積層和3個單元維度為1024的長短期記憶網絡層組成,將說話人編碼器提取到的說話人身份信息和內容編碼器提取到的語言內容表示輸入到解碼器,得到新的語音數據;后置網絡由5個5×1的卷積層組成,對解碼器的輸出進行殘差信號提取,提取到的信號與解碼器的輸出相加,得到重建后的語音數據;
所述的語音轉換網絡的損失函數設置如下:
L=Lcon+Lspe+Lreco (1)
其中,L表示網絡總損失,Lcon表示內容編碼器損失,Lspe表示說話人身份信息損失,Lreco表示自重建損失,分別按以下公式計算得到:
其中,E[·]表示計算數學期望,表示解碼器的輸出,表示輸入為時內容編碼器的輸出,Zc表示內容編碼器的輸出,Zsi表示說話人編碼器的輸出,表示采用廣義端到端的方法提取到的說話人身份信息,i表示說話人序號,x表示網絡初始輸入語音數據,Es(x)表示輸入為x時說話人編碼器的輸出,D(Es(x),Zc)表示將Es(x)和Zc輸入解碼器后的輸出;
所述的實例歸一化層的具體處理過程如下:
首先,按下式計算得到語音內容表示的每一個通道的均值:
其中,μc表示第c個通道的均值,W表示每個通道的數組維數,Mc[ω]表示第c個通道中的第ω個元素;c=1,2,…,C,C表示通道數量;
然后,按下式計算每一個通道的方差:
其中,σc表示第c個通道的方差,ε表示調節參數,取值范圍為(0,1);
最后,按下式將通道數組Mc中的每個元素進行歸一化處理:
其中,Mc′[ω]表示歸一化后的第c個通道中的第ω個元素值;c=1,2,…,C,ω=1,2,…,W;
步驟3:設置網絡參數,包括數據讀入的批處理大小Batch size為32,初始學習率為0.001,網絡的迭代次數500000次,將步驟1得到的聲學特征段集合中的語音段輸入到步驟2構建的語音轉換網絡進行訓練,得到訓練好的語音轉換網絡;
步驟4:輸入待轉換的源語音數據和目標語音數據到步驟3得到的訓練好的語音轉換網絡,利用說話人編碼器從目標語音數據中提取說話人特征,利用內容編碼器提取源語音數據的語音內容表示,再經解碼器和后置網絡,輸出得到轉換后的語音數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西北工業大學,未經西北工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111277502.5/1.html,轉載請聲明來源鉆瓜專利網。





