[發明專利]一種基于深度學習的語音會話分割方法在審
| 申請號: | 202111245978.0 | 申請日: | 2021-10-26 |
| 公開(公告)號: | CN113963718A | 公開(公告)日: | 2022-01-21 |
| 發明(設計)人: | 姜元春;葛鴻飛;錢洋;劉業政;孫見山;柴一棟;袁昆;周凡;李浩 | 申請(專利權)人: | 合肥工業大學 |
| 主分類號: | G10L25/27 | 分類號: | G10L25/27;G10L25/45;G10L25/78;G10L25/24;G06N3/04;G06N3/08;G06K9/62 |
| 代理公司: | 安徽省合肥新安專利代理有限責任公司 34101 | 代理人: | 陸麗莉;何梅生 |
| 地址: | 230009 安*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 語音 會話 分割 方法 | ||
1.一種基于深度學習的語音會話分割方法,其特征是按如下步驟進行:
步驟1、獲取會話語音集合W={(w1,y1),(w2,y2),…,(wm′,ym′),…,(wM′,yM′)},其中,wm′表示第m′條會話語音,并有:wm′=(wm′,T,wm′,2T,…,wm′,nT,…,wm′,t/T)T,wm′,nT表示第m′條會話語音wm′中在n×T時刻的信號強度,t表示第m′條語音會話wm′的時間長度,T表示采樣周期;ym′表示第m′條語音會話的會話者的唯一身份標簽,并對ym′進行one-hot向量表示,得到向量化后的第m′個身份標簽向量,記為其中,表示第m′個樣本對應身份標簽向量的第i維的值,k為會話語音集合W中會話者的人數;M′表示會話語音的數量;
步驟2、分幀和短時加窗處理:
將幀長度設置為T1,從而采用交疊分段的方法對會話語音集合W中的M′條會話語音{w1,w2,...,wM′}進行分幀處理,得到M個語音幀,再以漢明窗作為窗函數對M個語音幀進行滑動處理,得到加窗處理后的語音幀集合F={(f1,y1),(f2,y2),…,(fm,ym),…,(fM,yM)},fm表示第m個加窗后的語音幀,并有:其中,fm,iT表示第m個加窗后的語音幀fm在i×T時刻的信號強度;ym表示第m個加窗后的語音幀fm所對應的會話者標簽;
步驟3、篩除靜音段:
利用式(1)計算所述語音幀集合F中第m個加窗后的語音幀fm的能量E(fm):
設EM為靜音幀的閾值,將能量E(fm)與閾值EM進行比較,并篩除能量E(fm)小于EM的語音幀,從而得篩選后的語音幀集合Fvoice={(f1′,y′1),(f′2,y′2),…,(f′n,y′n),…,(f′N,y′N)},其中,f′n表示篩選后的第n條語音幀,y′n為篩選后的第n條語音幀f′n所對應的會話者標簽;N為語音幀集合Fvoice中的語音幀條數;
步驟4、語音信號的顯式特征提取:
步驟4.1、對所述語音幀集合Fvoice中的語音幀進行快速傅立葉變換,得到各幀的頻譜;再對各幀的頻譜取模的平方得到N個功率譜,由每個功率譜所對應的灰度圖構成灰度圖集合,記為G={(g1,y′1),(g2,y′2),…,(gn,y′n),…,(gN,y′N)},其中,gn表示第n個功率譜所對應的灰度圖,并以二維矩陣來表示;
步驟4.2、將灰度圖集合G劃分為包含N1個樣本的訓練集Gtrain和N2個樣本的測試集Gtest,且Gtest和Gtest中的會話者人數均為k;
步驟4.3、提取MFCC特征:
將測試集Gtest中N2個樣本對應的功率譜通過一組包含B個梅爾尺度的三角濾波器組后,得到B個三角濾波器的頻率響應值{H(c)|c=1,2,...,B},其中,H(c)表示第c個三角濾波器的頻率響應,再計算B個三角濾波器組輸出的對數能量{s(c)|c=1,2,...,B};其中,s(c)表示第c個三角濾波器輸出的對數能量;將對數能量{s(c)|c=1,2,...,B}進行離散余弦變換,得到N2個U維MFCC特征向量,記為其中,表示第n2個樣本MFCC特征向量;
步驟5、語音信號的隱式特征提取:
步驟5.1、構建隱式特征提取模型;
所述隱式特征提取模型是由三個分支所組成的基于注意力機制的語音特征提取網絡,記作AFNet;其中,三個分支分別為特征提取分支、注意力機制分支、金字塔池化分支;
步驟5.1.1、所述特征提取分支為ResNet-18模型;所述ResNet-18模型包括:一個卷積核大小為k1×k1的卷積層,一個尺度為k2×k2的最大池化層,四組殘差模塊和一個全連接層,每組殘差模塊內有兩個標準殘差塊結構;其中,所述全連接層的神經元個數為I;記特征提取分支輸出的預測向量是epred;
步驟5.1.2、所述注意力機制分支由空洞空間金字塔池化模塊、一個平均池化層,一個全連接層組成;并將所述特征提取分支中第三組殘差模塊輸出的特征圖作為注意力機制分支中的空洞空間金字塔池化模塊的輸入;
所述空洞空間金字塔池化模塊由五個分支所組成的,其中,第一個分支包含三個卷積核大小分別為3k3×3k3、2k3×2k3、k3×k3的卷積層,并輸出第一向量econv1;第二個分支包含3個級聯的卷積核為k3×k3的空洞卷積層,其擴張率分別是s1、2s1、s1,并輸出第二向量econv2;第三個分支包含3個級聯的卷積核為k3×k3的空洞卷積層,其擴張率分別是s2、2s2、s2,并輸出第三向量econv3;第四個分支包含3個級聯的卷積核為k3×k3的空洞卷積層,其擴張率分別是s3、2s3、s3,并輸出第四向量econv4;第五個分支包含3個級聯的卷積核為k3×k3的空洞卷積層,擴張率分別是s4、2s4、s4,并輸出第五向量econv5;將輸出的五個向量econv1,econv2,econv3,econv4,econv5進行通道上的串聯操作得到第六向量econv6,所述第六向量econv6經過平均池化層的全局平均池化操作后得到池化向量epool,所述池化向量epool經過一層全連接層的處理后輸出注意力分支的預測向量eatt;
步驟5.1.3、所述金字塔池化分支由五層構成,每層池化尺度為s5×s5、s6×s6、s7×s7、s8×s8、s9×s9;將所述特征提取分支中第一組殘差模塊輸出的特征圖ep0分別作為金字塔池化分支的五層輸入,其中,特征向量ep0經過的第v層池化層后輸出向量ev,再對向量ev進行卷積核為1×1卷積操作得到卷積向量econ_v,再對卷積向量econ_v進行雙線性插值上采樣得到特征向量ebranch_v,由五層得到的特征向量分別為ebranch_1,ebranch_2,ebranch_3,ebranch_4,ebranch_5;將特征向量ep0和五層分別輸出的特征向量ebranch_1,ebranch_2,ebranch_3,ebranch_4,ebranch_5按通道數維度進行concat操作,得到金字塔池化分支的預測向量eppm,最后將三個預測向量epred,eatt,eppm按通道數維度進行concat操作后,得到k維預測向量epredict,并作為所述隱式特征提取模型的輸出;
步驟5.2、網絡訓練:
基于所述測試集Gtest,使用隨機梯度下降法最小化如式(2)所示的交叉熵損失函數以優化所述隱式特征提取模型的權重,從而訓練所述隱式特征提取模型直到收斂為止;
式(2)中,表示測試集Gtest中第n2個樣本,表示第n2個樣本對應身份標簽向量的第d維的值,表示第n2個樣本經過隱式特征提取模型處理得到的k維預測向量的第d維的值;
步驟5.3、隱式特征提取;
將測試集Gtest中N2個樣本輸入訓練好的隱式特征提取模型中,并經過特征提取分支的全連接層后輸出I維隱式特征向量集合其中,表示第n2個樣本經過特征提取分支的全連接層后得到的k維隱式特征向量;
步驟6.κ-means聚類:
步驟6.1、構造特征向量:
由k維隱式特征向量集合FeatureAFNet和MFCC特征向量FeatureMFCC構成N2個U+I維的特征向量集合其中,表示第n2個樣本的特征向量,且
步驟6.2、初始化d=1;從特征向量集合Feature中隨機選擇k個樣本m1,m2,...,mr,...,mk作為第d次迭代的聚類中心;
步驟6.2.1、初始化k個聚類S={S1,S2,...,Sr,...,Sk}并作為第d次迭代的k個聚類
步驟6.2.2、利用式(3)將特征向量集合Feature中的特征向量分配到第d次迭代的k個聚類中,Sr表示第r個聚類:
式(3)中,表示在第d次迭代中第r個聚類,表示在第d次迭代中第r個聚類中心;
步驟6.2.3、利用式(4)對第d次迭代中第r個聚類中心進行更新,得到在第d+1次迭代中第r個聚類中心,從而得到第d+1次迭代的聚類中心
步驟6.2.4、將d+1賦值給d后,返回步驟6.2.2順執行,直到收斂,從而得到k個聚類,用于對會話語音集合W進行分割。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于合肥工業大學,未經合肥工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111245978.0/1.html,轉載請聲明來源鉆瓜專利網。





