[發明專利]基于深度神經網絡的口音分類方法及其模型在審
| 申請號: | 202110052375.2 | 申請日: | 2021-01-14 |
| 公開(公告)號: | CN112992119A | 公開(公告)日: | 2021-06-18 |
| 發明(設計)人: | 王偉;吳小培;張超;呂釗;張磊;郭曉靜;高湘萍;周蚌艷 | 申請(專利權)人: | 安徽大學 |
| 主分類號: | G10L15/00 | 分類號: | G10L15/00;G10L15/02;G10L15/06;G10L15/08;G10L15/16;G10L15/30;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 合肥市上嘉專利代理事務所(普通合伙) 34125 | 代理人: | 李璐 |
| 地址: | 230601 安徽省*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 神經網絡 口音 分類 方法 及其 模型 | ||
1.一種基于深度神經網絡的口音分類方法,其特征在于,包括以下步驟:
S1:提取原始音頻的幀級頻域特征,并構建2D語音頻譜作為網絡輸入X;
S2:構建一個多任務權值共享的基于CRNNs的前端編碼器來提取頻譜X的局部序列描述符{P1,...,PT′};
S3:在訓練過程中,在前端編碼器后增設語音識別任務分支網絡,用來糾正訓練過程中學習方向即抑制口音識別中的過擬合現象;
S4:構建用于口音識別任務的核心分支網絡,將所有局部序列描述符整合成一個全局口音特征;
S5:在預測過程中引入判別性損失函數,用于增強全局口音特征的判別能力;
S6:通過基于softmax的分類層對全局口音特征進行分類,實現口音預測。
2.根據權利要求1所述的基于深度神經網絡的口音分類方法,其特征在于,步驟S1的具體步驟為:對于一段語音信號,在每幀語音信號內提取MFCC或者FBANK頻域特征來構建2D語音頻譜,然后擴張通道維度用于CNN運算。
3.根據權利要求1所述的基于深度神經網絡的口音分類方法,其特征在于,所述基于CRNNs的前端編碼器包括卷積神經網絡(CNNs)、循環神經網絡(RNNs)、位于CNNs與RNNs之間的序列共享的全連接層(FC);
所述CNNs中每層會對上一層特征圖進行池化并增加特征圖數目;
所述全連接層(FC)用來降低幀級維度;
所述RNNs用來進一步提取局部序列描述子{P1,...,PT′}。
4.根據權利要求1所述的基于深度神經網絡的口音分類方法,其特征在于,所述語音識別任務分支網絡包括編碼器RNNs層、解碼器;
所述RNNs層用來對共享局部序列描述符繼續抽取高級語義特征;
所述解碼器采用的類型包括CTC、Attention、CTC/Attention、Transformer。
5.根據權利要求1所述的基于深度神經網絡的口音分類方法,其特征在于,在步驟S4中,對局部序列描述符的整合方式包括平均池化、RNN、聚集描述向量VLAD。
6.根據權利要求1所述的基于深度神經網絡的口音分類方法,其特征在于,在步驟S5中,所述判別性損失函數的基本形式是softmax的變體函數+用于多分類任務的交叉熵函數;
所述交叉熵函數為:
其中M表示類別數目,N表示為樣本個數,yic表示樣本i是否為類c的標簽,pic表示樣本i為類c的概率;
所述softmax的變體函數包括CosFace、ArcFace、Circle-Loss。
7.一種基于深度神經網絡的口音分類模型,其特征在于,主要包括:
語音輸入模塊,用于提取原始音頻的幀級頻域特征,并構建2D語音頻譜作為網絡輸入X;
基于CRNNs的前端編碼器,用于提取頻譜X的局部序列描述符{P1,...,PT′};
語音識別任務分支網絡,位于所述前端編碼器之后,用來糾正訓練過程中學習方向即抑制口音識別中的過擬合現象;
用于口音識別任務的核心分支網絡,用于將所有局部序列描述符整合成一個全局口音特征、在全局口音特征后增設判別性損失函數來增強全局口音特征的判別能力、在全局口音特征后添加基于softmax的分類層用于口音預測;
分類結果輸出模塊,用于輸出所述用于口音識別任務的核心分支網絡的判別性損失函數和基于softmax的口音分類層,以及所述語音識別任務分支網絡中的解碼器。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于安徽大學,未經安徽大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110052375.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種相控陣掃查裝架防偏離裝置
- 下一篇:一種多輸出可充足充電多用電源電路





