[發明專利]基于深度神經網絡的口音分類方法及其模型在審
| 申請號: | 202110052375.2 | 申請日: | 2021-01-14 |
| 公開(公告)號: | CN112992119A | 公開(公告)日: | 2021-06-18 |
| 發明(設計)人: | 王偉;吳小培;張超;呂釗;張磊;郭曉靜;高湘萍;周蚌艷 | 申請(專利權)人: | 安徽大學 |
| 主分類號: | G10L15/00 | 分類號: | G10L15/00;G10L15/02;G10L15/06;G10L15/08;G10L15/16;G10L15/30;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 合肥市上嘉專利代理事務所(普通合伙) 34125 | 代理人: | 李璐 |
| 地址: | 230601 安徽省*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 神經網絡 口音 分類 方法 及其 模型 | ||
本發明公開了一種基于深度神經網絡的口音分類方法,包括:提取原始音頻的幀級頻域特征,構建2D語音頻譜作為網絡輸入X;構建一個多任務權值共享的基于CRNNs的前端編碼器來提取頻譜X的局部序列描述符{P1,…,PT'};在訓練過程中,前端編碼器后增設語音識別任務分支網絡,用來抑制口音識別中的過擬合現象;構建用于口音識別任務的核心分支網絡,首先將所有局部序列描述符整合成一個全局口音特征;然后在預測過程中引入判別性損失函數;最后通過基于softmax的分類層對全局口音特征進行分類,實現口音預測。還公開了一種高度可判別性的基于深度神經網絡的口音分類模型,對來自不同區域群體的說話人能給出一個可靠的口音預測。
技術領域
本發明涉及深度學習領域,特別是涉及一種基于深度神經網絡的口音分類方法及其模型。
背景技術
口音是在某一語言下說話人的多樣性發音行為,該不同的發音方式可歸因于說話人的社會環境,居住區域等等。然而各種各樣的口音會對語音控制的相關技術的泛化性提出挑戰,例如自動語音識別。口音識別技術可用于針對性解決口音相關問題或者預測說話人區域身份,在近些年來被廣泛深入研究。隨著深度學習技術的日益發展,越來越多的圖像或者語音的識別問題采用訓練人工神經網絡模型得以很好解決。同人臉識別、說話人識別等工作類似,實現口音識別任務的核心內容可總結如下:(1)使用CNN和RNN網絡來提取輸入頻譜的局部特征;(2)將局部特征整合成一個定長的且全局口音特征;(3)對于識別任務,我們希望口音特征具有良好的判別性,因此選擇合適的判別性損失函數來進行特征學習是至關重要。
在深度學習領域中,受到了人類視覺神經系統的啟發,CNN使用卷積核來代替人類中的視野,這樣既能夠降低計算量,又能夠有效的保留圖像的特征,同時對圖片的處理更加地高效,AlexNet、VGG、ResNet等CNN網絡廣泛應用于圖像識別任務中提取不同局部特征。RNN是一種用于處理序列數據的神經網絡,相比一般的神經網絡來說,它能夠處理序列變化的數據,LSTM,GRU,SRU等特殊的RNN通過改進可以捕捉長期的依賴關系,被廣泛應用于序列到序列或者序列分類等問題中。卷積循環網絡(CRNN)將CNN和RNN二者結合用于處理基于圖像的序列問題,例如光學字符識別(OCR)、聲音事件檢測、語音識別等任務。通過CNN/RNN提取的局部特征在神經網絡的分類層前需要重構成1維向量,在圖像識別任務中常見的作法是進行平鋪,但是該方法會生成較大維度特征向量進而增加訓練參數。在圖像檢索任務中,NetVLAD將局部特征通過k個類心軟對齊后聚集得到一個全局特征。對于序列特征常見的多對一特征融合方法有平均/標準差池化,RNN等。此外,損失函數在深度特征學習中扮演著至關重要的角色,它決定著網絡的學習準則和特征的表征性能。在諸多分類任務中,人們希望獲取一個優異判別性的特征空間,即類內樣本特征差異盡可能小,類間樣本特征差異盡可能大。softmax是一個最常見分類損失函數,但是其所追求成功分類的概率空間并不意味也是一個良好的度量空間,因此很多softmax的變體被提出。早期對損失函數改進有對特征和類屬權值進行L2歸一化,后來AM-Softmax、CosFace、ArcFace等損失函數進一步在角度空間添加margin來加強特征的判別性。
不考慮信道,背景噪聲等外部因素,面向說話人識別的深度網絡將說話人語音中性別,語速,發音等音色信息濃縮成個體級的特征。但是口音屬于在同一區域下一群說話人的發音習慣,因此口音識別比說話人識別更具挑戰性在于學習一個群體級特征。特別是在越來越多說話人傾向標準式發音的語音場景下,口音的偵測與識別愈加困難。另外,因為口音識別任務訓練過程容易產生過擬合現象,這往往由于不準確的學習過程造成。
因此亟需提供一種新型的基于深度神經網絡的口音分類方法及其模型來解決上述問題。
發明內容
本發明所要解決的技術問題是提供一種基于深度神經網絡的口音分類方法及其模型,借鑒和吸收深度學習領域中人臉識別和說話人識別人物中的一些核心方法來解決口音識別問題;此外針對訓練過程中的過擬合現象,還提出采用語音識別輔助任務來緩和該問題。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于安徽大學,未經安徽大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110052375.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種相控陣掃查裝架防偏離裝置
- 下一篇:一種多輸出可充足充電多用電源電路





