[發明專利]一種聽覺前端與基于注意力的3DCRNN結合的語音情感識別方法在審
| 申請號: | 202110629472.3 | 申請日: | 2021-06-04 |
| 公開(公告)號: | CN113327588A | 公開(公告)日: | 2021-08-31 |
| 發明(設計)人: | 黃超;張毅;鄭凱 | 申請(專利權)人: | 重慶郵智機器人研究院有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/06;G10L15/08;G10L15/16;G10L25/63 |
| 代理公司: | 北京同恒源知識產權代理有限公司 11275 | 代理人: | 楊柳岸 |
| 地址: | 401220 重慶*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 聽覺 前端 基于 注意力 dcrnn 結合 語音 情感 識別 方法 | ||
本發明涉及一種聽覺前端與基于注意力的3DCRNN結合的語音情感識別方法,屬于語音信號處理與模式識別領域,包括:S1:利用聽覺系統對語音信號進行處理,提取出表征語音情感信息的基于時間調制信號的語譜圖;S2:利用3DCNN模型從語譜圖中提取情感語音的光譜?時間特征;S3:通過ARNN提取光譜?時間特征的長期依賴關系,利用時間注意模型來捕捉與情感相關的重要信息;S4:更新自身的參數使得損失最小,使用驗證集對訓練后的模型進行10倍交叉驗證,交叉熵作為損失函數,用RMSProp算法對模型參數進行優化;S5:使用驗證集對訓練后的模型驗證,調整超參數,最后利用Softmax層進行語音情感分類。
技術領域
本發明屬于語音信號處理與模式識別領域,涉及一種聽覺前端與基于注意力的3DCRNN結合的語音情感識別方法。
背景技術
人工智能領域的不斷發展使得人類與計算機的關系日益密切,情感計算更是其中一個重要研究領域,在人機交互中情感交互具有非常重要的意義。而語言是人類信息交流的直接媒介,所以,語音情感識別(SER)相較于其他情感識別技術來說,在實用性和應用廣泛程度上最具有代表性。情感識別過程中的一個關鍵環節是從語音信號中提取出可以表征人類情感的特征集,迄今為止,仍然沒有一個很系統的特征集。
之前很多研究都是直接從語音中提取低層次描述符(LLDs),再利用傳統的機器學習方法對情感進行分類。但是,由于存在上下文和表達情感的不同方式等因素,從LLDs選取特征集進行SER的效果不是特別理想。隨著科技的發展,圖像處理變得易于實現,因此SER研究的新熱點是將語音信號轉化為語譜圖作為SER的識別對象。這種方法避免了手工特征提取的繁瑣過程,減少建模和訓練工作量。它還能反映語音信號的能量特性和節奏變化的紋理特征,已有許多研究者開始基于譜圖開展語音情感識別技術的研究,并取得了良好的效果。Tarunika等使用深度神經網絡(DNN)從幅度譜中提取高級情感特征表示,并且與傳統聲學特征相比表現出更好的性能。Han等提出一種DNN-ELM深度網絡模型用于SER,使用能量最高的片段來訓練DNN模型,以提取有效的情緒信息。
近幾年,CNN和RNN在SER領域應用廣泛,深卷積模型可以保持語音信號的譜時平移不變性,RNN在處理時序信息方面表現優異,因此常用于提取情感語音的高級特征。Neumann等將無監督自動編碼器學習表示集成到CRNN情感分類器中,提高了識別精度。但是,CNN從語譜圖中學習特征的這種方法,僅僅是對單幀圖的CNN特征進行融合,因此往往忽略了相鄰的連續語音幀間的聯系,因此,一些研究提出了三維卷積模型用于SER,可以更好地捕捉特征表示的短期時空關系。Peng等人將譜圖信息直接作為三維-CRNN的輸入,卷積層用于提取高層次表示,遞歸層則提取用于情感識別的長期依賴關系。針對沉默幀和情感無關幀對SER的干擾,Chen等提出了一種基于注意力的3D卷積遞歸神經網絡(ACRNN)模型用于學習SER的判別特征,注意力機制的引入有效降低了沉默幀等冗余信息的影響。但是傳統調制譜特征存在的紋理特征信息不完善,導致語音情感識別的準確率下降。且在網絡結構復雜時,需要訓練的參數也逐漸增多,導致計算量非常大。
發明內容
有鑒于此,本發明的目的在于提供一種可獲得較高識別率、有效解決原始特征信息表征能力不強以及時空關聯性弱的問題的一種聽覺前端與基于注意力的3DCRNN結合的語音情感識別方法。
為達到上述目的,本發明提供如下技術方案:
一種聽覺前端與基于注意力的3DCRNN結合的語音情感識別方法,包括以下步驟:
S1:利用聽覺系統對語音信號進行處理,提取出表征語音情感信息的基于時間調制信號的語譜圖;
S2:利用3DCNN模型從語譜圖中提取情感語音的光譜-時間特征;
S3:將3DCNN的輸出作為ARNN模型的輸入,通過ARNN提取光譜-時間特征的長期依賴關系,利用時間注意模型來捕捉每個話語中與情感相關的重要信息;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵智機器人研究院有限公司,未經重慶郵智機器人研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110629472.3/2.html,轉載請聲明來源鉆瓜專利網。





