[發明專利]基于人工智能的預訓練優化方法、裝置、設備及介質在審
| 申請號: | 202211082546.7 | 申請日: | 2022-09-06 |
| 公開(公告)號: | CN115620749A | 公開(公告)日: | 2023-01-17 |
| 發明(設計)人: | 張之勇;王健宗 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G10L25/63 | 分類號: | G10L25/63;G10L25/03;G06F18/23213;G06F18/214;G06N3/09;G06N3/0464;G06N3/0442 |
| 代理公司: | 深圳眾鼎專利商標代理事務所(普通合伙) 44325 | 代理人: | 姚章國 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 人工智能 訓練 優化 方法 裝置 設備 介質 | ||
本申請適用于人工智能技術領域,尤其涉及一種基于人工智能的預訓練優化方法、裝置、設備及介質。該方法使用第一情感預測模型提取句級語音中的幀級特征,將句級語音的句級情感標簽作為幀級特征的情感類別,對幀級特征進行編碼和預測,以編碼的結果與預測的結果的負余弦相似度最小化為目標,訓練預設編碼器,將幀級特征輸入訓練好的預設編碼器,輸出更新幀級特征,對所有的更新幀級特征進行聚類,并根據聚類結果確定對應幀數據的偽標簽,以此為依據對第二情感預測模型進行訓練,通過預設編碼器和預設預測網絡最大化相同標簽下的特征之間的相似性,通過聚類進一步加強低維特征與情感信息的相關性,從而提高模型對情感信息的預測準確性。
技術領域
本申請適用于人工智能技術領域,尤其涉及一種基于人工智能的預訓練優 化方法、裝置、設備及介質。
背景技術
目前,語音情感識別(Speech Emotion Recognition,SER)是數字語音信號 處理領域的一個新興的研究方向,為人機交互開辟了全新的道路,在很多場景 中扮演了重要的角色。呼叫中心使用SER技術跟蹤客戶情緒,為其提供更好的 服務;在醫學領域,基于SER技術的診斷系統能夠分析患者的抑郁和痛苦的程 度;還有許多其他應用也利用高效的SER系統提高他們的工作效率。
人類聲音中的情感受到多方面因素,如性別、年齡、說話人、方言和文化 的影響,因此如何更好的對情感進行建模一直是研究人員的重點研究方向。如 今,基于深度學習(Deep Leraning)的方法成為了主流。其中,自注意力 (Self-Supervised)預訓練模型提供了一種高性能的解決方案。雖然預訓練可以 使用大規模異構數據集,獲得性能強大且泛用性很好的模型,但是由于預訓練 任務與目標任務并不完全一致,即預訓練域和目標域存在差異,導致預訓練模 型應用于特定任務的效果不夠理想。在SER任務中,通常使用大量未標注的數 據進行預訓練,需要預訓練的模型具備對未標注數據進行較為準確的情感信息 提取。因此,如何對預訓練模型進行預訓練優化,以提高預訓練模型對未標注 數據的情感信息提取的準確性成為亟待解決的問題。
發明內容
有鑒于此,本申請實施例提供了一種基于人工智能的預訓練優化方法、裝 置、設備及介質,以解決如何對預訓練模型進行預訓練優化,以提高預訓練模 型對未標注數據的情感信息提取的準確性的問題。
第一方面,本申請實施例提供一種基于人工智能的預訓練優化方法,所述 預訓練優化方法包括:
針對訓練集中任一句級語音,使用第一情感預測模型提取所述句級語音中 每一幀數據對應的幀級特征,將所述句級語音的句級情感標簽作為所述幀級特 征的情感類別,得到所述訓練集中所有幀數據的幀級特征對應的情感類別;
針對任一情感類別,將屬于所述情感類別的所有幀級特征輸入預設編碼器 進行編碼,從所述情感類別的所有幀級特征中隨機選擇至少一個幀級特征輸入 預設預測網絡進行預測;
以編碼的結果與預測的結果的負余弦相似度最小化為目標,訓練所述預設 編碼器,得到訓練好的預設編碼器,將屬于所述情感類別的所有幀級特征輸入 所述訓練好的預設編碼器,輸出對應的更新幀級特征,得到所述訓練集中所有 幀數據的更新幀級特征;
根據所有幀數據的更新幀級特征及對應的情感類別,對所有的更新幀級特 征進行聚類,并根據聚類結果對所有的更新幀級特征對應的情感類別進行更新, 確定更新結果為對應幀數據的偽標簽;
以所述訓練集中所有幀數據的偽標簽為依據,使用所述訓練集對第二情感 預測模型進行訓練,得到預訓練好的第二情感預測模型,所述第一情感預測模 型和所述第二情感預測模型均具有時間步長對齊的特征編碼器。
在一實施方式中,根據所有幀數據的更新幀級特征及對應的情感類別,對 所有的更新幀級特征進行聚類,并根據聚類結果對所有的更新幀級特征對應的 情感類別進行更新,確定更新結果為對應幀數據的偽標簽包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211082546.7/2.html,轉載請聲明來源鉆瓜專利網。





