[發明專利]用于視頻場景的上下文信息預測模型的訓練方法及系統有效
| 申請號: | 202010680970.6 | 申請日: | 2020-07-15 |
| 公開(公告)號: | CN111883105B | 公開(公告)日: | 2022-05-10 |
| 發明(設計)人: | 錢彥旻;李晨達 | 申請(專利權)人: | 思必馳科技股份有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/06;G10L15/16;G10L15/187;G06N3/08 |
| 代理公司: | 北京商專永信知識產權代理事務所(普通合伙) 11400 | 代理人: | 黃謙;車江華 |
| 地址: | 215123 江蘇省蘇州市蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 視頻 場景 上下文 信息 預測 模型 訓練 方法 系統 | ||
本發明實施例提供一種用于視頻場景的上下文信息預測模型的訓練方法。該方法包括:通過端到端語音識別編碼器提取第一說話人的第一干凈音頻以及第二說話人的第二干凈音頻中的第一理想上下文特征以及第二理想上下文特征;將混合音頻的幅度譜、以及第一說話人的第一視覺表示信息以及第二說話人的第二視覺表示信息,作為上下文信息預測模型的輸入,輸出第一預測上下文特征以及第二預測上下文特征;基于第一理想上下文特征以及第二理想上下文特征與第一預測上下文特征以及第二預測上下文特征的誤差對上下文信息預測模型訓練。本發明實施例還提供一種用于視頻場景的上下文信息預測模型的訓練系統。本發明實施例提升語音分離的性能。
技術領域
本發明涉及智能語音領域,尤其涉及一種用于視頻場景的上下文信息預測模型的訓練方法及系統。
背景技術
用多模式方法解決雞尾酒會問題變得很流行。為了解決雞尾酒會中的語音分離問題,通常使用:傳統的深度神經網絡語音分離技術、基于音視頻信息的語音分離技術。
傳統的深度神經網絡語音分離技術。系統使用神經網絡對混合了多個說話人的音頻進行處理。以兩個目標說話人的系統舉例,網絡輸入為混合的音頻,輸出為分離出來的兩個說話人各自的音頻。
基于音視頻信息的語音分離技術。系統在進行語音分離的時候,融入了目標說話人的視頻信息(視頻包括說話口型等重要信息)。神經網絡結合目標說話人的視頻信息,從混合的音頻中分離出目標說話人對應的語音音頻。
在實現本發明過程中,發明人發現相關技術中至少存在如下問題:
傳統的深度神經網絡語音分離技術,由于分離的兩個目標聲音是對等的,在訓練時,會遇到輸出與訓練標簽的匹配問題。需要使用置換不變性準則進行訓練,訓練開銷較大。
基于音視頻信息的語音分離技術,將目標說話人的視頻信息融入神經網絡,消除了音頻之間的對等問題,并且引入了更多可以利用的信息。但是如何進一步利用視頻信息沒有被很好地探索。
發明內容
為了至少解決現有技術中深度語音分離技術沒有額外的信息,標簽的匹配訓練開銷大,沒有考慮到視頻信息應用到語音分離技術中的問題。
第一方面,本發明實施例提供一種用于視頻場景的上下文信息預測模型的訓練方法,包括:
通過單說話人的端到端語音識別編碼器提取第一說話人的第一干凈音頻以及第二說話人的第二干凈音頻中的第一理想上下文特征以及第二理想上下文特征;
將由所述第一干凈音頻以及所述第二干凈音頻生成的混合音頻的幅度譜、以及所述第一說話人的第一視覺表示信息以及所述第二說話人的第二視覺表示信息,作為上下文信息預測模型的輸入,輸出第一預測上下文特征以及第二預測上下文特征;
基于所述第一理想上下文特征以及所述第二理想上下文特征與所述第一預測上下文特征以及所述第二預測上下文特征的誤差對所述上下文信息預測模型訓練,直至所述第一預測上下文特征以及所述第二預測上下文特征趨近于所述第一理想上下文特征以及所述第二理想上下文特征。
第二方面,本發明實施例提供一種上下文信息預測方法,包括:
將待分離混合語音的幅度譜輸入至根據本發明第一方面的實施例提供的用于視頻場景的上下文信息預測模型的訓練方法訓練后的上下文信息預測模型,通過類視覺組卷積網絡在時頻維度上進行特征提取,以及在時間維度上進行下采樣;
將特征提取以及采樣后的幅度譜輸入至深度殘差網絡,得到高維音頻模態表示;
將待分離混合語音中第一說話人的第一視覺表示信息以及第二說話人的第二視覺表示信息輸入至所述上下文信息預測模型,通過所述深度殘差網絡確定第一高維視覺模態表示以及第二高維視覺模態表示;
將所述高維音頻模態表示、所述第一高維視覺模態表示以及所述第二高維視覺模態表示進行拼接,確定拼接模態表示;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于思必馳科技股份有限公司,未經思必馳科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010680970.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種建筑用墻壁水泥抹灰找平裝置
- 下一篇:一種脂質體-DNA復合體及其應用





