[發明專利]用于視頻場景的上下文信息預測模型的訓練方法及系統有效
| 申請號: | 202010680970.6 | 申請日: | 2020-07-15 |
| 公開(公告)號: | CN111883105B | 公開(公告)日: | 2022-05-10 |
| 發明(設計)人: | 錢彥旻;李晨達 | 申請(專利權)人: | 思必馳科技股份有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/06;G10L15/16;G10L15/187;G06N3/08 |
| 代理公司: | 北京商專永信知識產權代理事務所(普通合伙) 11400 | 代理人: | 黃謙;車江華 |
| 地址: | 215123 江蘇省蘇州市蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 視頻 場景 上下文 信息 預測 模型 訓練 方法 系統 | ||
1.一種用于視頻場景的上下文信息預測模型的訓練方法,包括:
通過單說話人的端到端語音識別編碼器提取第一說話人的第一干凈音頻以及第二說話人的第二干凈音頻中的第一理想上下文特征以及第二理想上下文特征;
將由所述第一干凈音頻以及所述第二干凈音頻生成的混合音頻的幅度譜、以及所述第一說話人的第一視覺表示信息以及所述第二說話人的第二視覺表示信息,作為上下文信息預測模型的輸入,輸出第一預測上下文特征以及第二預測上下文特征;
基于所述第一理想上下文特征以及所述第二理想上下文特征與所述第一預測上下文特征以及所述第二預測上下文特征的誤差對所述上下文信息預測模型訓練,直至所述第一預測上下文特征以及所述第二預測上下文特征趨近于所述第一理想上下文特征以及所述第二理想上下文特征。
2.根據權利要求1所述的方法,其中,所述端到端語音識別編碼器的數量與所述說話人的數量相同,其中,各端到端語音識別編碼器共享權值。
3.根據權利要求1所述的方法,其中,所述第一視覺表示信息以及所述第二視覺表示信息包括:說話人嘴形區域的視頻圖像所提取的特征。
4.根據權利要求1所述的方法,其中,所述上下文信息預測模型包括:二維的類視覺組卷積網絡、共享權值的一維深度殘差網絡、雙向長短時記憶元循環神經網絡。
5.一種上下文信息預測方法,包括:
將待分離混合語音的幅度譜輸入至根據權利要求1所述的訓練方法訓練后的上下文信息預測模型,通過類視覺組卷積網絡在時頻維度上進行特征提取,以及在時間維度上進行下采樣;
將特征提取以及采樣后的幅度譜輸入至深度殘差網絡,得到高維音頻模態表示;
將待分離混合語音中第一說話人的第一視覺表示信息以及第二說話人的第二視覺表示信息輸入至所述上下文信息預測模型,通過所述深度殘差網絡確定第一高維視覺模態表示以及第二高維視覺模態表示;
將所述高維音頻模態表示、所述第一高維視覺模態表示以及所述第二高維視覺模態表示進行拼接,確定拼接模態表示;
將所述拼接模態表示輸入至兩個不同的雙向長短時記憶元循環神經網絡得到所述第一說話人的第一上下文信息表示以及所述第二說話人的第二上下文信息表示。
6.一種語音分離方法,包括:
將所述權利要求5確定的所述第一高維視覺模態表示、所述第二高維視覺模態表示、所述待分離混合語音的幅度譜、所述第一上下文信息表示以及所述第二上下文信息表示輸入至語音分離系統,確定所述待分離混合語音的高維特征表示;
基于所述高維特征表示確定第一說話人的第一幅度譜遮掩以及第二幅度譜遮掩;
通過所述第一幅度譜遮掩以及第二幅度譜遮掩對所述待分離混合語音的幅度譜進行預測,確定所述第一說話人的分離語音以及第二說話人的分離語音。
7.根據權利要求6所述的方法,其中,所述語音分離系統包括注意力機制,以用于輔助預測語音分離。
8.一種用于視頻場景的上下文信息預測模型的訓練系統,包括:
理想上下文特征確定程序模塊,用于通過單說話人的端到端語音識別編碼器提取第一說話人的第一干凈音頻以及第二說話人的第二干凈音頻中的第一理想上下文特征以及第二理想上下文特征;
預測上下文特征確定程序模塊,用于將由所述第一干凈音頻以及所述第二干凈音頻生成的混合音頻的幅度譜、以及所述第一說話人的第一視覺表示信息以及所述第二說話人的第二視覺表示信息,作為上下文信息預測模型的輸入,輸出第一預測上下文特征以及第二預測上下文特征;
訓練程序模塊,用于基于所述第一理想上下文特征以及所述第二理想上下文特征與所述第一預測上下文特征以及所述第二預測上下文特征的誤差對所述上下文信息預測模型訓練,直至所述第一預測上下文特征以及所述第二預測上下文特征趨近于所述第一理想上下文特征以及所述第二理想上下文特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于思必馳科技股份有限公司,未經思必馳科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010680970.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種建筑用墻壁水泥抹灰找平裝置
- 下一篇:一種脂質體-DNA復合體及其應用





