[發明專利]使用視覺信息增強視頻中人類說話者的語音信號的方法和系統在審
| 申請號: | 201880054901.5 | 申請日: | 2018-07-03 |
| 公開(公告)號: | CN111052232A | 公開(公告)日: | 2020-04-21 |
| 發明(設計)人: | 施繆爾·潘萊格;阿薩夫·沙米爾;塔維·哈普林;阿維夫·加貝;阿里爾·艾弗拉特 | 申請(專利權)人: | 耶路撒冷希伯來大學伊森姆研究發展有限公司 |
| 主分類號: | G10L21/0216 | 分類號: | G10L21/0216;G10L21/0272;G06K9/00;G06K9/62;G10L25/57;G10L21/0232 |
| 代理公司: | 北京安信方達知識產權代理有限公司 11262 | 代理人: | 俞立文;楊明釗 |
| 地址: | 以色列*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 使用 視覺 信息 增強 視頻 人類 說話 語音 信號 方法 系統 | ||
1.一種方法,包括:
獲得視頻,其中所述視頻包括:顯示至少一個人類說話者的面部或面部部分的圖像序列,以及對應于所述視頻的原始聲軌;以及
使用計算機處理器處理所述視頻,以通過檢測與所述至少一個人類說話者的語音在聽覺上無關的聲音來產生所述至少一個人類說話者的增強語音信號,其中所述檢測基于從所述圖像序列導出的視覺數據和所述原始聲軌。
2.根據權利要求1所述的方法,其中,所述處理包括移除與所述至少一個人類說話者的語音在聽覺上無關的所述聲音。
3.根據權利要求1所述的方法,其中,所述原始聲軌和所述增強語音信號各自分別由二維(2D)離散時間-頻率(DTF)變換表示,其中每個單元至少表示在給定時間范圍、在給定頻率范圍的所述語音信號的幅度。
4.根據權利要求1所述的方法,其中,所述原始聲軌和所述增強語音信號分別由第一短期傅立葉變換(STFT)或頻譜圖以及第二STFT或頻譜圖表示。
5.根據權利要求3所述的方法,其中,所述處理是通過所述原始聲軌的所述2D DTF中的每個單元與2D濾波器的相應單元逐點相乘來執行的。
6.根據權利要求1至5中任一項所述的方法,其中,所述處理至少部分地使用神經網絡來執行。
7.根據權利要求5所述的方法,其中,所述2D濾波器至少部分基于所述原始視頻生成。
8.根據權利要求5或7中任一項所述的方法,其中,所述2D濾波器使用發聲到聽覺的映射來生成,所述映射將所述原始輸入圖像序列作為輸入。
9.根據權利要求6所述的方法,其中,所述神經網絡已經在具有相應的干凈語音信號的一組視頻上被訓練。
10.根據權利要求5、7或8中任一項所述的方法,其中,所述2D濾波器至少部分地使用神經網絡來計算。
11.根據權利要求10所述的方法,其中,所述神經網絡在具有相應的干凈語音信號的一組視頻上被訓練。
12.根據前述權利要求中任一項所述的方法,其中,與所述原始聲軌相比,所述增強語音信號表現出較少的噪聲。
13.根據前述權利要求中任一項所述的方法,其中,與所述原始聲軌相比,所述增強語音信號表現出所述至少一個人類說話者與包括在所述原始聲軌中的另一個說話者的更好的說話者分離。
14.一種系統,包括被配置成實現前述權利要求中任一項的至少一個計算機處理器。
15.一種非暫時性計算機可讀介質,包括一組指令,所述一組指令當被執行時使得至少一個計算機處理器實現權利要求1至13中的任一項。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于耶路撒冷希伯來大學伊森姆研究發展有限公司,未經耶路撒冷希伯來大學伊森姆研究發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201880054901.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:認證裝置、認證系統、認證方法以及程序
- 下一篇:檢測癌癥的方法和檢測試劑
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





