[發明專利]使用視覺信息增強視頻中人類說話者的語音信號的方法和系統在審
| 申請號: | 201880054901.5 | 申請日: | 2018-07-03 |
| 公開(公告)號: | CN111052232A | 公開(公告)日: | 2020-04-21 |
| 發明(設計)人: | 施繆爾·潘萊格;阿薩夫·沙米爾;塔維·哈普林;阿維夫·加貝;阿里爾·艾弗拉特 | 申請(專利權)人: | 耶路撒冷希伯來大學伊森姆研究發展有限公司 |
| 主分類號: | G10L21/0216 | 分類號: | G10L21/0216;G10L21/0272;G06K9/00;G06K9/62;G10L25/57;G10L21/0232 |
| 代理公司: | 北京安信方達知識產權代理有限公司 11262 | 代理人: | 俞立文;楊明釗 |
| 地址: | 以色列*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 使用 視覺 信息 增強 視頻 人類 說話 語音 信號 方法 系統 | ||
本文提供了一種用于增強語音信號的方法和系統。該方法可以包括以下步驟:獲得原始視頻,其中該原始視頻包括顯示至少一個人類說話者面部的原始輸入圖像序列,以及與所述圖像序列同步的原始聲軌;以及使用計算機處理器處理原始視頻,以基于從原始輸入圖像序列導出的視覺數據,通過檢測與至少一個人類說話者的語音在聽覺上無關的聲音,產生所述至少一個人類說話者的增強語音信號。
發明領域
本發明總體上涉及語音信號增強,更具體地,涉及通過使用面部和嘴部運動的視覺信息去除聽覺上不相關的聲音來增強語音信號。
發明背景
當視頻在演播室錄制時,聲音中沒有外部噪音和不相關的聲音。然而,大多數視頻不是在工作室拍攝的。在家庭活動中拍攝的人們的話音與音樂和其他話音混合在一起。家里或辦公室的視頻會議經常被其他人、響鈴的電話或吠叫的狗打擾。城市街道上的電視報道混雜著交通噪音、風的聲音等等。
本領域中先前已知的單通道或單聲道語音分離方法通常僅使用音頻信號作為輸入。一種主要的方法是頻譜掩蔽,其中分離模型發現包含由每個說話者主導的時間-頻率(TF)分量的矩陣。掩模或濾波器可以是二元或軟的。一種方法使用被稱為深度聚類的方法來處理單通道多說話者分離,其中使用經過區分訓練的語音嵌入作為聚類以及隨后分離語音的基礎。
視聽(Audio-Visual)語音處理
視聽語音處理的最新研究廣泛使用了神經網絡。具有視覺輸入的神經網絡已經用于唇讀、聲音預測,并用于學習無監督的聲音表示。視聽語音增強和分離方面的工作也已經完成。一種方法使用手動設計(handcrafted)的視覺特征來導出用于說話者分離的二元和軟掩模。大多數已知的方法描述了一種神經網絡,其輸出表示增強語音的頻譜圖。
存在從說話者的無聲視頻幀生成可理解語音的不同方法。
在由本發明的發明人在“ICASSP 2017-Vid2Speech:Speech Reconstructionfrom Silent Video”和其他地方提出的被稱為Vid2speech的方法中,生成表示語音的線性頻譜圖,該語音來自說話的人的無聲視頻幀序列。Vid2speech模型采用兩個輸入:顯示說話者面部或說話者面部的一部分的K個連續視頻幀的剪輯,以及對應于連續幀的像素在(u;v)方向上的運動的(K+1)個連續密集光流場的“剪輯”。
Vid2speech架構由雙塔殘差神經網絡(ResNet)組成,ResNet由He,Kaiming等人在2016年發表于CVPR上的題為“Deep residual learning for image recognition”的文章中公開,其采用前述輸入并將它們編碼成表示視覺特征的潛在向量。潛在向量被饋送到一系列兩個完全連接的層中,隨后是后處理網絡,后處理網絡聚集多個連續的mel-scale頻譜圖預測,并將它們映射到表示最終語音預測的線性尺度頻譜圖。
應當理解,本文對Vid2speech技術的任何提及不應被解釋為限制性的,并且可以包括基于視覺分析的任何其他發聲到聽覺(articulatory-to-acoustic)的映射。
發明概述
本發明的一些實施例建議使用視頻中看到的面部和嘴部運動的視覺信息來增強說話者的話音,特別是消除與面部運動無關的聲音。該方法基于由視頻到語音系統預測的語音的頻譜信息。
如果沒有視覺信息,在濾除其他話音或背景噪音的同時隔離特定人類話音的任務被稱為雞尾酒會(cocktail party)問題。在某些情形中,當N個麥克風錄制N個話音時,這個問題是可以解決的。
說話者分離和語音增強是語音處理中的基本問題,多年來一直是廣泛研究的主題,尤其是最近神經網絡成功地用于這一任務。解決這些問題的一種常見方法是訓練神經網絡以將音頻混合物分離成它們的源,利用網絡的能力學習獨特的語音特征,如頻譜帶、音高、啁啾等。純音頻方法的主要困難是它們不能分離相似人類的話音(典型地相同性別的話音)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于耶路撒冷希伯來大學伊森姆研究發展有限公司,未經耶路撒冷希伯來大學伊森姆研究發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201880054901.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:認證裝置、認證系統、認證方法以及程序
- 下一篇:檢測癌癥的方法和檢測試劑
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





