[發明專利]一種基于角度譜特征的多通道遠場的目標語音識別方法有效
| 申請號: | 202010098250.9 | 申請日: | 2020-02-18 |
| 公開(公告)號: | CN113345421B | 公開(公告)日: | 2022-08-02 |
| 發明(設計)人: | 張鵬遠;李文潔;顏永紅 | 申請(專利權)人: | 中國科學院聲學研究所;中科信利(廣州)技術有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/22;G10L15/16;G10L19/02;G10L19/26;G10L25/24 |
| 代理公司: | 北京億騰知識產權代理事務所(普通合伙) 11309 | 代理人: | 陳霽 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 角度 特征 通道 目標 語音 識別 方法 | ||
本發明公開了一種基于角度譜特征的多通道遠場的目標語音識別方法,包括:獲取包含目標人語音的M個通道的混合語音;將兩個通道組成通道對,得到H個不重復的通道對。提取M個通道的混合語音的MFCC特征,并串接,得到第一特征;計算H個通道對的SRP?PHAT,根據SRP?PHAT生成包含目標人的位置信息的角度譜特征作為第二特征;提取出預存的目標人特征作為第三特征;根據第一特征、第二特征和第三特征對混合語音中的目標人進行語音識別。同時說話人的位置信息的引入也能增強模型對于多通道遠場信號的處理能力,從而進一步提升模型對于目標說話人語音的識別性能。
技術領域
本發明涉及智能識別領域,特別涉及一種基于角度譜特征的多通道遠場的目標語音識別方法。
背景技術
人工智能的迅速發展,逐漸滲透到生活的各個方面,語音是人機交互的重要方式,促進了語音識別技術在各領域廣泛運用。現在高信噪比情況下的語音識別準確率已經達到了很多實際應用的需求標準,但是雞尾酒會問題仍然是語音識別領域的一個亟待解決的問題。它的主要難點在于,目標說話人的語音中存在人聲干擾,非平穩噪聲干擾,遠場混響等因素的影響。
解決這一問題的常用方法是先對多說話人的語音分離之后再分別進行識別。人耳通常可以很好在嘈雜的環境中將注意力集中在感興趣的目標語音上,在這個過程中說話人的位置信息起到了重要的作用。在此基礎上我們構建了目標說話人語音識別框架,這個框架中我們將目標人的說話人特征和包含位置信息的角度譜特征作為識別模型的輔助特征,來引導模型將注意力集中到目標說話人,從而提升針對目標語音的識別性能。
發明內容
本發明的目的在于,為了從多說話人混疊或者帶噪聲的多通道語音中提取出感興趣的目標說話人的語音,該方法提出一種基于角度譜的目標語音識別框架,該框架通過目標人位置信息的輔助,引導模型去增強對目標方向的語音進行識別,同時盡量排除其他方向上的聲音的干擾。具體地,該方法主要是從多通道混合語音中提取出角度譜特征,然后將多說話人的混合語音的特征,目標人的說話人特征和目標人的角度譜特征一起作為輸入,來訓練目標說話人識別網絡。
為了達到上述目的,本發明實施例記載了一種基于角度譜特征的多通道遠場的目標語音識別方法,通過下列步驟實現對目標語音的識別:
獲取包含目標人語音的M個通道的混合語音;將兩個通道組成通道對,得到H個不重復的通道對;其中,H=M*(M-1)/2,M為大于等于2的正整數;提取M個通道的混合語音的梅爾倒譜系數MFCC特征,將M個MFCC特征串接,得到第一特征;計算H個通道對的相位變換可控響應功率SRP-PHAT,根據SRP-PHAT生成包含目標人的位置信息的角度譜特征作為第二特征;從目標人預先注冊的語音中,提取出目標人特征作為第三特征;根據第一特征、第二特征和第三特征對混合語音中的目標人進行語音識別。
一個實例中,通過對各通道的混合語音進行分幀加窗,傅立葉變換,梅爾濾波,離散余弦變換,得到M個N維的MFCC特征;串接M個MFCC特征,生成M*N維的第一特征;其中,N為正整數。
一個實例中,根據預設的采樣間隔得到L個采樣點對應的SRP-PHAT值,將L個SRP-PHAT值合成為1個L維的第二特征;其中,L為正整數。
其中,第二特征中的峰值個數,對應于混合語音中的說話人數量,說話人數量為目標人數量與非目標人數量之和;其中,目標人數量大于等于1,非目標人數量大于等于0;第二特征中的每個峰值,對應于混合語音中的每個說話人的位置信號。
當第二特征中具備至少兩個峰值,即混合語音中包含至少兩個說話人時,采用滑窗算法計算并分離第二特征中的至少兩個峰值,得到至少兩個單峰值第二特征;單峰值第二特征中具有一個對應于說話人的位置信息的峰值。
一個實例中,將第一特征和第二特征拼接后輸入時延神經網絡的第一層;將第一個隱層的輸出和第三特征進行拼接后輸入之后的時延神經網絡進行目標人的目標語音識別。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院聲學研究所;中科信利(廣州)技術有限公司,未經中國科學院聲學研究所;中科信利(廣州)技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010098250.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種電梯板材的壓力結構
- 下一篇:一種電梯板材的驅動穩定結構





