[發明專利]麥克風陣列拾音方法和裝置在審
| 申請號: | 201710608727.1 | 申請日: | 2017-07-25 |
| 公開(公告)號: | CN109300475A | 公開(公告)日: | 2019-02-01 |
| 發明(設計)人: | 施隆海 | 申請(專利權)人: | 中國電信股份有限公司 |
| 主分類號: | G10L15/22 | 分類號: | G10L15/22;G06K9/00 |
| 代理公司: | 中國國際貿易促進委員會專利商標事務所 11038 | 代理人: | 王云飛 |
| 地址: | 100033 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 拾音 麥克風陣列 方法和裝置 波束成形 方位信息 人面部 雞尾酒會效應 波束形成 全景視頻 人臉識別 視頻識別 語音識別 授權 指向性 捕獲 | ||
本發明公開一種麥克風陣列拾音方法和裝置。該麥克風陣列拾音方法包括:采用全景視頻進行人臉識別,捕獲授權人的面部,獲取授權人面部的方位信息;根據權人面部的方位信息,進行波束成形;采用波束成形的麥克風陣列進行拾音。本發明通過視頻識別降低波束形成的難度,解決雞尾酒會效應下語音識別的難題,實現了高指向性拾音。
技術領域
本發明涉及語音識別領域,特別涉及一種麥克風陣列拾音方法和裝置。
背景技術
目前智能家庭語音接入是智能家庭的熱點。
人的聽覺系統可以在嘈雜的多個講話者的環境中區分和跟蹤自己感興趣的語音信號,并分辨出自己所需要的聲音,這種分辨能力是人體內部語音理解機理所特有的一種感知能力,也就是人類的語音分離的能力,稱為“雞尾酒會效應”。
當前的語音識別系統對純凈語音能夠達到很高的識別率,但是當語音被噪聲污染時,系統性能會急劇下降。
發明內容
鑒于以上技術問題,本發明提供了一種麥克風陣列拾音方法和裝置,通過視頻識別降低波束形成的難度,實現了高指向性拾音。
根據本發明的一個方面,提供一種麥克風陣列拾音方法,包括:
采用全景視頻進行人臉識別,捕獲授權人的面部,獲取授權人面部的方位信息;
根據權人面部的方位信息,進行波束成形;
采用波束成形的麥克風陣列進行拾音。
在本發明的一個實施例中,所述采用波束成形的麥克風陣列進行拾音包括:
根據波束形成分離信號,僅拾取授權人面部方位的聲音信號。
在本發明的一個實施例中,所述方法還包括:
利用人臉識別和聲紋識別進行聯合鑒權。
在本發明的一個實施例中,所述利用人臉識別和聲紋識別進行聯合鑒權包括:
利用人臉識別確認授權人;
利用聲紋識別授權人發出的關鍵字,以進一步確認授權人。
在本發明的一個實施例中,在聯合鑒權通過后,所述方法還包括:
提取授權人發送的控制指令;
對所述控制指令進行解析,并根據解析后的控制指令完成相應的控制行為。
根據本發明的另一方面,提供一種麥克風陣列拾音裝置,包括:
人臉識別模塊,用于采用全景視頻進行人臉識別,捕獲授權人的面部,獲取授權人面部的方位信息;
波束成形模塊,用于根據權人面部的方位信息,進行波束成形;
拾音模塊,用于采用波束成形的麥克風陣列進行拾音。
在本發明的一個實施例中,拾音模塊用于根據波束形成分離信號,僅拾取授權人面部方位的聲音信號。
在本發明的一個實施例中,麥克風陣列拾音裝置利用人臉識別和聲紋識別進行聯合鑒權。
在本發明的一個實施例中,所述裝置還包括:
人臉識別模塊用于利用人臉識別確認授權人;
聲紋識別模塊,用于利用聲紋識別授權人發出的關鍵字,以進一步確認授權人。
在本發明的一個實施例中,所述裝置還包括:
聲控模塊,用于在聯合鑒權通過后,提取授權人發送的控制指令;對所述控制指令進行解析,并根據解析后的控制指令完成相應的控制行為。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國電信股份有限公司,未經中國電信股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710608727.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種語音信號處理方法及裝置
- 下一篇:主動聊天裝置





