[發明專利]語音捕獲方法以及語音捕獲系統在審
| 申請號: | 202110021860.3 | 申請日: | 2021-01-08 |
| 公開(公告)號: | CN114758666A | 公開(公告)日: | 2022-07-15 |
| 發明(設計)人: | 朱仲石;李明唐;蔡杰名 | 申請(專利權)人: | 瑞昱半導體股份有限公司 |
| 主分類號: | G10L21/0208 | 分類號: | G10L21/0208;G10L15/16;H04R1/22 |
| 代理公司: | 北京志霖恒遠知識產權代理事務所(普通合伙) 11435 | 代理人: | 胡少青;許媛媛 |
| 地址: | 中國臺*** | 國省代碼: | 臺灣;71 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 捕獲 方法 以及 系統 | ||
1.一種語音捕獲方法,其特征在于,所述語音捕獲方法包含:
通過緩沖器儲存來自多個麥克風的多個語音數據;
通過處理器依據所述多個語音數據與目標講話者信息判斷目標講話者是否存在且判斷所述目標講話者的方向是否改變;
若所述目標講話者存在且所述目標講話者的方向自先前追蹤方向改變為當前追蹤方向,將所述多個語音數據中對應于所述先前追蹤方向的語音片段插入所述多個語音數據中當前位置以產生混合語音數據;
通過所述處理器依據所述當前追蹤方向對所述混合語音數據執行語音強化程序以產生強化后語音數據;
通過所述處理器對所述強化后語音數據執行語音縮減程序以產生語音輸出數據;以及
通過播放電路播放所述語音輸出數據。
2.如權利要求1所述的語音捕獲方法,其特征在于,通過所述處理器依據所述語音數據與所述目標講話者信息判斷所述目標講話者是否存在且判斷所述目標講話者的方向是否改變包含:
通過所述處理器依據所述多個語音數據中的其中一個以及所述目標講話者信息判斷所述目標講話者是否存在以產生檢測檢測結果;
通過所述處理器依據所述多個語音數據與所述目標講話者信息判斷所述目標講話者的方向以產生估測方向;以及
通過所述處理器依據所述偵測結果、所述估測方向以及當前追蹤方向判斷所述目標講話者是否存在且所述目標講話者的方向是否改變。
3.如權利要求2所述的語音捕獲方法,其特征在于,通過所述處理器依據所述多個語音數據與所述目標講話者信息判斷所述目標講話者的方向以產生所述估測方向包含:
通過所述處理器利用深度學習程序強化所述多個語音數據中捕獲出對應所述目標講話者的目標講話者語音數據,且將強化后信號映像至空間分布并執行空間分布計算程序以產生所述估測方向。
4.如權利要求1所述的語音捕獲方法,其特征在于,通過所述處理器依據所述當前追蹤方向對所述混合語音數據執行所述語音強化程序包含:
通過所述處理器依據所述當前追蹤方向對所述混合語音數據執行空間濾波程序以產生空間濾波后語音數據。
5.如權利要求4所述的語音捕獲方法,其特征在于,通過所述處理器依據所述當前追蹤方向對所述混合語音數據執行所述語音強化程序更包含:
通過所述處理器對所述空間濾波語音后數據執行噪聲消除程序以產生所述強化后語音數據。
6.如權利要求1所述的語音捕獲方法,其特征在于,所述語音片段為N秒,其中通過所述處理器對所述強化后語音數據執行所述語音縮減程序以產生所述語音輸出數據報含:
通過所述處理器自所述強化后語音數據縮減N秒以產生所述語音輸出數據。
7.如權利要求6所述的語音捕獲方法,其特征在于,通過所述處理器自所述強化后語音數據縮減N秒以產生所述語音輸出數據報含:
通過所述處理器依據權重分配窗口對所述強化后語音數據進行迭加以產生所述語音輸出數據。
8.如權利要求6所述的語音捕獲方法,其特征在于,通過所述處理器自所述強化后語音數據縮減N秒以產生所述語音輸出數據報含:
通過所述處理器判斷所述強化后語音數據中是否存在至少一個噪聲片段;以及
通過所述處理器刪除所述至少一個噪聲片段以產生所述語音輸出數據。
9.如權利要求6所述的語音捕獲方法,其特征在于,通過所述處理器自所述強化后語音數據縮減N秒以產生所述語音輸出數據報含:
通過所述處理器調整所述強化后語音數據的傳輸速率以產生所述語音輸出數據。
10.一種語音捕獲系統,其特征在于,所述語音捕獲系統包含:
緩沖器,用以儲存來自多個麥克風的多個語音數據;
處理器,用以依據所述多個語音數據與目標講話者信息判斷目標講話者是否存在且判斷所述目標講話者的方向是否改變;以及
內存,其中若所述目標講話者存在且所述目標講話者的方向自先前追蹤方向改變為當前追蹤方向,所述內存用以將所述多個語音數據中對應于所述先前追蹤方向的語音片段插入所述多個語音數據中當前位置以產生混合語音數據,其中所述處理器更用以依據所述當前追蹤方向對所述混合語音數據執行語音強化程序以產生強化后語音數據,且對所述強化后語音數據執行語音縮減程序以產生語音輸出數據,其中所述語音輸出數據用以供播放電路播放。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于瑞昱半導體股份有限公司,未經瑞昱半導體股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110021860.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:智能駕駛汽車事故檢測系統
- 下一篇:行車記錄儀和用于實現增強現實導航的方法





