[發明專利]一種自動捕捉和追蹤說話者的方法在審
| 申請號: | 202010074846.5 | 申請日: | 2020-01-22 |
| 公開(公告)號: | CN113163148A | 公開(公告)日: | 2021-07-23 |
| 發明(設計)人: | 韓琳 | 申請(專利權)人: | 廣東水利電力職業技術學院(廣東省水利電力技工學校) |
| 主分類號: | H04N7/14 | 分類號: | H04N7/14;H04N5/232 |
| 代理公司: | 蘇州潤桐嘉業知識產權代理有限公司 32261 | 代理人: | 朱平 |
| 地址: | 510925 廣東省*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 自動 捕捉 追蹤 說話 方法 | ||
1.一種自動捕捉和追蹤說話者的方法,其特征在于,包括以下步驟:
(1)麥克風陣列收集外部聲音信號并發送給中央處理器,中央處理器實時分析所述聲音信號是否有有效聲音輸入,如果有有效聲音輸入則進入步驟(2),麥克風陣列包括多個麥克風;
(2)判斷聲音信號是否為人聲信號,如果是非人聲信號則返回步驟(1),如果是人聲信號則進入步驟(3);
(3)采用聲源定位算法分析出聲音所在的方位,根據聲音所在方位計算出攝像頭模組的旋轉角度,并根據旋轉角度給旋轉臺發送控制指令,攝像頭模組安裝在旋轉臺上,旋轉臺可帶動攝像頭模組旋轉;
(4)旋轉臺根據控制指令調整攝像頭模組的位置,攝像頭模組在調整位置的過程中,捕捉視頻數據并發送給中央處理器,中央處理器采用人臉識別算法實時分析捕捉的畫面中是否捕捉到人臉,如果捕捉到人臉,則進入步驟(5);
(5)中央處理器實時判斷捕捉到的人臉圖像是否達到最優,如果不是,則給旋轉臺發送控制指令,旋轉臺根據控制指令調整攝像頭模組位置,不斷地判斷是否達到最優和調整攝像頭模組,直至判斷捕捉到的人臉圖像達到最優。
2.根據權利要求1所述的自動捕捉和追蹤說話者的方法,其特征在于,在所述步驟(2)中,采用梅爾倒頻譜(MFC)人聲識別算法將步驟(1)中的聲音信號與通用人聲模型進行匹配來判斷聲音信號是否為人聲信號。
3.根據權利要求2所述的自動捕捉和追蹤說話者的方法,其特征在于,所述步驟(3)中的聲源定位算法采用達到時延聲源方法,先計算聲音達到麥克風陣列的各個麥克風的時延差,然后結合麥克風的空間布局,通過幾何算法計算出聲源的空間位置。
4.根據權利要求3所述的自動捕捉和追蹤說話者的方法,其特征在于,在所述步驟(1)中,中央處理器采用最小值控制遞歸平均(MCRA)算法來估計抑制噪聲,采用最小均方自適應(LMS)算法來增強語音信號,當經過這兩個算法處理后的聲音信號音量大于指定閥值時,即可認定聲音輸入有效。
5.根據權利要求4所述的自動捕捉和追蹤說話者的方法,其特征在于,在所述步驟(4)中,所述人臉識別算法采用基于局部二值模式(LBP)的人臉算法。
6.根據權利要求5所述的自動捕捉和追蹤說話者的方法,其特征在于,所述步驟(4)中在判斷視頻中是否捕捉到人臉前,先對視頻數據進行光纖補償和光照歸一化預處理。
7.根據權利要求6所述的自動捕捉和追蹤說話者的方法,其特征在于,在所述步驟(5)中,判斷捕捉到的人臉圖像達到最優后,對人臉數據進行特征提取,然后將特征數據上傳到云端服務器,云端服務器先對人臉進行身份識別,然后將身份識別的結果返回給中央處理器。
8.根據權利要求2至7任一項所述的自動捕捉和追蹤說話者的方法,其特征在于,所述步驟(2)、(3)中的算法在所述中央處理器中運行。
9.根據權利要求2至7任一項所述的自動捕捉和追蹤說話者的方法,其特征在于,所述中央處理器通過通信模塊與云端服務器進行雙向通信,在所述步驟(2)、(3)中,中央處理器將聲音數據通過通信模塊傳到云端服務器,所述步驟(2)、(3)中算法在云端服務器運行,云端服務器再把處理結果發送回中央處理器。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東水利電力職業技術學院(廣東省水利電力技工學校),未經廣東水利電力職業技術學院(廣東省水利電力技工學校)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010074846.5/1.html,轉載請聲明來源鉆瓜專利網。





