[發明專利]一種多模態遠程語音感知方法及裝置有效
| 申請號: | 201910705872.0 | 申請日: | 2019-08-01 |
| 公開(公告)號: | CN110444220B | 公開(公告)日: | 2023-02-10 |
| 發明(設計)人: | 吳江南;顧冠杰;廉增輝;潘翔 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G10L21/02 | 分類號: | G10L21/02;G10L21/0216;G10L21/0224;G10L21/0232;G10L21/028;G10L21/055;G10L25/45;G10L25/57;G10L15/22;G10L15/24;H04N7/14;H04N7/18 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 應孔月 |
| 地址: | 310058 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 多模態 遠程 語音 感知 方法 裝置 | ||
1.一種多模態遠程語音感知方法,其特征在于,包括以下步驟:
步驟1:利用矩形麥克風陣列和攝像頭,采集語音和視頻信號;
步驟2:對目標語音信號利用波束形成進行初步到達角估計,以獲得粗略的聲源方位;
步驟3:根據粗略的聲源方位,駕駛攝像頭正對聲源方向;
步驟4:基于初始數據建立背景模型,進行前景檢測和背景模型自適應更新;
步驟5:將前景對應的高精度方位參數傳輸給波束形成模塊,波束形成在這個方位的輸出就是增強的語音信號。
2.根據權利要求1所述的一種多模態遠程語音感知方法,其特征在于,所述步驟2具體包括以下子步驟:
步驟2.1,對語音信號分幀,記陣列采集到的第l幀(l=1,...,L)信號為x(l)=[x1(l),x2(l),...,xm(l),...,xM(l)],其中,M表示麥克風數目,每個麥克風作為一個通道,xm(l)=[xm(0,l),xm(1,l),...,xm(n,l)...,xm(N-1,l)]T表示第m個通道上采集的第l幀信號;對每幀信號應用窗函數后進行短時傅立葉變換,對第m個通道第l幀的時域信號進行傅里葉變換后的頻域表示:
其中,n表示時間的索引,k表示第k個頻率點,bn表示長度為N的漢寧窗;
定義M通道的頻域信號為X(k,l):
X(k,l)=[X1(k,l),X2(k,l),...,XM(k,l)]T,0≤k≤N-1 (2.2)
步驟2.2,定義信號的空間譜矩陣為SX(k),矩陣中元素假定語音信號入射角為θ,對N個頻率點的空間譜估計結果進行加權求和,得到總波束功率P(θ):
其中,wDS(θ,k)=[w1(θ,k),w2(θ,k),...,wM(θ,k)]T表示相位取齊的第k個頻點的權向量,wDSH(θ,k)表示wDS(θ,k)的共軛轉置;
對總波束功率P(θ)進行角度搜索,獲得粗略的聲源方位角
3.根據權利要求2所述的一種多模態遠程語音感知方法,其特征在于,所述步驟3具體包括以下子步驟:
步驟3.1,根據步驟2中得到的方向角判斷聲源的大致方向,駕駛攝像頭正對聲源方向。
4.根據權利要求3所述的一種多模態遠程語音感知方法,其特征在于,所述步驟4具體包括以下子步驟:
步驟4.1,首先使用初始視頻數據建立背景模型,記采集的第p幀圖像為Ip(x,y),(x,y)是圖像矩陣像素坐標;將圖像轉化成灰度圖后對前S幀取平均作為初始背景B0(x,y),公式如下:
完成背景建模后,利用當前幀減去背景模型得到前景Target(x,y):
D(x,y)=Ip(x,y)-B0(x,y) (4.2)
Ip(x,y)表示當前幀圖像,D(x,y)代表前景像點,T是設定的閾值,Target(x,y)矩陣中的1表示前景像素;
步驟4.2,獲得的二值化前景圖像,對前景圖像進行開-閉運算后續處理,最終獲得完整的前景圖像Gp(x,y);
在處理視頻流時,對背景模型進行更新,更新公式如下:
其中,Bp(x,y)為加入第p幀圖像進行自適應更新后的背景模型,0<α<1為更新因子;
將前景圖像Gp(x,y)水平刻度坐標映射到角度坐標后,前景所在像素位置換算成角度并輸出給波束形成模塊。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910705872.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:選擇第一編碼演算法或第二編碼演算法的裝置與方法
- 下一篇:一種多路語音系統





