[發明專利]一種多模態遠程語音感知方法及裝置有效

申請號：	201910705872.0	申請日：	2019-08-01
公開（公告）號：	CN110444220B	公開（公告）日：	2023-02-10
發明（設計）人：	吳江南;顧冠杰;廉增輝;潘翔	申請（專利權）人：	浙江大學
主分類號：	G10L21/02	分類號：	G10L21/02;G10L21/0216;G10L21/0224;G10L21/0232;G10L21/028;G10L21/055;G10L25/45;G10L25/57;G10L15/22;G10L15/24;H04N7/14;H04N7/18
代理公司：	杭州求是專利事務所有限公司 33200	代理人：	應孔月
地址：	310058 浙江***	國省代碼：	浙江;33
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種多模態遠程語音感知方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種多模態遠程語音感知方法，其特征在于，包括以下步驟：

步驟1：利用矩形麥克風陣列和攝像頭，采集語音和視頻信號；

步驟2：對目標語音信號利用波束形成進行初步到達角估計，以獲得粗略的聲源方位；

步驟3：根據粗略的聲源方位，駕駛攝像頭正對聲源方向；

步驟4：基于初始數據建立背景模型，進行前景檢測和背景模型自適應更新；

步驟5：將前景對應的高精度方位參數傳輸給波束形成模塊，波束形成在這個方位的輸出就是增強的語音信號。

2.根據權利要求1所述的一種多模態遠程語音感知方法，其特征在于，所述步驟2具體包括以下子步驟：

步驟2.1，對語音信號分幀，記陣列采集到的第l幀(l＝1,...,L)信號為x(l)＝[x₁(l),x₂(l),...,x_m(l),...,x_M(l)]，其中，M表示麥克風數目，每個麥克風作為一個通道，x_m(l)＝[x_m(0,l),x_m(1,l),...,x_m(n,l)...,x_m(N-1,l)]^T表示第m個通道上采集的第l幀信號；對每幀信號應用窗函數后進行短時傅立葉變換，對第m個通道第l幀的時域信號進行傅里葉變換后的頻域表示：

其中，n表示時間的索引，k表示第k個頻率點，b_n表示長度為N的漢寧窗；

定義M通道的頻域信號為X(k,l)：

X(k,l)＝[X₁(k,l),X₂(k,l),...,X_M(k,l)]^T，0≤k≤N-1 (2.2)

步驟2.2，定義信號的空間譜矩陣為S_X(k)，矩陣中元素假定語音信號入射角為θ，對N個頻率點的空間譜估計結果進行加權求和，得到總波束功率P(θ)：

其中，w_DS(θ,k)＝[w₁(θ,k),w₂(θ,k),...,w_M(θ,k)]^T表示相位取齊的第k個頻點的權向量，w_DS^H(θ,k)表示w_DS(θ,k)的共軛轉置；

對總波束功率P(θ)進行角度搜索，獲得粗略的聲源方位角

3.根據權利要求2所述的一種多模態遠程語音感知方法，其特征在于，所述步驟3具體包括以下子步驟：

步驟3.1，根據步驟2中得到的方向角判斷聲源的大致方向，駕駛攝像頭正對聲源方向。

4.根據權利要求3所述的一種多模態遠程語音感知方法，其特征在于，所述步驟4具體包括以下子步驟：

步驟4.1，首先使用初始視頻數據建立背景模型，記采集的第p幀圖像為I_p(x,y)，(x,y)是圖像矩陣像素坐標；將圖像轉化成灰度圖后對前S幀取平均作為初始背景B₀(x,y)，公式如下：

完成背景建模后，利用當前幀減去背景模型得到前景Target(x,y)：

D(x,y)＝I_p(x,y)-B₀(x,y) (4.2)