[發明專利]一種視聽雙模態的360度全方位說話人定位方法有效

申請號：	202110504371.3	申請日：	2021-05-10
公開（公告）號：	CN113312985B	公開（公告）日：	2023-05-26
發明（設計）人：	劉振燾;龍映佐;吳敏;曹衛華;陳略峰;蹇櫟為	申請（專利權）人：	中國地質大學（武漢）
主分類號：	G06V40/16	分類號：	G06V40/16;G01S5/22;G06V10/80
代理公司：	武漢知產時代知識產權代理有限公司 42238	代理人：	萬文廣
地址：	430000 湖***	國省代碼：	湖北;42
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種視聽雙模 360 全方位說話人定方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種視聽雙模態的360度全方位說話人定位方法，其特征在于，包括以下步驟：

S1、依據說話人語音信號到達環形麥克風陣列所在圓直徑麥克風上的時間差，進行聲源信息降維；利用降維后的聲源信息對目標說話人進行聲源粗定位；

S2、圖像拼接決策與視覺空間定位：基于所述聲源粗定位的結果判斷說話人是否位于說話人所在方位最近兩枚攝像頭的攝像畫面交接區域，并決策開啟的環形攝像頭組中攝像頭的方位、數量以及是否進行圖像拼接；之后基于所述圖像拼接處理后的攝像畫面進行視覺空間定位；

S3、多模態融合定位：基于所述聲源粗定位和視覺空間定位中對說話人的定位結果，進行視聽模態的決策級融合，計算出視聽模態融合定位結果；

所述S1具體為：選取環形麥克風陣列中合適的兩枚麥克風，通過到達時間差TDOA聲源定位的方法進行時延估計和位置估計以完成聲源定位；

所述聲源信息降維具體步驟如下：

S111：標記所述的環形麥克風陣列中的所有麥克風并分組，過環形麥克風陣列同一直徑上的兩枚麥克風記為同一組，設環形麥克風陣列中的麥克風總數為M，M為2的倍數，設各個麥克風分組的編號為

S112：用環形麥克風陣列接收說話人的聲音信號，計算每組麥克風中的兩枚麥克風接收到說話人聲音信號的時間差，設時間差最大的麥克風組為λ，則選取編號為的麥克風組中的兩枚麥克風，作為線性麥克風陣列進行后續的聲源定位，P不為整數時向下取整；

S2所述圖像拼接決策是依據S1中聲源粗定位的結果，判斷說話人是否位于說話人所在方位最近兩枚攝像頭的攝像畫面交接區域，當說話人位于攝像畫面交接區域時，喚醒說話人所在方位的兩個相鄰攝像頭，并對這兩個攝像頭的攝像畫面進行圖像拼接；否則直接喚醒說話人所在方位攝像頭，不進行圖像拼接；

S2所述的視覺空間定位方法如下：

S221：使用人臉檢測算法，調用人臉檢測分類器，捕捉目標人臉并用矩形框畫出；

S222：記錄當前畫面幀人臉矩形框四個角的位置坐標(x₁,y₁)，(x₁,y₂)，(x₂,y₁)，(x₂,y₂)，坐標系中心為當前攝像畫面中心點；

S223：計算人臉中心位置

S224：計算人臉方位角：其中α為當前攝像畫面所占的范圍角，X為當前攝像畫面的橫向像素總長度；

S225：計算人臉俯仰角：其中β為攝像頭的俯仰角，Y為當前攝像畫面縱向像素總長度；

S226：將人臉圖像定位結果轉換到世界坐標系，俯仰角不變；設環形規則分布的360度全景攝像頭組共有N個攝像頭，以順時針方向從1到N給攝像頭編號，方向1號攝像頭拍攝中心為世界坐標系中心，則由在第k個攝像機拍攝到的人臉由圖像坐標轉換世界坐標時，有

其中，k_m指圖像拼接時取得的編號較小的攝像頭編號；

S3所述多模態融合定位主要包含幀率跟蹤、坐標映射以及決策級視聽模態定位結果融合，具體內容如下：

S31：使用幀率跟蹤方法，將圖像和聲音信號兩者數據在時間上保持同步傳輸和處理，保證視覺空間定位結果與聲源定位結果在時間上的一致性；

S32：將聲源定位結果轉換到世界坐標系即完成坐標映射，將聲源定位轉換到世界坐標的結果轉換到如下：

θ_sound＝θ_t+θ_ω

式中，θ_ω為所選取麥克風組的近世界坐標系麥克風修正到世界坐標系原點的角度補償值；

S33：分別計算出聲源定位結果和視頻定位得到的方位角的融合權重γ_image、γ_sound，從而得到目標說話人融合定位的方位角，并取視覺空間定位的得到的目標說話人俯仰角為最終融合的俯仰角，其中，γ_sound+γ_image＝1；且0≤γ_sound≤1，0≤γ_image≤1；

所述S33具體如下：

S331：由人臉矩陣框四角坐標計算人臉大小在整幅圖像的占比，即人臉大小評價系數：S_all為攝像畫面總大小，S_face為畫面中的目標人臉大小；

S332：由雙眼坐標(x_el,y_el)，(x_er,y_er)計算人臉角度評價系數x_el和y_e1是左眼的橫縱坐標，x_er和y_er是右眼的橫縱坐標；

S333：由圖像平均亮度B_ave計算圖像明亮度系數其中為預設亮度值；

S334：計算視覺空間定位的融合權重：γ_image＝ω₁γ₁+ω₂γ₂+ω₃γ₃，并計算出聲源定位結果的融合權重γ_sound＝1-γ_image，其中ω_i為權重補償值，且ω₁+ω₂+ω₃＝1；

S335：計算融合后的目標說話人方位角：θ＝γ_soundθ_sound+γ_imageθ_image；目標說話人的俯仰角為視覺空間定位得到的俯仰角

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于中國地質大學（武漢），未經中國地質大學（武漢）許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110504371.3/1.html，轉載請聲明來源鉆瓜專利網。

專利分類

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】