[發明專利]一種基于視頻對象追蹤的實時3D聲場構建和混音系統有效

申請號：	201810607331.X	申請日：	2018-06-13
公開（公告）號：	CN108777832B	公開（公告）日：	2021-02-09
發明（設計）人：	王雨霓;秦明昌	申請（專利權）人：	上海藝瓣文化傳播有限公司
主分類號：	H04R5/02	分類號：	H04R5/02
代理公司：	上海科盛知識產權代理有限公司 31225	代理人：	翁惠瑜
地址：	200041 上海市靜安***	國省代碼：	上海;31
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于視頻對象追蹤實時聲場構建音系
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明涉及一種基于視頻對象追蹤的實時3D聲場構建和混音方法及系統，所述方法包括以下步驟：獲取視頻流，對該視頻流進行對象檢測及追蹤，形成多個對象的三維空間軌跡，各對象具有對象標簽，所述對象包括聲源對象和非聲源對象；獲取多路音頻信號，所述音頻信號包括實時收音信號和預制音頻信號；根據所述對象標簽將獲得的各對象與音頻信號進行匹配，基于所述三維空間軌跡渲染構建3D聲場；空間音響合成，生成多種格式輸出。與現有技術相比，本發明具有靈活、有效、精確等優點，且系統的各個模塊間彼此間信息和數據的共享與交互，便于操作。

技術領域

本發明涉及一種信號處理技術，尤其是涉及一種基于視頻對象追蹤的實時3D聲場構建和混音系統。

背景技術

在當前虛擬現實、電影、游戲娛樂、多媒體展廳等迅速發展與推廣的背景下，音視頻交互領域成為了關注的重點。然而，在現有的技術條件下，無論是音頻、視頻還是音視頻的交互方面，都沒有將每一個對象進行逐一的對象化的處理，因此這就直接造成了無法自動尋找軌跡而需手動跟蹤，實時性、用戶的交互性體驗感較差的尷尬局面，與此同時音頻混音也僅局限于一個大的聲場的概念下，沒有進行精細的劃分。在系統層面，也并無一體化的系統可供直接使用。

究其原因，主要有二大技術瓶頸：

(1)視頻對象的對象化處理難點：無法對視頻對象進行充分的對象化處理，傳統的技術在最終呈現手段方面也極為復雜，無法自動追蹤聲音、位置等信息，而需要手動操作。

(2)3D聲場的實時構建難點：對聲場的還原與構建若僅對空間感進行處理，會造成聲音的層次感和方位感不清晰，整體混響過大等缺陷。

目前已知的技術和系統均無法徹底解決以上技術難點。

發明內容

本發明的目的就是為了克服上述現有技術存在的缺陷而提供一種更為靈活、有效和精確的、適用于音視頻交互領域的基于視頻對象追蹤的實時3D聲場構建和混音系統。

本發明的目的可以通過以下技術方案來實現：

一種基于視頻對象追蹤的實時3D聲場構建和混音方法，該方法包括以下步驟：

獲取視頻流，對該視頻流進行對象檢測及追蹤，形成多個對象的三維空間軌跡，各對象具有對象標簽，所述對象包括聲源對象和非聲源對象；

獲取多路音頻信號，所述音頻信號包括實時收音信號和預制音頻信號；

根據所述對象標簽將獲得的各對象與音頻信號進行匹配，基于所述三維空間軌跡渲染構建3D聲場；

空間音響合成，生成多種格式輸出。