[發明專利]一種基于視頻對象追蹤的實時3D聲場構建和混音系統有效
| 申請號: | 201810607331.X | 申請日: | 2018-06-13 |
| 公開(公告)號: | CN108777832B | 公開(公告)日: | 2021-02-09 |
| 發明(設計)人: | 王雨霓;秦明昌 | 申請(專利權)人: | 上海藝瓣文化傳播有限公司 |
| 主分類號: | H04R5/02 | 分類號: | H04R5/02 |
| 代理公司: | 上海科盛知識產權代理有限公司 31225 | 代理人: | 翁惠瑜 |
| 地址: | 200041 上海市靜安*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 視頻 對象 追蹤 實時 聲場 構建 音系 | ||
本發明涉及一種基于視頻對象追蹤的實時3D聲場構建和混音方法及系統,所述方法包括以下步驟:獲取視頻流,對該視頻流進行對象檢測及追蹤,形成多個對象的三維空間軌跡,各對象具有對象標簽,所述對象包括聲源對象和非聲源對象;獲取多路音頻信號,所述音頻信號包括實時收音信號和預制音頻信號;根據所述對象標簽將獲得的各對象與音頻信號進行匹配,基于所述三維空間軌跡渲染構建3D聲場;空間音響合成,生成多種格式輸出。與現有技術相比,本發明具有靈活、有效、精確等優點,且系統的各個模塊間彼此間信息和數據的共享與交互,便于操作。
技術領域
本發明涉及一種信號處理技術,尤其是涉及一種基于視頻對象追蹤的實時3D聲場構建和混音系統。
背景技術
在當前虛擬現實、電影、游戲娛樂、多媒體展廳等迅速發展與推廣的背景下,音視頻交互領域成為了關注的重點。然而,在現有的技術條件下,無論是音頻、視頻還是音視頻的交互方面,都沒有將每一個對象進行逐一的對象化的處理,因此這就直接造成了無法自動尋找軌跡而需手動跟蹤,實時性、用戶的交互性體驗感較差的尷尬局面,與此同時音頻混音也僅局限于一個大的聲場的概念下,沒有進行精細的劃分。在系統層面,也并無一體化的系統可供直接使用。
究其原因,主要有二大技術瓶頸:
(1)視頻對象的對象化處理難點:無法對視頻對象進行充分的對象化處理,傳統的技術在最終呈現手段方面也極為復雜,無法自動追蹤聲音、位置等信息,而需要手動操作。
(2)3D聲場的實時構建難點:對聲場的還原與構建若僅對空間感進行處理,會造成聲音的層次感和方位感不清晰,整體混響過大等缺陷。
目前已知的技術和系統均無法徹底解決以上技術難點。
發明內容
本發明的目的就是為了克服上述現有技術存在的缺陷而提供一種更為靈活、有效和精確的、適用于音視頻交互領域的基于視頻對象追蹤的實時3D聲場構建和混音系統。
本發明的目的可以通過以下技術方案來實現:
一種基于視頻對象追蹤的實時3D聲場構建和混音方法,該方法包括以下步驟:
獲取視頻流,對該視頻流進行對象檢測及追蹤,形成多個對象的三維空間軌跡,各對象具有對象標簽,所述對象包括聲源對象和非聲源對象;
獲取多路音頻信號,所述音頻信號包括實時收音信號和預制音頻信號;
根據所述對象標簽將獲得的各對象與音頻信號進行匹配,基于所述三維空間軌跡渲染構建3D聲場;
空間音響合成,生成多種格式輸出。
進一步地,通過機器學習方法提取聲源相關對象的特征,建立一對象庫,基于所述對象庫進行對象檢測,并利用圖像邊界追蹤技術進行對象追蹤。
進一步地,所述各對象與音頻信號進行匹配具體為:
對于聲源對象,采用一對一或多對一的方式將各聲源對象匹配到一路音頻信號中,形成聲場中的有效音源;對于非聲源對象,根據各非聲源對象的特性匹配獲得吸音與反射聲波系數。
進一步地,采用音源信號在空間傳播衰減模型與觀測點反向模型進行所述3D聲場的構建,同時提供多顆粒度選擇。
進一步地,所述空間音響合成具體為:
將相關線路匹配到3D聲場中帶有聲源信息的對象上或者一個包含多個聲源對象和非聲源對象的集合上,并根據聲場環境參數,獲得一個或多個位置上的聲音頻譜分布,實現收音線路和預制線路的混音。
一種基于視頻對象追蹤的實時3D聲場構建和混音系統,該方法包括以下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海藝瓣文化傳播有限公司,未經上海藝瓣文化傳播有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810607331.X/2.html,轉載請聲明來源鉆瓜專利網。





