[發明專利]一種基于語音跟蹤的全景視頻錄制方法及裝置在審
| 申請號: | 202010021698.0 | 申請日: | 2020-01-09 |
| 公開(公告)號: | CN111163281A | 公開(公告)日: | 2020-05-15 |
| 發明(設計)人: | 蔣灝;李虎;趙成斌;沈宏泰;田晟浩;張小博;穆永鵬;戴玉成;孫潔 | 申請(專利權)人: | 北京中電慧聲科技有限公司 |
| 主分類號: | H04N7/15 | 分類號: | H04N7/15;H04N7/18;H04N5/262;H04N5/765 |
| 代理公司: | 北京天盾知識產權代理有限公司 11421 | 代理人: | 張彩珍 |
| 地址: | 100015 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 語音 跟蹤 全景 視頻 錄制 方法 裝置 | ||
本發明涉及一種基于語音跟蹤的全景視頻錄制方法及裝置,采集多路音頻信號和多路視頻信號,將所述多路視頻信號經全景視頻融合拼接,形成全景視頻圖像;根據所述音頻信號實時估算現場說話人的聲源方向;根據所述聲源方向,截取所述全景視頻圖像中對應位置的現場說話人特寫圖像,并將所述現場說話人特寫圖像和所述全景視頻圖像整合,形成全景視頻輸出圖像;將所述音頻信號和全景視頻輸出圖像,通過網絡上傳至上位機,或直接通過監控設備輸出。本發明流程簡單,可有效實現全景圖像與特寫圖像自動生成,并具有實時性。
技術領域
本發明涉及一種基于語音跟蹤的全景視頻錄制方法及裝置。
背景技術
現有技術中,全景視訊的視頻會議設備多數組成復雜,對發言人的錄播需要人工切換,無法實現全景圖像與特寫圖像自動生成。與本發明最相關的現有技術是發明名稱為“基于全景攝像頭和麥克風陣列的會議轉錄系統”專利(專利公開號:CN 109474797 A),該技術方案存在的不足之處在于結構復雜,全景圖像與自動特寫圖像生成的流程復雜,實時性較差。
發明內容
本發明的發明目的在于提供一種基于語音跟蹤的全景視頻錄制方法及裝置,能夠有效實現全景圖像與特寫圖像自動生成。
基于同一發明構思,本發明具有兩個獨立的技術方案:
1、一種基于語音跟蹤的全景視頻錄制方法,其特征在于,包括如下步驟:
步驟1:采集多路音頻信號和多路視頻信號,將所述多路視頻信號經全景視頻融合拼接,形成全景視頻圖像;
步驟2:根據所述音頻信號實時估算現場說話人的聲源方向;根據所述聲源方向,截取所述全景視頻圖像中對應位置的現場說話人特寫圖像,并將所述現場說話人特寫圖像和所述全景視頻圖像整合,形成全景視頻輸出圖像;
步驟3:將所述音頻信號和全景視頻輸出圖像,通過網絡上傳至上位機,或直接通過監控設備輸出。
進一步地,步驟3中還包括:對現場說話人特寫圖像進行人臉識別,識別說話人身份;以及對音頻信號進行識別,將語音轉換成文字后進行數據存儲,并對所述數據進行說話人身份標注。
進一步地,所述多路音頻信號是通過麥克風陣列采集的,所述多路視頻信號是通過多路視頻傳感器采集的。
進一步地,所述麥克風陣列由多個麥克風組成,其中1個麥克風位于圓心位置,其余麥克風沿圓周方向均勻分布;
所述多路視頻傳感器沿圓周方向均勻分布;
所述麥克風和視頻傳感器的數量、位置分布相互配合。
進一步地,步驟2中還包括:利用自適應波束形成方法對聲源方向的音頻信號進行增強,消除其他方向的干擾聲音。
進一步地,步驟2中,所述現場說話人的聲源方向是利用超分辨率譜實時估算得到的。
進一步地,步驟2中還包括:判斷是否存在現場說話人;當判斷沒有現場說話人時,則將步驟1獲得的全景視頻圖像作為全景視頻輸出圖像。
進一步地,步驟3中,將音頻信號和視頻信號進行數據壓縮后,通過網絡上傳至上位機。。
2、一種基于語音跟蹤的全景視頻錄制裝置,其特征在于,包括:
殼體;
設置于殼體上的麥克風陣列,用于采集多路音頻信號;
設置于殼體上的多路視頻傳感器,用于采集多路視頻信號;以及
設置于殼體內的音頻視頻處理裝置,包括視頻處理模塊,音頻處理模塊,視頻重組模塊和輸出模塊,其中:
視頻處理模塊獲取多路視頻傳感器采集的視頻信號,并進行全景融合拼接,得到全景視頻圖像;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京中電慧聲科技有限公司,未經北京中電慧聲科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010021698.0/2.html,轉載請聲明來源鉆瓜專利網。





