[發明專利]一種基于語音跟蹤的全景視頻錄制方法及裝置在審

申請號：	202010021698.0	申請日：	2020-01-09
公開（公告）號：	CN111163281A	公開（公告）日：	2020-05-15
發明（設計）人：	蔣灝;李虎;趙成斌;沈宏泰;田晟浩;張小博;穆永鵬;戴玉成;孫潔	申請（專利權）人：	北京中電慧聲科技有限公司
主分類號：	H04N7/15	分類號：	H04N7/15;H04N7/18;H04N5/262;H04N5/765
代理公司：	北京天盾知識產權代理有限公司 11421	代理人：	張彩珍
地址：	100015 ***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于語音跟蹤全景視頻錄制方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明涉及一種基于語音跟蹤的全景視頻錄制方法及裝置，采集多路音頻信號和多路視頻信號，將所述多路視頻信號經全景視頻融合拼接，形成全景視頻圖像；根據所述音頻信號實時估算現場說話人的聲源方向；根據所述聲源方向，截取所述全景視頻圖像中對應位置的現場說話人特寫圖像，并將所述現場說話人特寫圖像和所述全景視頻圖像整合，形成全景視頻輸出圖像；將所述音頻信號和全景視頻輸出圖像，通過網絡上傳至上位機，或直接通過監控設備輸出。本發明流程簡單，可有效實現全景圖像與特寫圖像自動生成，并具有實時性。

技術領域

本發明涉及一種基于語音跟蹤的全景視頻錄制方法及裝置。

背景技術

現有技術中,全景視訊的視頻會議設備多數組成復雜，對發言人的錄播需要人工切換,無法實現全景圖像與特寫圖像自動生成。與本發明最相關的現有技術是發明名稱為“基于全景攝像頭和麥克風陣列的會議轉錄系統”專利(專利公開號：CN 109474797 A)，該技術方案存在的不足之處在于結構復雜，全景圖像與自動特寫圖像生成的流程復雜，實時性較差。

發明內容

本發明的發明目的在于提供一種基于語音跟蹤的全景視頻錄制方法及裝置，能夠有效實現全景圖像與特寫圖像自動生成。

基于同一發明構思，本發明具有兩個獨立的技術方案：

1、一種基于語音跟蹤的全景視頻錄制方法，其特征在于，包括如下步驟：

步驟1：采集多路音頻信號和多路視頻信號，將所述多路視頻信號經全景視頻融合拼接，形成全景視頻圖像；

步驟2：根據所述音頻信號實時估算現場說話人的聲源方向；根據所述聲源方向，截取所述全景視頻圖像中對應位置的現場說話人特寫圖像，并將所述現場說話人特寫圖像和所述全景視頻圖像整合，形成全景視頻輸出圖像；

步驟3：將所述音頻信號和全景視頻輸出圖像，通過網絡上傳至上位機，或直接通過監控設備輸出。

進一步地，步驟3中還包括：對現場說話人特寫圖像進行人臉識別，識別說話人身份；以及對音頻信號進行識別，將語音轉換成文字后進行數據存儲，并對所述數據進行說話人身份標注。

進一步地，所述多路音頻信號是通過麥克風陣列采集的，所述多路視頻信號是通過多路視頻傳感器采集的。

進一步地，所述麥克風陣列由多個麥克風組成，其中1個麥克風位于圓心位置，其余麥克風沿圓周方向均勻分布；

所述多路視頻傳感器沿圓周方向均勻分布；

所述麥克風和視頻傳感器的數量、位置分布相互配合。