[發明專利]一種全景視頻錄制時自動生成字幕文件的方法及裝置在審

申請號：	201710392422.1	申請日：	2017-05-27
公開（公告）號：	CN107124647A	公開（公告）日：	2017-09-01
發明（設計）人：	陳鑫;李晶;陳勇	申請（專利權）人：	深圳市酷開網絡科技有限公司
主分類號：	H04N21/433	分類號：	H04N21/433;H04N21/439;H04N21/81
代理公司：	深圳市君勝知識產權代理事務所(普通合伙)44268	代理人：	王永文,劉文求
地址：	518052 廣東省深圳***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種全景視頻錄制自動生成字幕文件方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明涉及全景視頻錄制領域，尤其涉及的是一種全景視頻錄制時自動生成字幕文件的方法及裝置。

背景技術

現有技術在視屏錄播過程中，通常需要采用人工后期處理的方式將語音轉化為文本記錄，并且需要人工對應去制作字幕文件并對字幕文件進行時間位置調校，尤其是當錄播的視頻為全景視頻時，如果錄播的視頻中有不同角色在說話，則還需要手動對人工制作的字幕文件進行調整才能夠對聲音的角色進行區分。顯然這種原始的處理方式不僅效率低下，且極大地浪費人力，成本較高。

因此，現有技術還有待于改進和發展。

發明內容

鑒于上述現有技術的不足，本發明的目的在于提供一種全景視頻錄制時自動生成字幕文件的方法及裝置，旨在解決現有技術在進行全景視頻錄制過程中，需要通過人工制作并調整相應字幕文件的問題。

本發明的技術方案如下：

一種全景視頻錄制時自動生成字幕文件的方法，其中，包括步驟：

實時獲取全景視頻錄制時的原始音頻數據；

對所述原始音頻數據進行處理獲取二次音頻數據、音頻位置數據以及音頻時間數據；

對所述二次音頻數據進行模型匹配，生成相對應的文字數據；

實時接收所述文字數據、音頻位置數據以及時間數據，根據所述音頻位置數據和音頻時間數據對所述文字數據進行實時編輯，形成字幕文件。

所述的全景視頻錄制時自動生成字幕文件的方法，其中，所述步驟實時獲取全景視頻錄制時的原始音頻數據具體包括：

通過設置在全景攝像機上的六麥環形陣列獲實時取原始音頻數據。

所述的全景視頻錄制時自動生成字幕文件的方法，其中，所述步驟對所述原始音頻數據進行處理獲取二次音頻數據、音頻位置數據以及時間數據具體包括：

對所述原始音頻數據進行噪聲抑制、混響消除、回聲抵消、波束形成以及陣列增益處理，得到二次音頻數據以及音頻時間數據；

對所述原始音頻數據進行聲源定位處理獲得音頻位置數據。

所述的全景視頻錄制時自動生成字幕文件的方法，其中，所述步驟對所述二次音頻數據進行模型匹配，生成相對應的文字數據具體包括：

通過DNN算法對所述二次音頻數據進行語音和語義的識別，生成識別后的文字數據。

所述的全景視頻錄制時自動生成字幕文件的方法，其中，所述步驟實時接收所述文字數據、音頻位置數據以及音頻時間數據，根據所述音頻位置數據和時間數據對所述文字數據進行實時編輯，形成字幕文件具體包括:

通過協處理器的字幕編輯功能，依次按照 [音頻角度數據][時間數據][文字數據]的順序格式排列，形成字幕文件。

所述的全景視頻錄制時自動生成字幕文件的方法，其中，所述步驟實時接收所述文字數據、音頻位置數據以及時間數據，根據所述音頻位置數據和時間數據對所述文字數據進行實時編輯，形成字幕文件之后還包括：

根據音頻位置數據將所述字幕文件加載在全景視頻相應音源方位的底部。

一種全景視頻錄制時自動生成字幕文件的裝置，其中，包括依次電連接的六麥環形陣列、陣列音源處理器以及協處理器：

所述六麥環形陣列用于實時獲取全景視頻錄制時的原始音頻數據；

所述陣列音源處理器用于對所述原始音頻數據進行處理獲取二次音頻數據、音頻位置數據以及音頻時間數據，同時還用于對所述二次音頻數據進行模型匹配，生成相對應的文字數據；

所述協處理器用于實時接收所述文字數據、音頻位置數據以及時間數據，根據所述音頻位置數據和時間數據對所述文字數據進行實時編輯，形成字幕文件。

所述的全景視頻錄制時自動生成字幕文件的裝置，其中，所述六麥環形陣列由六個環形的聲學傳感器組成，所述六個聲學傳感器分別與所述陣列音源處理器電連接。

所述的全景視頻錄制時自動生成字幕文件的裝置，其中，所述陣列音源處理器內包含聲源定位單元，所述聲源定位單元用于對所述原始音頻數據進行聲源定位處理獲得音頻位置數據。

所述的全景視頻錄制時自動生成字幕文件的裝置，其中，協處理器還包括加載單元，所述加載單元用于根據音頻位置數據將所述字幕文件加載在全景視頻相應音源方位的底部。

有益效果：相比傳統在錄播視頻時通過人工后期來制備字幕文件的方法，本發明實現了在全景視頻錄制過程中自動生成字幕文件，其解放了人力，制作效率高；并且在本發明中，所述字幕文件會根據音頻位置數據相應地顯示在視頻中不同角色所在的方位下，給用戶觀看視頻帶來便利。

附圖說明

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于深圳市酷開網絡科技有限公司，未經深圳市酷開網絡科技有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201710392422.1/2.html，轉載請聲明來源鉆瓜專利網。

同類專利

專利分類

H 電學

H04 電通信技術
H04N 圖像通信，如電視
H04N21-00 可選的內容分發，例如交互式電視，VOD〔視頻點播〕
H04N21-20 .專門適用于內容分發的專用服務器，例如：VOD服務器；其操作
H04N21-40 .專門適用于接收內容或者與內容交互的客戶端設備，如STB[機頂盒]；相關操作
H04N21-60 .用于在服務器和客戶端之間或者在遠程客戶端之間的視頻分配的網絡結構或者處理
H04N21-80 .通過內容產生器獨立于分配過程實現的內容或附加數據的生成或處理；內容本身
H04N21-81 ..其單媒體部件

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】