[發明專利]一種全景視頻錄制時自動生成字幕文件的方法及裝置在審
| 申請號: | 201710392422.1 | 申請日: | 2017-05-27 |
| 公開(公告)號: | CN107124647A | 公開(公告)日: | 2017-09-01 |
| 發明(設計)人: | 陳鑫;李晶;陳勇 | 申請(專利權)人: | 深圳市酷開網絡科技有限公司 |
| 主分類號: | H04N21/433 | 分類號: | H04N21/433;H04N21/439;H04N21/81 |
| 代理公司: | 深圳市君勝知識產權代理事務所(普通合伙)44268 | 代理人: | 王永文,劉文求 |
| 地址: | 518052 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 全景 視頻 錄制 自動 生成 字幕 文件 方法 裝置 | ||
技術領域
本發明涉及全景視頻錄制領域,尤其涉及的是一種全景視頻錄制時自動生成字幕文件的方法及裝置。
背景技術
現有技術在視屏錄播過程中,通常需要采用人工后期處理的方式將語音轉化為文本記錄,并且需要人工對應去制作字幕文件并對字幕文件進行時間位置調校,尤其是當錄播的視頻為全景視頻時,如果錄播的視頻中有不同角色在說話,則還需要手動對人工制作的字幕文件進行調整才能夠對聲音的角色進行區分。顯然這種原始的處理方式不僅效率低下,且極大地浪費人力,成本較高。
因此,現有技術還有待于改進和發展。
發明內容
鑒于上述現有技術的不足,本發明的目的在于提供一種全景視頻錄制時自動生成字幕文件的方法及裝置,旨在解決現有技術在進行全景視頻錄制過程中,需要通過人工制作并調整相應字幕文件的問題。
本發明的技術方案如下:
一種全景視頻錄制時自動生成字幕文件的方法,其中,包括步驟:
實時獲取全景視頻錄制時的原始音頻數據;
對所述原始音頻數據進行處理獲取二次音頻數據、音頻位置數據以及音頻時間數據;
對所述二次音頻數據進行模型匹配,生成相對應的文字數據;
實時接收所述文字數據、音頻位置數據以及時間數據,根據所述音頻位置數據和音頻時間數據對所述文字數據進行實時編輯,形成字幕文件。
所述的全景視頻錄制時自動生成字幕文件的方法,其中,所述步驟實時獲取全景視頻錄制時的原始音頻數據具體包括:
通過設置在全景攝像機上的六麥環形陣列獲實時取原始音頻數據。
所述的全景視頻錄制時自動生成字幕文件的方法,其中,所述步驟對所述原始音頻數據進行處理獲取二次音頻數據、音頻位置數據以及時間數據具體包括:
對所述原始音頻數據進行噪聲抑制、混響消除、回聲抵消、波束形成以及陣列增益處理,得到二次音頻數據以及音頻時間數據;
對所述原始音頻數據進行聲源定位處理獲得音頻位置數據。
所述的全景視頻錄制時自動生成字幕文件的方法,其中,所述步驟對所述二次音頻數據進行模型匹配,生成相對應的文字數據具體包括:
通過DNN算法對所述二次音頻數據進行語音和語義的識別,生成識別后的文字數據。
所述的全景視頻錄制時自動生成字幕文件的方法,其中,所述步驟實時接收所述文字數據、音頻位置數據以及音頻時間數據,根據所述音頻位置數據和時間數據對所述文字數據進行實時編輯,形成字幕文件具體包括:
通過協處理器的字幕編輯功能,依次按照 [音頻角度數據][時間數據][文字數據]的順序格式排列,形成字幕文件。
所述的全景視頻錄制時自動生成字幕文件的方法,其中,所述步驟實時接收所述文字數據、音頻位置數據以及時間數據,根據所述音頻位置數據和時間數據對所述文字數據進行實時編輯,形成字幕文件之后還包括:
根據音頻位置數據將所述字幕文件加載在全景視頻相應音源方位的底部。
一種全景視頻錄制時自動生成字幕文件的裝置,其中,包括依次電連接的六麥環形陣列、陣列音源處理器以及協處理器:
所述六麥環形陣列用于實時獲取全景視頻錄制時的原始音頻數據;
所述陣列音源處理器用于對所述原始音頻數據進行處理獲取二次音頻數據、音頻位置數據以及音頻時間數據,同時還用于對所述二次音頻數據進行模型匹配,生成相對應的文字數據;
所述協處理器用于實時接收所述文字數據、音頻位置數據以及時間數據,根據所述音頻位置數據和時間數據對所述文字數據進行實時編輯,形成字幕文件。
所述的全景視頻錄制時自動生成字幕文件的裝置,其中,所述六麥環形陣列由六個環形的聲學傳感器組成,所述六個聲學傳感器分別與所述陣列音源處理器電連接。
所述的全景視頻錄制時自動生成字幕文件的裝置,其中,所述陣列音源處理器內包含聲源定位單元,所述聲源定位單元用于對所述原始音頻數據進行聲源定位處理獲得音頻位置數據。
所述的全景視頻錄制時自動生成字幕文件的裝置,其中,協處理器還包括加載單元,所述加載單元用于根據音頻位置數據將所述字幕文件加載在全景視頻相應音源方位的底部。
有益效果:相比傳統在錄播視頻時通過人工后期來制備字幕文件的方法,本發明實現了在全景視頻錄制過程中自動生成字幕文件,其解放了人力,制作效率高;并且在本發明中,所述字幕文件會根據音頻位置數據相應地顯示在視頻中不同角色所在的方位下,給用戶觀看視頻帶來便利。
附圖說明
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市酷開網絡科技有限公司,未經深圳市酷開網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710392422.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:自動車門和車門的鎖定/解鎖
- 下一篇:電動摩托裝配傳輸設備





