[發明專利]一種對音視頻流中物品和語言實時識別分析的方法與裝置在審
| 申請號: | 202011451586.5 | 申請日: | 2020-12-09 |
| 公開(公告)號: | CN112637620A | 公開(公告)日: | 2021-04-09 |
| 發明(設計)人: | 柏楊;樊曉昆 | 申請(專利權)人: | 杭州艾耕科技有限公司 |
| 主分類號: | H04N21/2187 | 分類號: | H04N21/2187;H04N21/231;H04N21/234;H04N21/431;H04N21/433;H04N21/434;H04N21/439;H04N21/44;H04N21/4788;H04N21/488;H04N21/6437 |
| 代理公司: | 杭州天昊專利代理事務所(特殊普通合伙) 33283 | 代理人: | 何碧珩;卓彩霞 |
| 地址: | 310052 浙江省杭州市濱江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 視頻 物品 語言 實時 識別 分析 方法 裝置 | ||
1.一種對音視頻流中物品和語言實時識別分析的方法,其特征是,包括以下步驟:
(1)音視頻RTMP直播流接收與分割
(1.1)接收音視頻RTMP直播流:搭建支持RTMP協議的服務器,直播端向這個服務器推送RTMP直播流,服務器會持續收到這個直播流并將其緩存;
(1.2)音視頻RTMP直播流的分割:從步驟(1.1)中的RTMP協議的服務器中實時拉取正在推送的直播流信息,每隔一段時間進行一次切割,生成視頻文件;當視頻文件生成后,對該文件進行標記并發送;
(2)音視頻片段識別及貼圖元素生成:收到步驟(1.2)中切割得到的視頻文件后,按如下順序進行處理;
(2.1)音頻提取及識別:首先從視頻片段中提取出音頻,并將聲音轉化為文本,將文本及時間軸信息存儲下來;
(2.2)文字處理及貼圖生成:由步驟(2.1)得到語音對應的文本,通過自然語言處理方法從中提取出關鍵詞,然后使用這些關鍵詞生成文字貼圖;將這些文字貼圖結合時間軸信息一起保存下來;
(2.3)視頻元素識別及處理:對視頻畫面中的文字和物品進行識別,生成不同時間上畫面的位置信息并保存;
(3)視頻片段合成:結合步驟(2.2)-(2.3)得到的信息,將貼圖按時間和位置將原片段中的特定的畫面幀進行替換即完成視頻片段的合成;
(4)視頻片段拼接與連續推流:使用FFmpeg中對多個視頻進行拼接再推流的方法進行視頻片段的拼接與連續推流。
2.根據權利要求1所述的一種對音視頻流中物品和語言實時識別分析的方法,其特征是,步驟(1.2)中,每隔5-10s進行一次切割,生成長度相同的視頻。
3.根據權利要求1所述的一種對音視頻流中物品和語言實時識別分析的方法,其特征是,步驟(1.2)中,使用重命名的方法進行標記,生成視頻文件過程中,文件名為*.mp4.tmp,生成完畢后,文件名為*.mp4。
4.一種對音視頻流中物品和語言實時識別分析的裝置,其特征是,該裝置能夠被用于實現權利要求1-3中任一項所述的方法,該裝置包括音視頻RTMP直播流接收與分割單元、音視頻片段識別及貼圖元素生成單元、視頻片段合成單元、視頻片段拼接與連續推流單元,音視頻RTMP直播流接收與分割單元與音視頻片段識別及貼圖元素生成單元連接,音視頻片段識別及貼圖元素生成單元與視頻片段合成單元連接,視頻片段合成單元與視頻片段拼接與連續推流單元連接。
5.一種計算機設備,包括存儲器、處理器以及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,其特征在于,所述處理器在執行所述計算機程序時能夠實現權利要求1-3中任一項所述的對音視頻流中物品和語言實時識別分析的方法中的步驟。
6.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時能夠實現權利要求1-3中任一項所述的對音視頻流中物品和語言實時識別分析的方法中的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州艾耕科技有限公司,未經杭州艾耕科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011451586.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于無人機的礦山三維模型制作方法
- 下一篇:工人用的多功能鞋架





