[發明專利]用于分析視頻流的方法和裝置在審
| 申請號: | 202110089228.2 | 申請日: | 2021-01-22 |
| 公開(公告)號: | CN112822506A | 公開(公告)日: | 2021-05-18 |
| 發明(設計)人: | 宋穎鑫;廖璽舉;李遠杭;關云鵬 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | H04N21/2187 | 分類號: | H04N21/2187;H04N21/44;H04N21/439;G10L15/26;G06K9/20;G06K9/62;G06F40/169;G06F40/30;G06N3/08;G06N7/00;G06N20/10 |
| 代理公司: | 北京市金杜律師事務所 11256 | 代理人: | 趙林琳 |
| 地址: | 100080 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 分析 視頻 方法 裝置 | ||
1.一種用于分析視頻流的方法,包括:
獲取所述視頻流的圖像數據和音頻數據;
根據與所述音頻數據相對應的第一文本,確定能夠標識所述第一文本的主題的第一主題文本;
利用所述圖像數據的圖像特征表示,根據與所述圖像數據相對應的第二文本,確定能夠標識所述第二文本的主題的第二主題文本;以及
基于所述第一主題文本以及所述第二主題文本,確定所述視頻流的所述主題。
2.根據權利要求1所述的方法,其中獲取所述圖像數據和所述音頻數據包括:
基于預定的時間間隔,從實時的所述視頻流中提取視頻片段;以及
基于所述視頻片段,確定所述圖像數據和所述音頻數據。
3.根據權利要求1所述的方法,其中確定所述第一主題文本包括:
對所述音頻數據執行語音識別處理,以獲取所述第一文本;
基于自然語義理解模型對所述第一文本進行標注,以確定經標注的所述第一文本;以及
基于經標注的所述第一文本,確定所述第一主題文本。
4.根據權利要求1所述的方法,其中確定能夠標識所述第二文本的主題的第二主題文本包括:
對所述圖像數據執行光學字符識別處理,以獲取所述第二文本;
對所述圖像數據執行目標檢測處理,以確定所述第二文本所包括的至少一個子文本的至少一個位置;
基于所述至少一個位置并且利用所述圖像特征表示,從所述至少一個子文本中確定所述第二主題文本。
5.根據權利要求4所述的方法,其中基于所述至少一個位置并且利用所述圖像特征表示,從所述至少一個子文本中確定所述第二主題文本包括:
基于所述至少一個位置,確定所述至少一個子文本在所述圖像數據中所占據的至少一個感興趣區域;
基于所述至少一個感興趣區域,從所述圖像特征表示中確定針對所述感興趣區域的至少一個第一特征表示;以及
基于所述至少一個第一特征表示以及所述圖像特征表示,從所述至少一個子文本中確定所述第二主題文本。
6.根據權利要求5所述的方法,其中從所述至少一個子文本中確定所述第二主題文本包括:
基于自然語義理解模型,確定與所述至少一個子文本相對應的至少一個子文本特征表示;以及
利用所述至少一個子文本特征表示、所述至少一個第一特征表示以及所述圖像特征表示,確定所述第二主題文本。
7.根據權利要求1所述的方法,其中確定所述視頻流的所述主題包括:
對所述第一主題文本和所述第二主題文本進行組合,以獲取經組合的主題文本;以及
從所述經組合的主題文本中提取至少一個關鍵短語作為所述主題。
8.一種用于分析視頻流的裝置,包括:
數據獲取模塊,被配置為獲取所述視頻流的圖像數據和音頻數據;
第一主題文本確定模塊,被配置為根據與所述音頻數據相對應的第一文本,確定能夠標識所述第一文本的主題的第一主題文本;
第二主題文本確定模塊,利用所述圖像數據的圖像特征表示,根據與所述圖像數據相對應的第二文本,確定能夠標識所述第二文本的主題的第二主題文本;以及
主題確定模塊,被配置為基于所述第一主題文本以及所述第二主題文本,確定所述視頻流的所述主題。
9.根據權利要求8所述的裝置,其中所述數據獲取模塊包括:
視頻提取子模塊,被配置為基于預定的時間間隔,從實時的所述視頻流中提取視頻片段;以及
圖像和音頻數據確定子模塊,被配置為基于所述視頻片段,確定所述圖像數據和所述音頻數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110089228.2/1.html,轉載請聲明來源鉆瓜專利網。





