[發明專利]視頻文本提取方法、裝置、設備、介質及計算機程序產品在審
| 申請號: | 202210364170.2 | 申請日: | 2022-04-07 |
| 公開(公告)號: | CN115129933A | 公開(公告)日: | 2022-09-30 |
| 發明(設計)人: | 宋浩;黃珊 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/783 | 分類號: | G06F16/783;G06K9/62;G06N3/04;G06N3/08;G06V20/40;G06V10/25;G06V10/74;G06V10/82 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 陳梅君 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 視頻 文本 提取 方法 裝置 設備 介質 計算機 程序 產品 | ||
1.一種視頻文本提取方法,其特征在于,包括:
對目標視頻中各個視頻幀進行文本特征提取處理,得到所述各個視頻幀的文本特征;
根據所述各個視頻幀的文本特征,生成一個或多個關鍵幀;其中,任意兩個關鍵幀的文本特征之間的相似度小于第一相似度閾值;
對各個關鍵幀進行文本識別處理,得到所述各個關鍵幀的識別文本及所在的文本區域;
獲取所述各個關鍵幀的識別文本的文本內容,并根據所述各個關鍵幀的識別文本的文本內容以及對應的文本區域,對所述各個關鍵幀的識別文本進行合并處理,得到合并文本;其中,所述合并文本被作為所述目標視頻的視頻文本。
2.如權利要求1所述的方法,其特征在于,所述各個視頻幀按照在所述目標視頻中對應的播放順序依次排列;
根據所述各個視頻幀的文本特征,生成一個關鍵幀的方式包括:
根據所述各個視頻幀的排列順序,以及任意兩個相鄰視頻幀的文本特征之間的相似度,從所述各個視頻幀中確定出關聯視頻幀集;所述關聯視頻幀集包含至少兩個對應文本特征之間的相似度大于或等于第二相似度閾值的視頻幀;
對所述關聯視頻幀集中的各個視頻幀進行合并處理,得到所述一個關鍵幀。
3.如權利要求1所述的方法,其特征在于,所述對目標視頻中各個視頻幀進行文本特征提取處理,得到所述各個視頻幀的文本特征,包括:
針對所述各個視頻幀中的任一視頻幀,對所述任一視頻幀進行圖像分割處理,得到所述任一視頻幀的多個圖像區域;
對所述任一視頻幀的多個圖像區域進行卷積運算,得到所述任一視頻幀的初始特征圖;
根據所述初始特征圖對所述任一視頻幀的各個圖像區域進行文本預測,并根據文本預測結果和所述初始特征圖生成所述任一視頻幀的文本特征。
4.如權利要求3所述的方法,其特征在于,所述初始特征圖的數量為多個;
所述根據所述初始特征圖對所述任一視頻幀的各個圖像區域進行文本預測,并根據文本預測結果和所述初始特征圖生成所述任一視頻幀的文本特征,包括:
對多個初始特征圖進行合并處理,得到參考特征圖;
基于所述參考特征圖所指示的特征信息,預測所述任一視頻幀的各個圖像區域中包含文本的文本預測概率;其中,所述文本預測概率被作為所述文本預測結果;
基于所述文本預測概率,分別對各個初始特征圖進行文本定位處理,得到所述任一視頻幀的文本特征。
5.如權利要求4所述的方法,其特征在于,所述對多個初始特征圖進行合并處理,得到參考特征圖,包括:
基于注意力機制確定針對任一初始特征圖的關注度,并將所述關注度作為所述任一初始特征圖的特征權重;
采用特征權重對相應的初始特征圖進行加權合并處理,得到所述參考特征圖。
6.如權利要求4所述的方法,其特征在于,所述基于所述文本預測概率,分別對各個初始特征圖進行文本定位處理,得到所述任一視頻幀的文本特征,包括:
將所述各個圖像區域中,對應文本預測概率小于或等于概率閾值的圖像區域作為掩碼區域;
針對任一初始特征圖,將所述任一初始特征圖中的所述掩碼區域所在位置進行遮掩處理,得到所述任一初始特征圖對應的目標特征圖;
將所述各個初始特征圖對應的目標特征圖作為所述任一視頻幀的文本特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210364170.2/1.html,轉載請聲明來源鉆瓜專利網。





