[發明專利]字幕區域識別方法、裝置、設備及存儲介質在審
| 申請號: | 202011165751.0 | 申請日: | 2020-10-27 |
| 公開(公告)號: | CN112232260A | 公開(公告)日: | 2021-01-15 |
| 發明(設計)人: | 黃杰;王書培 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/20 |
| 代理公司: | 北京三高永信知識產權代理有限責任公司 11138 | 代理人: | 徐立 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 字幕 區域 識別 方法 裝置 設備 存儲 介質 | ||
1.一種字幕區域識別方法,其特征在于,所述方法包括:
識別視頻中的文字得到文本列表,所述文本列表包括至少一條文本數據,所述文本數據包括文字內容、文字區域和顯示時長,所述文字內容包括位于所述文字區域上的至少一個文字;
將所述文字區域歸整為n個候選字幕區域,屬于第i個候選字幕區域的所述文字區域與所述第i個候選字幕區域的位置偏差小于偏差閾值,n為正整數,i為小于或等于n的正整數;
根據字幕區域篩選策略從所述n個候選字幕區域中篩選得到所述字幕區域;所述字幕區域篩選策略用于將所述n個候選字幕區域中所述文字內容的重復率低于重復率閾值且顯示總時長最長的候選字幕區域確定為所述字幕區域,所述顯示總時長為屬于所述候選字幕區域的全部文字內容的所述顯示時長之和。
2.根據權利要求1所述的方法,其特征在于,所述根據字幕區域篩選策略從所述n個候選字幕區域中篩選得到所述字幕區域,包括:
計算所述候選字幕區域的所述重復率,所述重復率為累計時長與所述視頻的視頻總時長之比,所述累計時長為相同的所述文字內容的所述顯示時長之和;
將所述文字內容的所述重復率低于所述重復率閾值的所述候選字幕區域確定為初篩字幕區域;
計算所述初篩字幕區域的所述顯示總時長;
將所述初篩字幕區域中,所述顯示總時長最長的所述初篩字幕區域確定為所述字幕區域。
3.根據權利要求2所述的方法,其特征在于,所述計算所述候選字幕區域的所述重復率,包括:
獲取對應第j個候選字幕區域的第j組文本數據,所述第j組文本數據中的所述文字區域屬于所述第j個候選字幕區域,j為小于等于n的正整數,n為正整數;
將所述第j組文本數據中所述文字內容相同的所述文本數據歸為同一個文本數據集合,得到至少一個文本數據集合;
計算每個所述文本數據集合中的所述顯示時長之和,得到至少一個所述累計時長;
計算最大的所述累計時長與所述視頻的所述視頻總時長之比得到所述重復率;
重復上述四個步驟計算得到每個所述候選字幕區域的所述重復率。
4.根據權利要求2所述的方法,其特征在于,所述計算所述初篩字幕區域的所述顯示總時長,包括:
計算對應所述初篩字幕區域的所述文本數據的所述顯示時長之和,得到所述初篩字幕區域的所述顯示總時長。
5.根據權利要求1至4任一所述的方法,其特征在于,所述文本列表包括m個文本數據,所述文字區域包括矩形的上邊線和下邊線,m為正整數;
所述將所述文字區域歸整為n個候選字幕區域,包括:
從m個文字區域中抽出一個文字區域作為第1個文字區域,將所述第1個文字區域確定為第1個候選字幕區域,將所述第1個候選字幕區域加入候選字幕區域列表;
循環執行以下步驟,直至所述m個文字區域的剩余數量為0:從剩下的m-k+1個文字區域中抽出一個文字區域作為第k個文字區域,響應于所述第k個文字區域與所述候選字幕區域列表中的第w個候選字幕區域的第一位置偏差小于所述偏差閾值,將所述第k個文字區域歸為所述第w個候選字幕區域;
響應于所述第k個文字區域與所述候選字幕區域列表中的全部候選字幕區域的第二位置偏差都大于所述偏差閾值,將所述第k個文字區域確定為第y個候選字幕區域,將所述第y個候選字幕區域加入所述候選字幕區域列表;
其中,所述第一位置偏差包括兩個所述上邊線之差和兩個所述下邊線之差,所述第二位置偏差包括兩個所述上邊線之差或兩個所述下邊線之差,y為小于或等于n的正整數,k為小于等于m的正整數,w為小于等于n的正整數,n為正整數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011165751.0/1.html,轉載請聲明來源鉆瓜專利網。





