[發明專利]一種視頻字幕關鍵詞識別方法及裝置有效
| 申請號: | 201811642015.2 | 申請日: | 2018-12-29 |
| 公開(公告)號: | CN109918987B | 公開(公告)日: | 2021-05-14 |
| 發明(設計)人: | 熊荔;張峰;王子瑋 | 申請(專利權)人: | 中國電子科技集團公司信息科學研究院 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/32 |
| 代理公司: | 北京辰權知識產權代理有限公司 11619 | 代理人: | 劉廣達 |
| 地址: | 100086 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 視頻 字幕 關鍵詞 識別 方法 裝置 | ||
本發明公開一種視頻字幕關鍵詞識別方法及裝置,該方法包括:從視頻數據中提取視頻關鍵幀;獲取視頻關鍵幀對應的文本行圖像;識別文本行圖像中包括的所有文字字符;根據預設的關鍵詞庫,從所有文字字符中提取關鍵詞。本發明從視頻數據中提取了視頻關鍵幀,基于深度神經網絡對視頻關鍵幀進行處理,去除視頻復雜背景中的噪聲影響,從視頻關鍵幀中獲取對應的文本行圖像,基于文本行圖像實現視頻復雜背景中的文字檢測、識別及關鍵詞提取,提高了視頻字幕識別及關鍵詞提取的效率及準確性。
技術領域
本發明屬于圖像識別技術領域,具體涉及一種視頻字幕關鍵詞識別方法及裝置。
背景技術
文字包含著豐富準確的語義信息,可傳達人類的思想和情感。文字識別是智能視覺識別技術中的一個重要技術,在很多領域得到了廣泛地研究及應用。其中,視頻字幕識別就是文字識別技術在視頻數據處理領域的應用。
目前,相關技術中提供了一種視頻字幕識別的方法,從視頻幀中分割出文字圖像區域,從文字圖像區域中分離出單個文字,識別單個文字,將識別出的多個單個文字連接起來。
但上述相關技術需要切割單個文字進行識別,識別效率很低。
發明內容
為解決上述問題,本發明提供一種視頻字幕關鍵詞識別方法及裝置,基于深度神經網絡對視頻關鍵幀進行處理,去除視頻復雜背景中的噪聲影響,提高了視頻字幕識別及關鍵詞提取的效率及準確性。本發明通過以下幾個方面來解決以上問題:
第一方面,本發明實施例提供了一種視頻字幕關鍵詞識別方法,所述方法包括:
從視頻數據中提取視頻關鍵幀;
獲取所述視頻關鍵幀對應的文本行圖像;
識別所述文本行圖像中包括的所有文字字符;
根據預設的關鍵詞庫,從所述所有文字字符中提取關鍵詞。
結合第一方面,本發明實施例提供了上述第一方面的第一種可能的實現方式,其中,所述從視頻數據中提取視頻關鍵幀,包括:
每隔預設時長從所述視頻數據中提取一幀圖像;
將提取的當前幀圖像與上一幀圖像進行灰度值差值運算,得到所述當前幀圖像對應的差值矩陣;
根據所述差值矩陣包括的非零像素值,計算判定閾值;
根據所述差值矩陣及所述判定閾值,確定所述當前幀圖像是否為視頻關鍵幀。
結合第一方面的第一種可能的實現方式,本發明實施例提供了上述第一方面的第二種可能的實現方式,其中,所述根據所述差值矩陣包括的非零像素值,計算判定閾值,包括:
計算所述差值矩陣包括的所有非零像素值的平均值及方差;
確定所述差值矩陣中像素值大于所述平均值的非零像素值的第一數量,及像素值大于所述方差的非零像素值的第二數量;
根據所述第一數量和所述第二數量,計算判定閾值。
結合第一方面的第一種可能的實現方式,本發明實施例提供了上述第一方面的第三種可能的實現方式,其中,所述根據所述差值矩陣及所述判定閾值,確定所述當前幀圖像是否為視頻關鍵幀,包括:
統計所述差值矩陣包括的非零像素值的數量;
若所述非零像素值的數量大于所述判定閾值,則將所述當前幀圖像確定為視頻關鍵幀。
結合第一方面,本發明實施例提供了上述第一方面的第四種可能的實現方式,其中,所述獲取所述視頻關鍵幀對應的文本行圖像,包括:
通過預設的卷積神經網絡對所述視頻關鍵幀進行特征提取,得到所述視頻關鍵幀對應的特征圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國電子科技集團公司信息科學研究院,未經中國電子科技集團公司信息科學研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811642015.2/2.html,轉載請聲明來源鉆瓜專利網。





