[發明專利]視頻字幕識別方法、裝置、介質及電子設備在審

申請號：	202110277906.8	申請日：	2021-03-15
公開（公告）號：	CN113052169A	公開（公告）日：	2021-06-29
發明（設計）人：	馬天澤;王銘喜;馬超	申請（專利權）人：	北京小米移動軟件有限公司
主分類號：	G06K9/32	分類號：	G06K9/32;G06K9/62
代理公司：	北京英創嘉友知識產權代理事務所(普通合伙) 11447	代理人：	王曉霞
地址：	100085 北京市海淀***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	視頻字幕識別方法裝置介質電子設備
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本公開涉及一種視頻字幕識別方法、裝置、介質及電子設備，包括：獲取待處理視頻中的多個目標視頻幀；識別多個目標視頻幀中的每個目標視頻幀中的字幕文本；按照多個目標視頻幀在待處理視頻中的順序依次判斷相鄰的目標視頻幀中的字幕文本是否相同；將同一字幕文本首次出現和最后出現時分別對應的目標視頻幀的時間戳確定為同一字幕文本的起始時間和終止時間。通過上述技術方案，在對該待處理視頻中的目標視頻幀進行字幕文本的識別時，能夠同時將每一個字幕文本對應的起始時間和終止時間一并識別出來，從而實現了視頻中字幕信息的自動提取，大大簡化了字幕在視頻畫面中的視頻的字幕提取過程。

技術領域

本公開涉及文字識別領域，具體地，涉及一種視頻字幕識別方法、裝置、介質及電子設備。

背景技術

視頻作為一種最為流行的媒體形式，通過網絡和電視廣泛傳播。光學字符識別技術(OCR)作為圖像文本提取技術已日趨成熟。視頻中的文本檢測與識別技術作為二者的結合，可以助力于視頻檢索與分類，可以在需要提取影視劇字幕時節約人力。目前雖然也有一些對于視頻中的字幕進行文本識別的方法，但通常都是通過常規的文本識別得到一定的文本內容，后期仍需要再次對識別得到的文本進行復雜的整理才能夠得到的精簡的字幕文本，并且無法自動得到精簡后的字幕文本中每一個字幕文本對應的時間信息。

發明內容

本公開的目的是提供一種視頻字幕識別方法、裝置、介質及電子設備，能夠同時將每一個字幕文本對應的起始時間和終止時間一并識別出來，從而實現了視頻中字幕信息的自動提取，大大簡化了字幕在視頻畫面中的視頻的字幕提取過程。

為了實現上述目的，本公開提供一種視頻字幕識別方法，所述方法包括：

獲取待處理視頻中的多個目標視頻幀；

識別所述多個目標視頻幀中的每個目標視頻幀中的字幕文本；

按照所述多個目標視頻幀在所述待處理視頻中的順序依次判斷相鄰的所述目標視頻幀中的所述字幕文本是否相同；

將同一字幕文本首次出現和最后出現時分別對應的所述目標視頻幀的時間戳確定為所述同一字幕文本的起始時間和終止時間。

可選地，所述識別所述多個目標視頻幀中的每個目標視頻幀中的字幕文本包括：

截取所述目標視頻幀中出現字幕的目標圖像；

獲取所述目標圖像中的字幕所對應的識別框；

對所述識別框中的所述字幕進行識別，以得到相應的所述字幕文本。

可選地，所述獲取所述目標圖像中的字幕所對應的識別框包括：