[發明專利]視頻字幕識別方法、裝置、介質及電子設備在審
| 申請號: | 202110277906.8 | 申請日: | 2021-03-15 |
| 公開(公告)號: | CN113052169A | 公開(公告)日: | 2021-06-29 |
| 發明(設計)人: | 馬天澤;王銘喜;馬超 | 申請(專利權)人: | 北京小米移動軟件有限公司 |
| 主分類號: | G06K9/32 | 分類號: | G06K9/32;G06K9/62 |
| 代理公司: | 北京英創嘉友知識產權代理事務所(普通合伙) 11447 | 代理人: | 王曉霞 |
| 地址: | 100085 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 視頻 字幕 識別 方法 裝置 介質 電子設備 | ||
本公開涉及一種視頻字幕識別方法、裝置、介質及電子設備,包括:獲取待處理視頻中的多個目標視頻幀;識別多個目標視頻幀中的每個目標視頻幀中的字幕文本;按照多個目標視頻幀在待處理視頻中的順序依次判斷相鄰的目標視頻幀中的字幕文本是否相同;將同一字幕文本首次出現和最后出現時分別對應的目標視頻幀的時間戳確定為同一字幕文本的起始時間和終止時間。通過上述技術方案,在對該待處理視頻中的目標視頻幀進行字幕文本的識別時,能夠同時將每一個字幕文本對應的起始時間和終止時間一并識別出來,從而實現了視頻中字幕信息的自動提取,大大簡化了字幕在視頻畫面中的視頻的字幕提取過程。
技術領域
本公開涉及文字識別領域,具體地,涉及一種視頻字幕識別方法、裝置、介質及電子設備。
背景技術
視頻作為一種最為流行的媒體形式,通過網絡和電視廣泛傳播。光學字符識別技術(OCR)作為圖像文本提取技術已日趨成熟。視頻中的文本檢測與識別技術作為二者的結合,可以助力于視頻檢索與分類,可以在需要提取影視劇字幕時節約人力。目前雖然也有一些對于視頻中的字幕進行文本識別的方法,但通常都是通過常規的文本識別得到一定的文本內容,后期仍需要再次對識別得到的文本進行復雜的整理才能夠得到的精簡的字幕文本,并且無法自動得到精簡后的字幕文本中每一個字幕文本對應的時間信息。
發明內容
本公開的目的是提供一種視頻字幕識別方法、裝置、介質及電子設備,能夠同時將每一個字幕文本對應的起始時間和終止時間一并識別出來,從而實現了視頻中字幕信息的自動提取,大大簡化了字幕在視頻畫面中的視頻的字幕提取過程。
為了實現上述目的,本公開提供一種視頻字幕識別方法,所述方法包括:
獲取待處理視頻中的多個目標視頻幀;
識別所述多個目標視頻幀中的每個目標視頻幀中的字幕文本;
按照所述多個目標視頻幀在所述待處理視頻中的順序依次判斷相鄰的所述目標視頻幀中的所述字幕文本是否相同;
將同一字幕文本首次出現和最后出現時分別對應的所述目標視頻幀的時間戳確定為所述同一字幕文本的起始時間和終止時間。
可選地,所述識別所述多個目標視頻幀中的每個目標視頻幀中的字幕文本包括:
截取所述目標視頻幀中出現字幕的目標圖像;
獲取所述目標圖像中的字幕所對應的識別框;
對所述識別框中的所述字幕進行識別,以得到相應的所述字幕文本。
可選地,所述獲取所述目標圖像中的字幕所對應的識別框包括:
通過字幕文本檢測模型獲取所述目標圖像中的所述字幕所對應的所述識別框,其中,所述字幕文本檢測模型為預先訓練好的深度學習模型。
可選地,所述通過字幕文本檢測模型獲取所述目標圖像中的所述字幕所對應的所述識別框包括:
通過所述字幕文本檢測模型確定所述目標圖像中的所有識別框,以及與所述所有識別框分別對應的檢測得分,所述檢測得分表征所述識別框的置信度;
將所述檢測得分高于第一預設閾值的識別框確定為所述目標圖像中的所述字幕所對應的所述識別框。
可選地,所述對所述識別框中的所述字幕進行識別,以得到相應的所述字幕文本包括:
通過字幕文本識別模型對所述識別框中的所述字幕進行識別,以得到相應的所述字幕文本,其中,所述字幕文本識別模型為預先訓練好的深度學習模型。
可選地,所述字幕文本識別模型的訓練數據中包括帶有空格標記的訓練數據、中文訓練數據、英文訓練數據、帶有中文標點符號標記的訓練數據和帶有英文標點符號標記的訓練數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京小米移動軟件有限公司,未經北京小米移動軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110277906.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:音量調節方法及裝置
- 下一篇:車載太陽能發電裝置及電動車輛





