[發明專利]視頻光學字符識別系統方法及系統在審
| 申請號: | 202110239223.3 | 申請日: | 2021-03-04 |
| 公開(公告)號: | CN112966596A | 公開(公告)日: | 2021-06-15 |
| 發明(設計)人: | 崔大鵬 | 申請(專利權)人: | 北京秒針人工智能科技有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/20;G06K9/62 |
| 代理公司: | 青島清泰聯信知識產權代理有限公司 37256 | 代理人: | 趙燕 |
| 地址: | 100010 北京市石景山區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 視頻 光學 字符 識別 系統 方法 | ||
本申請公開了一種精簡視頻光學字符識別有效結果方法及系統,方法包括:視頻文件獲取步驟:獲取至少一個視頻文件;文本信息計算步驟:通過文本信息漢明計算裝置對文本信息進行計算;圖片幀應用步驟:通過圖片幀OCR應用裝置對圖片幀進行應用;圖片幀結果保存步驟:通過圖片幀OCR結果保存裝置對圖片幀結果進行保存;結果匯總步驟:通過視頻所有圖片幀OCR結果匯總裝置對圖片幀處理結果進行匯總。本發明能夠精簡視頻OCR結果,提高OCR結果的信息密度,舍棄冗余信息。
技術領域
本發明屬于視頻光學字符識別領域,具體涉及一種通過漢明距離和字符數精簡視頻光學字符識別有效結果的方法及系統。
背景技術
視頻是以一定碼率和算法把大量音視頻信息組織保存的,對視頻的OCR應用,實際是對視頻的每幀圖像分別應用ocr算法,并將所有圖片的ocr結果重新組織;視頻的OCR結果為該視頻所有圖片幀OCR結果的全集;現有的技術通常只是簡單匯總所有圖片幀的結果;每個視頻內都有有大量的相似幀圖片,這些相似圖片重復計算浪費計算性能,同時文本結果也有大量的重復,降低了視頻的OCR文本結果的信息密度;這個方案會圖片幀做相似度檢測,相似度較高的圖片,不再重復計算。
現有技術的缺點:圖片幀相似度計算減少了重復計算,但仍然會有大量重復的文本,對獨立的靜態圖像有較好的效果,但對像字幕顯示這一類的前后有時間關系的圖像,因為只是字幕的變更,圖片大概率是相似的,粗暴的只應用圖片相似度,會導致字幕的不準確。
發明內容
為解決上述技術問題本申請實施例提供了一種視頻光學字符識別方法及系統。本發明提供了一種視頻光學字符識別方法,其中,包括:
視頻文件獲取步驟:獲取至少一個視頻文件;
圖片幀計算步驟:對所述視頻文件進行計算獲得圖片幀;
文本信息計算步驟:對所述圖片幀進行計算獲得圖片幀文本信息;
圖片幀結果保存步驟:對所述圖片幀文本信息進行保存;
結果匯總步驟:對所述圖片幀文本信息進行匯總。
上述視頻光學字符識別方法,其中,所述圖片幀計算步驟包括,根據所述視頻文件逐幀或提取關鍵幀計算以提取的所述圖片幀。
上述視頻光學字符識別方法,其中,所述文本信息計算步驟包括:
提取步驟:從所述圖片幀中提取當前圖片幀和所述當前圖片幀的前一圖片幀;
計算步驟:對所述當前圖片幀和所述前一圖片幀進行計算對應地獲得當前圖片幀文本信息和前一圖片幀文本信息;
計算相似度步驟:對所述當前圖片幀文本信息和前一圖片幀文本信息進行計算獲得相似度;
判斷步驟:對所述相似度進行判斷并輸出判斷結果。
上述視頻光學字符識別方法,其中,所述判斷步驟包括:若所述相似度大于一固定值,且所述當前圖片幀文本信息的字符數大于前一圖片幀文本信息的字符數時輸出第一判斷結果;
若所述相似度大于所述固定值,且所述當前圖片幀文本信息的字符數小于或等于前一圖片幀文本信息的字符數時輸出第二判斷結果;
若所述相似度小于所述固定值,輸出第三判斷結果。
上述視頻光學字符識別方法,其中,所述圖片幀結果保存步驟包括:
根據所述第一判斷結果舍棄所述前一圖片幀文本信息,保留所述當前圖片幀文本信息進行存儲;
根據所述第二判斷結果舍棄所述當前圖片幀文本信息,保留所述前一圖片幀文本信息進行存儲;
根據所述第三判斷結果,保留所述當前圖片幀文本信息和前一圖片幀文本信息進行存儲。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京秒針人工智能科技有限公司,未經北京秒針人工智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110239223.3/2.html,轉載請聲明來源鉆瓜專利網。





