[發(fā)明專利]一種視頻中滾動字幕的自動檢測和識別方法有效

申請?zhí)枺?/td>	201410503515.3	申請日：	2014-09-26
公開（公告）號：	CN104244073B	公開（公告）日：	2017-05-17
發(fā)明（設計）人：	汪陽;張健;彭宇新	申請（專利權）人：	北京大學
主分類號：	H04N21/435	分類號：	H04N21/435;H04N21/235;G06K9/00
代理公司：	北京君尚知識產權代理事務所(普通合伙)11200	代理人：	余功勛
地址：	100871 北***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種視頻滾動字幕自動檢測識別方法
鉆瓜網(wǎng) 技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發(fā)明屬于視頻內容檢索技術領域，具體涉及一種視頻中滾動字幕的檢測和識別方法。

背景技術

隨著互聯(lián)網(wǎng)技術與多媒體技術的迅速發(fā)展，網(wǎng)絡上出現(xiàn)了海量的視頻內容。此外，電視臺等業(yè)務單位及數(shù)字圖書館、遠程教學、視頻點播等多媒體應用也產生了大量的視頻資料。面對如此海量的視頻數(shù)據(jù)，如何進行分析和檢索，使用戶能夠迅速檢索到想要的內容，成為了一個亟待解決的問題。傳統(tǒng)的方法基于人工標注的關鍵詞進行檢索，這種方法因為主觀性強、手工標注等缺點，不能適用于海量視頻內容的檢索與管理。而大量視頻包含了豐富的字幕信息，這些字幕文字信息一般同視頻的內容密切相關，能夠對之進行較為準確的描述，因此如果能夠正確識別這些文字，將有利于計算機對視頻內容的自動分析和檢索。然而，由于視頻背景復雜多變，如何從視頻中識別字幕文字本身就是一個極為困難的問題。

現(xiàn)有的視頻字幕識別方法一般包含四個模塊，即視頻字幕檢測模塊、視頻字幕增強模塊、視頻字幕提取模塊和OCR軟件識別模塊。其中：視頻字幕檢測模塊對視頻內容進行了分析，在視頻幀中檢測和定位字幕區(qū)域；視頻字幕增強模塊主要采用多幀融合的方法，對在多個視頻幀中檢測到的相同字幕區(qū)域進行融合，以得到背景更為平滑、筆畫更為清晰的文字圖像；視頻字幕提取模塊對字幕區(qū)域圖像進行處理，把文字從背景中分割出來，轉化成可供OCR軟件識別的二值文字圖像；OCR軟件識別模塊識別二值文字圖像，完成文字圖像到文本的轉換。在這4個模塊中，OCR是比較成熟的技術，在市場上已有成功的應用。因此，現(xiàn)有研究主要集中在視頻字幕檢測、基于多幀融合的視頻字幕增強和視頻字幕提取這三個模塊上。

然而，現(xiàn)有的方法只針對視頻中的固定字幕進行處理，忽略了視頻中的滾動字幕。視頻中的滾動字幕是大量存在的，例如新聞節(jié)目、體育節(jié)目等視頻會存在大量的滾動字幕播放新聞消息和比賽結果，電視劇、電影結尾的演職員表等也是滾動字幕。這些滾動字幕中包含了大量的有用信息，若能夠將其檢測和識別出來，將能夠更好地描述視頻信息，為視頻內容的檢索提供更多的有用信息。

發(fā)明內容

針對目前缺乏對視頻滾動字幕進行有效檢測與識別的現(xiàn)狀，本發(fā)明提出了一種視頻中滾動字幕的自動檢測和識別方法，用于檢測視頻中是否包含滾動字幕，并能夠將滾動字幕中的文本信息自動識別出來。本發(fā)明具有如下三個優(yōu)點：(1)對于視頻中的水平滾動和垂直滾動字幕提出了一種檢測和跟蹤方法，能夠區(qū)分出視頻中的固定字幕和滾動字幕，并能夠將出現(xiàn)在不同位置的滾動字幕檢測出來，并實現(xiàn)滾動字幕的跟蹤；(2)提出了一種對于滾動字幕的拼接算法，能夠將水平滾動的字幕拼接起來進行識別，并能夠進一步利用多幀信息來提高滾動字幕的識別效果；(3)傳統(tǒng)的視頻字幕識別技術一般主要用于固定字幕，直接用于滾動字幕檢測和識別會造成大量的重復文本識別，影響識別結果的可讀性和可用性，而本發(fā)明能夠很好地跟蹤滾動字幕，避免重復識別，具有重復率低的優(yōu)點。

為了達到以上目的，本發(fā)明的技術方案如下：

一種視頻中滾動字幕的自動檢測和識別方法，用于對視頻中的滾動字幕進行檢測，并識別出其中的文字；包括如下步驟：

(1)滾動字幕區(qū)域的檢測：目的是檢測出視頻幀圖像中含有的字幕區(qū)域是否為滾動字幕，并進一步判斷滾動字幕是水平滾動還是垂直滾動；

(2)垂直滾動字幕的過濾和識別：基于步驟(1)中檢測到的多幀連續(xù)包含垂直滾動字幕的視頻圖像，采用自適應檢測窗口的方法，對檢測到的字幕區(qū)域進行過濾，以降低字幕識別的重復率；相同的字幕會出現(xiàn)多次，我們將相同字幕的多幀視頻圖像的字幕區(qū)域根據(jù)背景和文字信息，選擇其中最清晰的一幀圖像來進行后續(xù)的字幕分割與提取操作，并輸入OCR識別軟件；

(3)水平滾動字幕的拼接和識別：基于步驟(1)中檢測到的多幀連續(xù)包含水平滾動字幕的圖像，將多幀圖像拼接為一幀包含完整滾動字幕的圖像，經過二值化處理后，作為OCR識別軟件的輸入。

進一步，上述的一種視頻中滾動字幕的自動檢測和識別方法，所述步驟(1)中，滾動字幕區(qū)域檢測的第一步是判斷檢測到的字幕區(qū)域是否為垂直滾動字幕。本發(fā)明利用字幕區(qū)域的位置信息、邊緣分布信息以及相似度信息來判斷是否為垂直滾動字幕。首先我們判斷連續(xù)兩幀視頻圖像的字幕區(qū)域是否有相交區(qū)域，并且相交區(qū)域的面積需要滿足下列的公式一。

公式一：Overlap(B_a,B_b)>r₁×Max(area(B_a),area(B_b))；

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于北京大學，未經北京大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201410503515.3/2.html，轉載請聲明來源鉆瓜專利網(wǎng)。