[發(fā)明專利]一種視頻中滾動字幕的自動檢測和識別方法有效
| 申請?zhí)枺?/td> | 201410503515.3 | 申請日: | 2014-09-26 |
| 公開(公告)號: | CN104244073B | 公開(公告)日: | 2017-05-17 |
| 發(fā)明(設計)人: | 汪陽;張健;彭宇新 | 申請(專利權)人: | 北京大學 |
| 主分類號: | H04N21/435 | 分類號: | H04N21/435;H04N21/235;G06K9/00 |
| 代理公司: | 北京君尚知識產權代理事務所(普通合伙)11200 | 代理人: | 余功勛 |
| 地址: | 100871 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 視頻 滾動 字幕 自動檢測 識別 方法 | ||
技術領域
本發(fā)明屬于視頻內容檢索技術領域,具體涉及一種視頻中滾動字幕的檢測和識別方法。
背景技術
隨著互聯(lián)網(wǎng)技術與多媒體技術的迅速發(fā)展,網(wǎng)絡上出現(xiàn)了海量的視頻內容。此外,電視臺等業(yè)務單位及數(shù)字圖書館、遠程教學、視頻點播等多媒體應用也產生了大量的視頻資料。面對如此海量的視頻數(shù)據(jù),如何進行分析和檢索,使用戶能夠迅速檢索到想要的內容,成為了一個亟待解決的問題。傳統(tǒng)的方法基于人工標注的關鍵詞進行檢索,這種方法因為主觀性強、手工標注等缺點,不能適用于海量視頻內容的檢索與管理。而大量視頻包含了豐富的字幕信息,這些字幕文字信息一般同視頻的內容密切相關,能夠對之進行較為準確的描述,因此如果能夠正確識別這些文字,將有利于計算機對視頻內容的自動分析和檢索。然而,由于視頻背景復雜多變,如何從視頻中識別字幕文字本身就是一個極為困難的問題。
現(xiàn)有的視頻字幕識別方法一般包含四個模塊,即視頻字幕檢測模塊、視頻字幕增強模塊、視頻字幕提取模塊和OCR軟件識別模塊。其中:視頻字幕檢測模塊對視頻內容進行了分析,在視頻幀中檢測和定位字幕區(qū)域;視頻字幕增強模塊主要采用多幀融合的方法,對在多個視頻幀中檢測到的相同字幕區(qū)域進行融合,以得到背景更為平滑、筆畫更為清晰的文字圖像;視頻字幕提取模塊對字幕區(qū)域圖像進行處理,把文字從背景中分割出來,轉化成可供OCR軟件識別的二值文字圖像;OCR軟件識別模塊識別二值文字圖像,完成文字圖像到文本的轉換。在這4個模塊中,OCR是比較成熟的技術,在市場上已有成功的應用。因此,現(xiàn)有研究主要集中在視頻字幕檢測、基于多幀融合的視頻字幕增強和視頻字幕提取這三個模塊上。
然而,現(xiàn)有的方法只針對視頻中的固定字幕進行處理,忽略了視頻中的滾動字幕。視頻中的滾動字幕是大量存在的,例如新聞節(jié)目、體育節(jié)目等視頻會存在大量的滾動字幕播放新聞消息和比賽結果,電視劇、電影結尾的演職員表等也是滾動字幕。這些滾動字幕中包含了大量的有用信息,若能夠將其檢測和識別出來,將能夠更好地描述視頻信息,為視頻內容的檢索提供更多的有用信息。
發(fā)明內容
針對目前缺乏對視頻滾動字幕進行有效檢測與識別的現(xiàn)狀,本發(fā)明提出了一種視頻中滾動字幕的自動檢測和識別方法,用于檢測視頻中是否包含滾動字幕,并能夠將滾動字幕中的文本信息自動識別出來。本發(fā)明具有如下三個優(yōu)點:(1)對于視頻中的水平滾動和垂直滾動字幕提出了一種檢測和跟蹤方法,能夠區(qū)分出視頻中的固定字幕和滾動字幕,并能夠將出現(xiàn)在不同位置的滾動字幕檢測出來,并實現(xiàn)滾動字幕的跟蹤;(2)提出了一種對于滾動字幕的拼接算法,能夠將水平滾動的字幕拼接起來進行識別,并能夠進一步利用多幀信息來提高滾動字幕的識別效果;(3)傳統(tǒng)的視頻字幕識別技術一般主要用于固定字幕,直接用于滾動字幕檢測和識別會造成大量的重復文本識別,影響識別結果的可讀性和可用性,而本發(fā)明能夠很好地跟蹤滾動字幕,避免重復識別,具有重復率低的優(yōu)點。
為了達到以上目的,本發(fā)明的技術方案如下:
一種視頻中滾動字幕的自動檢測和識別方法,用于對視頻中的滾動字幕進行檢測,并識別出其中的文字;包括如下步驟:
(1)滾動字幕區(qū)域的檢測:目的是檢測出視頻幀圖像中含有的字幕區(qū)域是否為滾動字幕,并進一步判斷滾動字幕是水平滾動還是垂直滾動;
(2)垂直滾動字幕的過濾和識別:基于步驟(1)中檢測到的多幀連續(xù)包含垂直滾動字幕的視頻圖像,采用自適應檢測窗口的方法,對檢測到的字幕區(qū)域進行過濾,以降低字幕識別的重復率;相同的字幕會出現(xiàn)多次,我們將相同字幕的多幀視頻圖像的字幕區(qū)域根據(jù)背景和文字信息,選擇其中最清晰的一幀圖像來進行后續(xù)的字幕分割與提取操作,并輸入OCR識別軟件;
(3)水平滾動字幕的拼接和識別:基于步驟(1)中檢測到的多幀連續(xù)包含水平滾動字幕的圖像,將多幀圖像拼接為一幀包含完整滾動字幕的圖像,經過二值化處理后,作為OCR識別軟件的輸入。
進一步,上述的一種視頻中滾動字幕的自動檢測和識別方法,所述步驟(1)中,滾動字幕區(qū)域檢測的第一步是判斷檢測到的字幕區(qū)域是否為垂直滾動字幕。本發(fā)明利用字幕區(qū)域的位置信息、邊緣分布信息以及相似度信息來判斷是否為垂直滾動字幕。首先我們判斷連續(xù)兩幀視頻圖像的字幕區(qū)域是否有相交區(qū)域,并且相交區(qū)域的面積需要滿足下列的公式一。
公式一:Overlap(Ba,Bb)>r1×Max(area(Ba),area(Bb));
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學,未經北京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410503515.3/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





