[發明專利]一種基于角點檢測的視頻字幕區域定位方法有效
| 申請號: | 201710707407.1 | 申請日: | 2017-08-17 |
| 公開(公告)號: | CN107302718B | 公開(公告)日: | 2019-12-10 |
| 發明(設計)人: | 霍華;呂靖;常國沁;李寧波 | 申請(專利權)人: | 河南科技大學 |
| 主分類號: | H04N21/431 | 分類號: | H04N21/431;H04N21/488 |
| 代理公司: | 41120 洛陽公信知識產權事務所(普通合伙) | 代理人: | 宋晨煒 |
| 地址: | 471000 河*** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 檢測 視頻 字幕 區域 定位 方法 | ||
一種基于角點檢測的視頻字幕區域定位方法,包括:對待定位的視頻幀進行角點檢測,得到每一幀圖片的角點,將角點在水平和豎直方向上進行投影,得到投影直方圖,對得到的投影直方圖進行優化處理,利用優化處理后的投影直方圖對字幕區域進行定位,對整個區域被錯誤切分為多個部分的細碎區域進行融合,獲得最終的文字區域。本發明有益效果:本發明與現有技術相比,對視頻中字幕區域的定位精確,準確率高,具有優異的效果,尤其是對于新聞視頻字幕的定位,本發明的細碎區域融合可以將錯誤定位的細碎區域進行融合,使其成為一個整體,消除定位錯誤,使定位效果更好,更顯著。
技術領域
本發明涉及圖像處理技術領域,具體地說是一種基于角點檢測的視頻字幕區域定位方法。
背景技術
隨著多媒體數據呈爆炸性增長,文本、圖像、語音、視頻等各種形式的多媒體信息都將被傳入網上,人們正在飛速進入信息化社會。多媒體信息在網絡以及通信中的應用也越來越廣泛,尤其以視頻數據為代表,該類數據成為人們分享信息的重要資源。視頻數據以其豐富、直觀而具體的信息表達形式成為最重要的信息載體,為人們傳遞著大量的信息和知識。其中新聞視頻作為視頻數據中有代表性的一種媒體,在視頻資源中占有重要比例,相對于文本新聞,視頻新聞生動、直觀、易于理解、信息量大,廣泛地受到人們的關注。由于新聞視頻的特殊性,絕大部分高層語義都在文本字幕中,而音頻和圖像特征幾乎被文本特征所包含,因此對新聞視頻中字幕區域的定位提取就尤為重要。
由于文本的顏色、大小、字體和位置是可變的,因此很難找到一種通用的方法將其與背景分離。文本位置方法可以分為兩大類:基于區域的方法和基于紋理的方法。這些方法各有優缺點,針對不同的情況選用合適的方法才可以有很好的效果。
角點作為圖像的典型特征,在保留圖像圖形重要特征的同時,可以有效地減少信息的數據量,使其信息的含量很高,有效地提高了計算的速度。新聞視頻中,字幕上的角點數通常遠遠多于背景上的角點數,因此本發明提出一種新的方法,基于角點檢測來對新聞視頻字幕區域進行有效地定位。
發明內容
本發明所要解決的技術問題是提供一種基于角點檢測的視頻字幕區域定位方法,解決目前對視頻字幕區域定位不準等問題。
本發明為解決上述技術問題所采用的技術方案是:一種基于角點檢測的視頻字幕區域定位方法,包括以下步驟:
步驟一、對待定位的視頻幀進行角點檢測,得到每一幀圖片的角點,將角點在水平和豎直方向上進行投影,得到投影直方圖;
步驟二、對步驟二得到的投影直方圖進行優化處理,具體方法為:
(1)對投影直方圖的行進行合并:即將高度為Ry的新聞視頻圖片分為Ry行,將相鄰若干行上的角點數進行加權至其中一行并保留,同時刪去此組的其他行,若n為所要合并的行數,合并后共有m組,則假設每一行的角點數分別為則合并后的m個行上最終的角點數N(ld)可由公式(1)得到:
其中,d=1,2,…m,l為行符號,ld表示第d行;
同理,用同樣的方法對列進行合并,得到合并后每一列的角點數N(ke),其中,e表示合并后的第e列,k為列符號,ke表示第k列;
(2)采用公式(2)對合并后的投影直方圖進行相對寬度處理:
其中,N(lh)為合并后每一行的相對角點數,Rx為原新聞視頻圖片的寬度,Wr是一個抑制值,抑制N(lh)變化過快;
(3)采用公式(3)對投影圖進行相對高度處理:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河南科技大學,未經河南科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710707407.1/2.html,轉載請聲明來源鉆瓜專利網。





