[發(fā)明專利]一種網(wǎng)絡(luò)動畫中的文字定位及識別方法有效

申請?zhí)枺?/td>	201010111374.2	申請日：	2010-02-10
公開（公告）號：	CN102147863A	公開（公告）日：	2011-08-10
發(fā)明（設(shè)計）人：	張樹武;劉杰;梁偉	申請（專利權(quán)）人：	中國科學院自動化研究所
主分類號：	G06K9/20	分類號：	G06K9/20;G06K9/46
代理公司：	中科專利商標代理有限責任公司 11021	代理人：	梁愛榮
地址：	100080 ***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種網(wǎng)絡(luò) 動畫中的文字定位識別方法
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

技術(shù)領(lǐng)域

本發(fā)明提出了一種網(wǎng)絡(luò)動畫(Flash)中的文字定位及識別方法，可以用于網(wǎng)絡(luò)動畫內(nèi)容分析、監(jiān)控、檢索等技術(shù)領(lǐng)域。

背景技術(shù)

隨著計算機技術(shù)及網(wǎng)絡(luò)的發(fā)展，網(wǎng)絡(luò)動畫已經(jīng)成為一種熱門的媒體形式。尤其在網(wǎng)絡(luò)廣告中，網(wǎng)絡(luò)動畫更是占據(jù)了主導地位。隨之而來，針對網(wǎng)絡(luò)動畫的內(nèi)容分析、檢索、監(jiān)控的需求也越來越迫切。而網(wǎng)絡(luò)動畫中的文字無疑是實現(xiàn)這些需求的重要線索。

當前，世界上已經(jīng)有很多關(guān)于文字定位的研究。這些研究基本可以被分為兩類：基于紋理的方法和基于連通域的方法。基于紋理的方法主要是利用Gabor濾波器、小波變換等方法計算出區(qū)域的紋理特征，然后利用分類器來區(qū)分文本塊與非文本塊。而基于連通域的方法首先要假設(shè)字符的前景顏色基本一致。因此，基于連通域的方法首先要執(zhí)行顏色聚類，將當前圖形分解成若干顏色層，然后針對每個顏色層去執(zhí)行連通域分析的方法，最終將符合文字特點的連通域定位出來。

目前這些方法在一定程度上解決了文字定位的問題，但是并不適合網(wǎng)絡(luò)動畫中文字的特點。在網(wǎng)絡(luò)動畫中，大量存在多語言文本混排，正體字和斜體字混排，不同字體、大小、顏色的文字混排。因此，傳統(tǒng)算法不能很好地定位網(wǎng)絡(luò)動畫中的文字。

發(fā)明內(nèi)容

(一)要解決的技術(shù)問題

有鑒于此，本發(fā)明的主要目的在于針對網(wǎng)絡(luò)動畫的特點，提出一種將網(wǎng)絡(luò)動畫結(jié)構(gòu)分析技術(shù)與光學字符識別技術(shù)相結(jié)合的文字定位及識別方法。

(二)技術(shù)方案

為達成所述目的，本發(fā)明提供一種網(wǎng)絡(luò)動畫中的文字定位及識別方法，該方法將網(wǎng)絡(luò)動畫結(jié)構(gòu)分析技術(shù)與光學字符識別技術(shù)結(jié)合，將網(wǎng)絡(luò)動畫結(jié)構(gòu)分析技術(shù)與光學字符識別技術(shù)結(jié)合，直接提取網(wǎng)絡(luò)動畫文件中的編碼內(nèi)嵌文字，并利用一種基于連通域的啟發(fā)合并、特征聚類的兩階段文字定位算法定位非內(nèi)嵌文字，利用一種基于筆畫寬度直方圖的噪聲過濾算法去除非文字連通域，最后利用基于梯度直方圖特征識別非內(nèi)嵌文字，該方法的步驟為：

步驟S1：利用網(wǎng)絡(luò)動畫結(jié)構(gòu)分析技術(shù)，分析給定網(wǎng)絡(luò)動畫文件的內(nèi)容，如果存在定義文字(DefineText)標簽，定義文字2(DefineText2)標簽之一，則將其中文字記錄(TextRecords)域中字符標識(FontID)所定義的編碼內(nèi)嵌文字直接提取出來；

步驟S2：利用網(wǎng)絡(luò)動畫結(jié)構(gòu)分析技術(shù)，將網(wǎng)絡(luò)動畫分解為若干基本形狀，再將基本形狀轉(zhuǎn)化為無失真壓縮圖像；基本形狀是構(gòu)成網(wǎng)絡(luò)動畫的元素，它包含網(wǎng)絡(luò)動畫中的全部非內(nèi)嵌文字且背景更加簡單，從而提高光學字符識別技術(shù)的準確性；

步驟S3：針對每個基本形狀轉(zhuǎn)化后的圖像，利用基于連通域的啟發(fā)合并、特征聚類的兩階段文字定位算法，將基本形狀中的非內(nèi)嵌文字圖像準確定位，獲得非內(nèi)嵌文字定位圖像和錯誤定位的非文字連通圖像；

步驟S4：利用基于筆畫寬度直方圖的噪聲過濾算法，將上述錯誤定位出的非文字連通域圖像過濾掉；

步驟S5：利用基于梯度直方圖特征識別非內(nèi)嵌文字，最后將識別出的非內(nèi)嵌文字與編碼內(nèi)嵌文字返回給用戶。

其中，所述分解若干基本形狀的具體步驟包括：

步驟S21：首先讀取網(wǎng)絡(luò)動畫文件的頭信息：簽名、版本、文件大小、幀的大小、幀率、幀數(shù)、背景色；

步驟S22：根據(jù)網(wǎng)絡(luò)動畫文件的頭信息，如果是壓縮格式，則對網(wǎng)絡(luò)動畫文件進行解壓，并轉(zhuǎn)入步驟23，如果不是壓縮格式，則直接轉(zhuǎn)入步驟23；

步驟S23：讀取下一個標簽頭部信息，判斷是否為End標簽，如果是，結(jié)束系統(tǒng)，如果不是，轉(zhuǎn)入步驟S24；

步驟S24：判斷標簽是否為DefineShape標簽、DefineShape2標簽、DefineShape3標簽、DefineShape4標簽之一，如果是，則轉(zhuǎn)入步驟S25，如果不是，則返回到步驟S23；

步驟S25：創(chuàng)建一個網(wǎng)絡(luò)動畫文件，按照上述標簽頭部信息指定的長度，將原網(wǎng)絡(luò)動畫文件中的對應內(nèi)容寫入新的網(wǎng)絡(luò)動畫文件中，從而分解出基本形狀。

其中，將所述網(wǎng)絡(luò)動畫中基本形狀轉(zhuǎn)化為無失真壓縮圖像的具體步驟是：將每個基本形狀轉(zhuǎn)化為背景色相反的兩幅圖像，然后選擇兩幅圖像中前景區(qū)域大、反差強烈的圖像進行文字定位及識別。

其中，所述文字定位步驟是：

步驟S41：在文字區(qū)域顏色一致的假設(shè)前提下，通過顏色聚類將圖像分割成若干的顏色層，并在每個圖像顏色層上定位非內(nèi)嵌文字，同時用顏色聚類可去除文字顏色漸變的不利影響；

步驟S42：利用文字特點設(shè)計啟發(fā)規(guī)則，該啟發(fā)規(guī)則在保證無錯的前提下，先正確地將若干符合啟發(fā)規(guī)則的連通域合并成非內(nèi)嵌文字；

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學院自動化研究所，未經(jīng)中國科學院自動化研究所許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201010111374.2/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06K 數(shù)據(jù)識別；數(shù)據(jù)表示；記錄載體；記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形，例如，指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正，例如，用重復掃描圖形的方法
G06K9-18 .應用具有附加代碼標記或含有代碼標記的打印字符的，例如，由不同形狀的各個筆畫組成的，而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預處理，即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預處理作用的組合

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】