[發(fā)明專利]一種網(wǎng)絡(luò)動畫中的文字定位及識別方法有效
| 申請?zhí)枺?/td> | 201010111374.2 | 申請日: | 2010-02-10 |
| 公開(公告)號: | CN102147863A | 公開(公告)日: | 2011-08-10 |
| 發(fā)明(設(shè)計)人: | 張樹武;劉杰;梁偉 | 申請(專利權(quán))人: | 中國科學院自動化研究所 |
| 主分類號: | G06K9/20 | 分類號: | G06K9/20;G06K9/46 |
| 代理公司: | 中科專利商標代理有限責任公司 11021 | 代理人: | 梁愛榮 |
| 地址: | 100080 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 網(wǎng)絡(luò) 動畫 中的 文字 定位 識別 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明提出了一種網(wǎng)絡(luò)動畫(Flash)中的文字定位及識別方法,可以用于網(wǎng)絡(luò)動畫內(nèi)容分析、監(jiān)控、檢索等技術(shù)領(lǐng)域。
背景技術(shù)
隨著計算機技術(shù)及網(wǎng)絡(luò)的發(fā)展,網(wǎng)絡(luò)動畫已經(jīng)成為一種熱門的媒體形式。尤其在網(wǎng)絡(luò)廣告中,網(wǎng)絡(luò)動畫更是占據(jù)了主導地位。隨之而來,針對網(wǎng)絡(luò)動畫的內(nèi)容分析、檢索、監(jiān)控的需求也越來越迫切。而網(wǎng)絡(luò)動畫中的文字無疑是實現(xiàn)這些需求的重要線索。
當前,世界上已經(jīng)有很多關(guān)于文字定位的研究。這些研究基本可以被分為兩類:基于紋理的方法和基于連通域的方法。基于紋理的方法主要是利用Gabor濾波器、小波變換等方法計算出區(qū)域的紋理特征,然后利用分類器來區(qū)分文本塊與非文本塊。而基于連通域的方法首先要假設(shè)字符的前景顏色基本一致。因此,基于連通域的方法首先要執(zhí)行顏色聚類,將當前圖形分解成若干顏色層,然后針對每個顏色層去執(zhí)行連通域分析的方法,最終將符合文字特點的連通域定位出來。
目前這些方法在一定程度上解決了文字定位的問題,但是并不適合網(wǎng)絡(luò)動畫中文字的特點。在網(wǎng)絡(luò)動畫中,大量存在多語言文本混排,正體字和斜體字混排,不同字體、大小、顏色的文字混排。因此,傳統(tǒng)算法不能很好地定位網(wǎng)絡(luò)動畫中的文字。
發(fā)明內(nèi)容
(一)要解決的技術(shù)問題
有鑒于此,本發(fā)明的主要目的在于針對網(wǎng)絡(luò)動畫的特點,提出一種將網(wǎng)絡(luò)動畫結(jié)構(gòu)分析技術(shù)與光學字符識別技術(shù)相結(jié)合的文字定位及識別方法。
(二)技術(shù)方案
為達成所述目的,本發(fā)明提供一種網(wǎng)絡(luò)動畫中的文字定位及識別方法,該方法將網(wǎng)絡(luò)動畫結(jié)構(gòu)分析技術(shù)與光學字符識別技術(shù)結(jié)合,將網(wǎng)絡(luò)動畫結(jié)構(gòu)分析技術(shù)與光學字符識別技術(shù)結(jié)合,直接提取網(wǎng)絡(luò)動畫文件中的編碼內(nèi)嵌文字,并利用一種基于連通域的啟發(fā)合并、特征聚類的兩階段文字定位算法定位非內(nèi)嵌文字,利用一種基于筆畫寬度直方圖的噪聲過濾算法去除非文字連通域,最后利用基于梯度直方圖特征識別非內(nèi)嵌文字,該方法的步驟為:
步驟S1:利用網(wǎng)絡(luò)動畫結(jié)構(gòu)分析技術(shù),分析給定網(wǎng)絡(luò)動畫文件的內(nèi)容,如果存在定義文字(DefineText)標簽,定義文字2(DefineText2)標簽之一,則將其中文字記錄(TextRecords)域中字符標識(FontID)所定義的編碼內(nèi)嵌文字直接提取出來;
步驟S2:利用網(wǎng)絡(luò)動畫結(jié)構(gòu)分析技術(shù),將網(wǎng)絡(luò)動畫分解為若干基本形狀,再將基本形狀轉(zhuǎn)化為無失真壓縮圖像;基本形狀是構(gòu)成網(wǎng)絡(luò)動畫的元素,它包含網(wǎng)絡(luò)動畫中的全部非內(nèi)嵌文字且背景更加簡單,從而提高光學字符識別技術(shù)的準確性;
步驟S3:針對每個基本形狀轉(zhuǎn)化后的圖像,利用基于連通域的啟發(fā)合并、特征聚類的兩階段文字定位算法,將基本形狀中的非內(nèi)嵌文字圖像準確定位,獲得非內(nèi)嵌文字定位圖像和錯誤定位的非文字連通圖像;
步驟S4:利用基于筆畫寬度直方圖的噪聲過濾算法,將上述錯誤定位出的非文字連通域圖像過濾掉;
步驟S5:利用基于梯度直方圖特征識別非內(nèi)嵌文字,最后將識別出的非內(nèi)嵌文字與編碼內(nèi)嵌文字返回給用戶。
其中,所述分解若干基本形狀的具體步驟包括:
步驟S21:首先讀取網(wǎng)絡(luò)動畫文件的頭信息:簽名、版本、文件大小、幀的大小、幀率、幀數(shù)、背景色;
步驟S22:根據(jù)網(wǎng)絡(luò)動畫文件的頭信息,如果是壓縮格式,則對網(wǎng)絡(luò)動畫文件進行解壓,并轉(zhuǎn)入步驟23,如果不是壓縮格式,則直接轉(zhuǎn)入步驟23;
步驟S23:讀取下一個標簽頭部信息,判斷是否為End標簽,如果是,結(jié)束系統(tǒng),如果不是,轉(zhuǎn)入步驟S24;
步驟S24:判斷標簽是否為DefineShape標簽、DefineShape2標簽、DefineShape3標簽、DefineShape4標簽之一,如果是,則轉(zhuǎn)入步驟S25,如果不是,則返回到步驟S23;
步驟S25:創(chuàng)建一個網(wǎng)絡(luò)動畫文件,按照上述標簽頭部信息指定的長度,將原網(wǎng)絡(luò)動畫文件中的對應內(nèi)容寫入新的網(wǎng)絡(luò)動畫文件中,從而分解出基本形狀。
其中,將所述網(wǎng)絡(luò)動畫中基本形狀轉(zhuǎn)化為無失真壓縮圖像的具體步驟是:將每個基本形狀轉(zhuǎn)化為背景色相反的兩幅圖像,然后選擇兩幅圖像中前景區(qū)域大、反差強烈的圖像進行文字定位及識別。
其中,所述文字定位步驟是:
步驟S41:在文字區(qū)域顏色一致的假設(shè)前提下,通過顏色聚類將圖像分割成若干的顏色層,并在每個圖像顏色層上定位非內(nèi)嵌文字,同時用顏色聚類可去除文字顏色漸變的不利影響;
步驟S42:利用文字特點設(shè)計啟發(fā)規(guī)則,該啟發(fā)規(guī)則在保證無錯的前提下,先正確地將若干符合啟發(fā)規(guī)則的連通域合并成非內(nèi)嵌文字;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學院自動化研究所,未經(jīng)中國科學院自動化研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010111374.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應系統(tǒng)和方法及應用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲介質(zhì)及移動終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復網(wǎng)絡(luò)地址自動恢復的方法、網(wǎng)絡(luò)設(shè)備及其存儲介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓練方法、裝置及存儲介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置





