[發明專利]彩色文檔圖像的分層方法和裝置有效
| 申請號: | 200810081557.7 | 申請日: | 2008-02-29 |
| 公開(公告)號: | CN101520845A | 公開(公告)日: | 2009-09-02 |
| 發明(設計)人: | 何源;孫俊;藤井勇作;藤本克仁;直井聰 | 申請(專利權)人: | 富士通株式會社 |
| 主分類號: | G06K9/20 | 分類號: | G06K9/20;G06K9/34;H04N1/56 |
| 代理公司: | 北京三友知識產權代理有限公司 | 代理人: | 黃綸偉 |
| 地址: | 日本神奈*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 彩色 文檔 圖像 分層 方法 裝置 | ||
技術領域
本發明涉及彩色文檔圖像的分層方法和裝置,更具體地,涉及具有 單一背景色的彩色文檔圖像的分層方法和裝置。
背景技術
光學字符識別(OCR)是一種通過計算機自動識別點陣形式文檔圖 像的內容的技術,目前已經被成功的應用于日常生活及辦公等領域中。
一般來說,一幅文檔圖像的識別包括版面分析和字符識別兩個步驟, 前者是指將圖像分割為各個語義結構,包括段落、行、字、圖片等,后 者是將單個字符的信息輸入至識別器中進行處理。版面分析的結果直接 將直接影響最終的識別準確率。
人眼在灰度圖像上只能識別出幾十種灰度等級,卻能從彩色圖像中 識別出成千上萬種色彩,因此彩色圖像相對灰度圖像而言,能夠提供更 多的信息。近十幾年來,隨著計算機和光學等科技的發展,彩色圖像的 打印、掃描、存儲和傳輸能力得到了極大的提高,使得我們日常使用的 文檔也逐漸的從灰度圖像轉變到彩色圖像。通常在一副彩色文檔圖像中, 不同的內容(包括預打印的表格、后打印的內容、手寫的內容,以及印 章等)用不同的顏色來表示,以便于人們閱讀。
如果我們能根據顏色特征將彩色文檔圖像分解為若干層,使得每層 對應于文檔中某一特定內容,然后分別對各層進行處理和識別,那么該 輸入文檔的識別過程將會得到有效的簡化,識別的準確率也能大大提高。
在非專利文獻1中公開了一種直接對各像素顏色中紅、綠、藍分量 進行線性計算的分類方法。該方法首先預定義若干種顏色,然后通過實 驗歸納總結出根據各顏色分量進行線性計算來分類的準則。這種方法的 優點是簡單、快速,但是適用范圍太窄,往往需要針對不同的文檔、不 同的掃描儀設置不同的分類準則。
非專利文獻2和3公開了基于在RGB顏色空間上進行聚類的分類方 法。該方法將每一個采樣點的顏色視為RGB顏色空間中的一個樣本,然 后用一些常用的聚類算法,例如k-均值算法、圖聚類算法等,對其進行 分類。這種方法原理非常直觀,但是沒有考慮彩色文檔圖像中顏色分布 的產生原因,而用一種通用的三維數據分類算法進行處理,在應用上受 到一些條件的局限:某些算法需要事先設定類別數量等先驗知識,而且 各類樣本在空間中符合某一特定的分布特征,而通常這些條件是不滿足 的。
專利文獻1和2公開了基于在亮度分量上進行分類的方法。這類方 法首先將輸入彩色文檔圖像從RGB顏色空間轉化到亮度-色度形式的顏 色空間,然后僅僅根據亮度分量進行分層的處理,類似于對灰度圖像進 行分層。通常這類算法將亮度圖像分割為文字、線、普通圖片、半調色 圖片等屬性的區域,然后再根據各區域的不同屬性進行不同的處理。由 于這些算法僅僅考慮了亮度信息,沒有利用顏色信息,造成了信息缺失, 因此導致其適用范圍受到了很大的限制。
非專利文獻4公開了基于在RGB顏色空間上進行線型聚類的分類方 法。觀察結果表明,彩色文檔圖像在RGB顏色空間中表現為一系列線段 型的聚類,其中每一條線段的兩個端點分別為該層的背景色和理想情況 下的前景色。因此,該方法首先根據顏色空間中樣本分布密度的大小來 選擇一系列背景色和前景色的候選,然后找出這些背景色和前景色所構 成的線段,并對其進行合并、排除等操作,最終將所得到的一系列線段 作為分類結果,并對輸入圖像進行分層。該方法較以上兩類方法而言, 充分考慮了彩色文檔圖像的形成機理及其在顏色空間的分布特征,提高 了分層結果的正確,并且可以處理多背景區域的彩色文檔。其缺點在于 在候選顏色的選取以及對線段進行分析的過程中,需要預定義多個參數, 參數設置將直接影響分層效果;并且,由于在選擇候選顏色時只考慮了 樣本在顏色空間中的分布密度,使得一些像素數量很小的圖層很可能會 被忽略。
非專利文獻1:Tony?Allen,Nasser?Sherkat,Seong?Wong,“Use?of?colour for?hand-filled?form?analysis?and?recognition”,Pattern?Analysis?& Applications,v.8,n.1,pp.163-180,2005.
非專利文獻2:J.Zhou?and?D.Lopresti,“Extracting?Text?from?WWW Images,”Proceedings?of?the?4th?ICDAR,Ulm,Germany,v.1,pp.248-252, 1997.
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于富士通株式會社,未經富士通株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810081557.7/2.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





