[發(fā)明專利]書籍的書脊區(qū)域中數(shù)字圖像的檢測和校正方法有效
| 申請?zhí)枺?/td> | 201210046635.6 | 申請日: | 2012-02-27 |
| 公開(公告)號: | CN102790841A | 公開(公告)日: | 2012-11-21 |
| 發(fā)明(設(shè)計)人: | 李佳;米克海爾·布魯斯尼欽;蘇杰·蘇庫馬蘭 | 申請(專利權(quán))人: | 精工愛普生株式會社 |
| 主分類號: | H04N1/409 | 分類號: | H04N1/409;G06T5/00 |
| 代理公司: | 中科專利商標代理有限責任公司 11021 | 代理人: | 李敬文 |
| 地址: | 日本*** | 國省代碼: | 日本;JP |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 書籍 書脊 區(qū)域 數(shù)字圖像 檢測 校正 方法 | ||
相關(guān)申請的交叉引用
在2011年3月30日提交的題為“Method?of?analyzing?digital?document?images”的共有美國專利申請No.13/075,978(代理案號EETP126)的全部公開一并在此作為參考。
技術(shù)領(lǐng)域
本發(fā)明涉及對文檔的掃描,具體涉及對書籍的掃描。
背景技術(shù)
書籍頁面的掃描圖像通常具有由掃描產(chǎn)生的三種類型的失真。根據(jù)書籍放在掃描表面上時書籍相對于掃描方向的取向以及書脊區(qū)域在該表面上方的高度,這三種類型的失真以不同等級出現(xiàn)。如圖1所示,當書脊在掃描表面上方時,掃描的圖像常常具有陰影,陰影出現(xiàn)在圖像中靠近書脊的地方(“陰影失真(shadow?distortion)”)。當頁面圖像擠向書脊,從而離書脊較近的文本變窄并且難以辨識時,出現(xiàn)“擠壓失真(squeeze?distortion)”。另一種類型的失真“曲率失真”由于同樣的原因而出現(xiàn),但是僅出現(xiàn)在以書脊與掃描儀傳感器條平行的方式對書籍進行掃描時,稱作“平行掃描情況”。在這種情況下,靠近書脊的文本還向頁面的中心彎曲。在受影響區(qū)域中,上述失真不僅影響圖像的視覺可讀性,還在光學字符識別(OCR,optical?character?recognition)的處理中引起故障。本發(fā)明提供了一種檢測失真的存在并對失真進行校正的方法。
發(fā)明內(nèi)容
本發(fā)明提供了一種對數(shù)字化的或掃描的文檔圖像進行分析的方法和設(shè)備。本發(fā)明使用基于塊的處理來創(chuàng)建特征圖像,所述特征圖像指示文檔圖像的空間特性。基于這種特征圖像設(shè)計了三種檢測算法,以檢測頁面本體、書脊、以及由掃描產(chǎn)生的失真。
更具體地,通過使用特征圖像來映射對應(yīng)于頁面區(qū)域的像素,創(chuàng)建頁面對象和檢測頁面邊界,來分割所掃描的書籍的圖像。利用頁面邊界,在左右頁面邊界附近的列中檢查特征圖像,以檢測像素值的頂部至底部下降(top-to-bottom?decline)和底部至頂部下降(bottom-to-top?decline),從而確定原始掃描圖像中陰影失真的左上角、右上角、左下角以及右下角。通過以下操作來檢測書脊區(qū)域:定位兩個頁面對象之間的純(plain)背景,分析頁面邊界以檢測邊界的形狀,以及分析邊界的形狀以檢測書脊端點(end?point)。如果頁面邊界缺少定位書脊必需的信息,則可以采用主行(dominant?line)(如果存在的話)作為書脊。
對失真的檢測包括:對垂直于書脊的像素值的強度變化進行逼近(approximate),并將強度值擬合成貝塞爾曲線(Bezier?curve)以創(chuàng)建強度曲線。此外,將強度曲線變換成擠壓曲線。對失真的檢測還包括:通過檢查頁面圖像中的文本來檢測曲率,并將一串文本段上的點擬合成貝塞爾曲線以創(chuàng)建曲率曲線。通過首先定義梯形校正區(qū)域來校正檢測到的失真。沿著梯形校正區(qū)域內(nèi)的線應(yīng)用分別以貝塞爾曲線定義的強度校正、擠壓校正和曲率校正。
本發(fā)明可應(yīng)用于掃描儀和用于數(shù)字文檔圖像處理和操控的成像軟件,這是因為本發(fā)明的組成部分可以用來構(gòu)建各種增強和分割方案。
因為掃描儀典型地對掃描區(qū)域的整個表面進行掃描,并且所掃描的文檔在掃描儀表面上的尺寸和位置都可能顯著改變,所以通常需要自動去除實際文檔周圍的暗頁邊空白,或者甚至提取文檔上的純文本本體,以減小圖像尺寸和降低進一步處理的計算復(fù)雜度。
結(jié)合附圖,通過以下描述和權(quán)利要求,本發(fā)明的其他目的和效果將變得清楚,并且可以更全面地理解本發(fā)明。
附圖說明
附圖中,相同的附圖標記表示相同的部分。
圖1示出了以書脊平行于掃描儀傳感器條的形式掃描的厚書籍;
圖2是使用本發(fā)明的圖像捕獲設(shè)備和系統(tǒng)的總體框圖;
圖3是本發(fā)明的總體方法的流程圖;
圖4示出了針對上下左右邊界的搜索區(qū)域的初始頁面邊界框;
圖5示出了用于對兩個頁面之間的純背景的上下邊界進行檢測的文本搜索窗;
圖6示出了通過分析頁面邊界的形狀的書脊檢測;
圖7A示出了二進制頁面邊界圖像的示例,其中檢測到了單個邊界,圖7B示出了二進制邊界圖像的示例,其中檢測到了兩個分離的邊界;
圖8示出了具有不同控制點P1的貝塞爾曲線的示例;
圖9示出了計算書脊端點的五種情況;
圖10示出了所掃描的書籍中的陰影失真;
圖11是本發(fā)明的強度翹曲參數(shù)(intensity?warping?parameter)檢測過程的總體流程圖;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于精工愛普生株式會社,未經(jīng)精工愛普生株式會社許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210046635.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:礦井導(dǎo)航救生系統(tǒng)
- 下一篇:攝影鏡片系統(tǒng)
- 數(shù)字圖像再生系統(tǒng)及其數(shù)字圖像再生管理方法
- 使用逆空間濾波的數(shù)字圖像重建
- 數(shù)字圖像半透明合成方法及移動終端設(shè)備
- 一種電氣設(shè)備X射線數(shù)字圖片處理算法支持系統(tǒng)
- 一種電力設(shè)備檢測用X射線數(shù)字圖像特征數(shù)據(jù)庫
- 一種狹小空間內(nèi)設(shè)備外觀細微變化檢測裝置
- 使用關(guān)于數(shù)字圖像文件的安全特征
- 一種衛(wèi)星圖像處理方法
- 一種衛(wèi)星圖像處理方法
- 基于殘差學習卷積融合網(wǎng)絡(luò)的數(shù)字圖像設(shè)備取證系統(tǒng)





