[發明專利]一種基于標準文獻題錄特征值的智能提取方法有效
| 申請號: | 201710578530.8 | 申請日: | 2017-07-17 |
| 公開(公告)號: | CN109271616B | 公開(公告)日: | 2022-09-16 |
| 發明(設計)人: | 嚴菁;陳銀龍;金志剛;卞超杰;魏雪艷;王瑋健;李正祥;程錦彬;許祥紅 | 申請(專利權)人: | 江蘇省質量和標準化研究院 |
| 主分類號: | G06F40/186 | 分類號: | G06F40/186;G06V30/148 |
| 代理公司: | 常州佰業騰飛專利代理事務所(普通合伙) 32231 | 代理人: | 康瀟 |
| 地址: | 210000 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 標準 文獻 特征值 智能 提取 方法 | ||
本發明公開了一種基于標準文獻題錄特征值的智能提取方法,涉及一種文檔圖像內容的提取方法,通過對OCR技術進行封裝,把標準文獻圖像轉換成雙層浮文PDF,根據對不同模板標準文本格式版面的分析,對標準文獻題錄字段位置區域進行定位和自動采集,改變原有人工錄入的方式,減少員工工作量和提高數據準確性,提高題錄字段采集、處理、提取效率和定位準確率。
技術領域
本發明涉及一種文檔圖像內容的提取方法,尤其涉及一種基于標準文獻題錄特征值的智能提取方法。
背景技術
文本是計算機視覺的許多應用中的一項重要特征。圖像中的文本存有很多有用的信息,對視覺內容理解和獲取至關重要。標準文獻文本圖像是由紙質標準文本通過掃描儀圖像數據采集設備生成的,以靜止圖像編碼方法存儲的數字圖像,載荷有豐富的文字信息、圖像信息、格式信息等重要內容。隨著全球化貿易往來,企業對國際標準的需求日益旺盛,多種國外語言文字的文本圖像需要進行識別和處理。文本圖像的文種識別是對以圖像形式呈現、由不同語言文字構成的圖像,提取能夠用于計算機識別的底層特征,實現文種的自動分類,對于有效提取文本圖像中的信息具有十分重要的意義。隨著網絡通信技術和信息處理技術的迅速發展,文本圖像的分析處理、提取和定位等技術也在不斷改進,為文本圖像內容的深度挖掘應用提供支撐。標準文獻題錄提取的主要目的是為用戶提供標準查詢的簡要內容介紹,從而方便用戶的購買和查詢。其中關鍵點和難點就是準確快速的文本定位,文本定位的好壞將直接影響系統的識別結果。
中國信息技術與應用學術論壇,2008《基于版面特征的文檔圖像的文本定位方法》提供一種圖像的文本定位技術,并針對基于版面特征的文檔圖像提出了一種文本定位方法。該方法首先利用拉普拉斯算子粗略檢測出文字邊緣區域,利用形態學膨脹方法擴展區域,接著通過聚類分析來提取文本層,最后根據中文字符的自身矩形區域比例、寬高比等特征有效定位出圖像中的文本區域
中國信息技術與應用學術論壇,2008《基于版面特征的文檔圖像的文本定位方法》其首先定位首行和末行文本區域位置,再借助中文字符一般的寬高比來進行文本區域定位,使用一個寬高比的階梯函數擴展筆畫矩形區域,主要是縱向的擴展,從而定位出文檔圖像中的文本區域。
其針對的是文檔圖像中文字字符通用的寬高比0.7,但是在不同語種、混合復雜版面文檔圖像處理中,字符實際占用空間與周圍環境有關,文本區域定位往往達不到滿意的效果,不確定因素較多,無法滿足標準文獻題錄特征值智能化提取的實際需求。
發明內容
本發明的目的是提供一種基于標準文獻題錄特征值的智能提取方法,解決了現有技術中題錄字段的采集、處理和提取的效率低,定位準確率低的問題。
為實現上述目的,本發明采用以下技術方案:
一種基于標準文獻題錄特征值的智能提取方法,包括如下步驟:
步驟1:建立圖像獲取模塊、圖像處理模塊、模版配置模塊、文獻提取模塊和審核模塊;圖像獲取模塊用于獲取標準文獻紙質文本的圖像,并生成文獻圖像;圖像處理模塊用于對文獻圖像進行清晰化處理,生成標準文獻雙層浮文PDF文件;模版配置模塊用于對標準文獻雙層浮文PDF文件中的題錄字段進行提取,生成標準文獻題錄字段;文獻提取模塊用于對標準文獻題錄字段的內容進行提取;審核模塊用于讓標準題錄加工人員對標準文獻題錄字段的內容進行核對和修改;
步驟2:圖像獲取模塊獲取標準文獻紙質文本的Tif版本的標準文獻圖像,圖像處理模塊對標準文獻圖像進行清晰化處理,并通過Tif軟件編輯器將Tif版本的標準文獻圖像處理生成單層PDF,再經過封裝后的OCR識別,最后生成txt版本和雙層浮文PDF版本的標準文獻,即標準文獻雙層浮文PDF文件;
步驟3:模版配置模塊根據標準文獻的編寫格式規范,確定標準文獻題錄字段,模版配置模塊采用位置區域截取或范圍截取的方式對標準文獻題錄字段進行提取;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇省質量和標準化研究院,未經江蘇省質量和標準化研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710578530.8/2.html,轉載請聲明來源鉆瓜專利網。





