[發明專利]一種基于標準文獻的智能模板化題錄技術實現方法有效
| 申請號: | 201711048558.7 | 申請日: | 2017-10-31 |
| 公開(公告)號: | CN109726369B | 公開(公告)日: | 2022-10-28 |
| 發明(設計)人: | 孫良君;王文鋒;林雪;袁慶祝;王晶;王廣;王練練 | 申請(專利權)人: | 中博信息技術研究院有限公司 |
| 主分類號: | G06F40/186 | 分類號: | G06F40/186;G06F40/258;G06V30/41 |
| 代理公司: | 常州佰業騰飛專利代理事務所(普通合伙) 32231 | 代理人: | 張文杰 |
| 地址: | 210000 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 標準 文獻 智能 模板 化題錄 技術 實現 方法 | ||
本發明公開了一種基于標準文獻的智能模板化題錄技術實現方法,屬于文檔圖像內容提取技術領域,通過對雙層浮文PDF文字讀取技術進行封裝,把標準文獻圖像轉換成純文本TXT,對標準題錄加工流程進行了自動化和電子化處理,實現對標準題錄的自動采集,增強數據加工的工作效能,減少員工工作量和提高數據準確性,完成題錄特征值提取關鍵技術的實現。本發明的基于標準文獻的智能模板化題錄技術實現方法解決了現有技術中存在的標準題錄需手工錄入、數據加工工作效能低、數據信息提取不準確、定位準確率低的問題。
技術領域
本發明涉及一種智能模板化題錄技術實現方法,特別是涉及一種基于標準文獻的智能模板化題錄技術實現方法,屬于文檔圖像內容提取技術領域。
背景技術
基于標準文獻智能模板化題錄技術實現及其方法和普通的文檔圖像內容提取方法有類似的地方,現有文檔圖像內容提取方法多是通過圖像掃描,通過橫向和縱向的投影,根據RGB色差計算出文字的高度和間距,根據文字盒圖像的差異性將文字和圖像識別出來。
在《基于文檔圖像內容分析與特征提取的文檔圖像壓縮方法》中提供了一種圖像的文本定位和內容提取方法,該方法將文檔圖像視為一個矩陣,矩陣的大小由文檔圖像的高和寬確定,矩陣中的元素對應著文檔圖像中的象素,每個元素的值對應著象素的灰度值或RGB值,將文檔圖像向其邊界投影,使得矩陣某一行/列的象素灰度值累加,得到關于行/列的灰度投影曲線,標準文獻文本圖像涉及到多個國家,多種語言,所需要提取的內容也是各式各樣,不確定因素較多,無法滿足標準文獻智能模板化題錄技術實現的實際需求。
發明內容
本發明的主要目的是為了提供一種基于標準文獻的智能模板化題錄技術實現方法,解決現有技術中存在的標準題錄需手工錄入、數據加工工作效能低、數據信息提取不準確、定位準確率低的問題。
本發明的目的可以通過采用如下技術方案達到:
一種基于標準文獻的智能模板化題錄技術實現方法,包括如下步驟:
步驟1:建立圖像處理模塊、模版配置模塊、標準信息采集模塊;
步驟2:圖像處理模塊對標準文獻圖像進行清晰化處理,并通過Tif拆分算法對Tif文件進行拆分,再經過組裝技術生成單層PDF,生成雙層浮文PDF版本的標準文獻,再通過雙層PDF識別技術生成帶有分頁標識的純文本TXT文件;
步驟3:模版配置模塊根據標準文獻的紙型、排版樣式和標準類型對標準文獻進行區分,在每種類型中選出代表性的標準文獻作為模板,根據模板的版面和編寫格式來確定需要配置的字段信息,根據每個字段的特殊性,決定使用坐標配置和范圍配置這兩種方式中的一種;
步驟4:標準信息采集模塊根據標準文獻的紙型、編寫規范和標準類型來選擇對應的模板,對標準文獻所需信息進行提取和自動定位。
進一步的,所述圖像處理模塊、所述模版配置模塊和所述圖像處理模塊均采用服務器完成,所述圖像處理模塊、所述模版配置模塊和所述圖像處理模塊均采用互聯網通信;
圖像處理模塊用于對文獻圖像進行清晰化處理,生成標準文獻單雙層浮文PDF文件、每頁文本圖像和帶有分頁標識的純文本;
模版配置模塊根據對標準文本不同版面的分析,對標準文獻所需采集的信息的分析,通過配置生成不同模板;
標準信息采集模塊根據對標準文獻圖像的版面分析,選擇合適的模塊對標準信息自動采集。
進一步的,所述步驟2中,圖像處理模塊對標準文獻圖像進行清晰化處理,并通過Tif拆分算法對Tif文件進行拆分,生成每一頁標準文獻的圖像,并對每一頁圖像進行去污處理,再經過組裝技術生成單層PDF,再經過封裝后的OCR識別,生成雙層浮文PDF版本的標準文獻,即標準文獻雙層浮文PDF文件,再通過雙層PDF識別技術生成帶有分頁標識的純文本TXT文件。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中博信息技術研究院有限公司,未經中博信息技術研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711048558.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:地圖標注方法及裝置
- 下一篇:一種可配置的校驗規則封裝方法及裝置





