[發明專利]一種高招大本數據采集系統及方法在審
| 申請號: | 201611194572.3 | 申請日: | 2016-12-22 |
| 公開(公告)號: | CN106650664A | 公開(公告)日: | 2017-05-10 |
| 發明(設計)人: | 楊洋;潘嶸;林曉藝;趙泛舟;李訓耕 | 申請(專利權)人: | 深圳愛拼信息科技有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/34;G06K9/40 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 518057 廣東省深圳市南山區南山街道科*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 高招 大本 數據 采集 系統 方法 | ||
1.一種高招大本數據采集方法,其特征在于,包括如下步驟:
步驟1,通過掃描儀,將紙質書籍掃描成電子文檔;
步驟2,對電子文檔進行圖像預處理;
步驟3,采用字符處理方法對所述圖像預處理后的結果進行字符識別,以識別所述結果中的各類字符;
步驟4,對所述字符識別后的結果進行修正,生成非規則化的數據文檔,然后對所述非規則化的數據文檔進行數據提取處理操作。
2.根據權利要求1所述的一種高招大本數據采集方法,其特征在于,所述步驟2中對
電子文檔進行圖像預處理具體包括:
步驟1.1,圖像二值化處理,采用閾值分割技術,設定灰度閾值,若圖像像素點灰度值大于或等于所述閾值,則被判定為屬于某一特定區域,用 255 表示其灰度值,否則,像素點將被排除在特定區域之外而被判定為背景或其他無用區域,用0表示其灰度值;
步驟1.2,圖像增強處理,通過基于空間域的增強和基于頻率域的增強處理方法,以減少所獲取圖像的小的空間改變;
步驟1.3,噪聲處理,使用濾波器對所述圖像增強處理后的結果進行濾波,去除噪聲。
3.根據權利要求1所述的一種高招大本數據采集方法,其特征在于,所述步驟3中的字符識別具體包括:
步驟3.1,漢字字符識別:采用水平方向上、豎直方向上、45度角方向、反45度角方向4個特定方向上的矢量準確地描述出一個漢字的基本字形特征;
步驟3.2,英文字符識別:采用基于字符結構的方法對字符進行識別,根據字符在水平方向、豎直方向及筆畫的特點,對字符進行逐級的分類,形成一棵判定樹,每個字符就是一個葉子,依據字符自身的結構特征進行逼近識別;
步驟3.3,阿拉伯數字識別:先計算歐拉數,再提取凹陷區的特征,最后根據特征組合識別字符。
4.根據權利要求1所述的一種高招大本數據采集方法,其特征在于,所述步驟4中的
對識別后的結果進行修正具體包括:
利用上下文信息、語法及邏輯,對所述字符識別的結果進行修正,生成非規則化的數據文檔。
5.根據權利要求1所述的一種高招大本數據采集方法,其特征在于,所述步驟4中對所述非規則化的數據文檔進行數據提取處理操作具體包括:
步驟4.1,把非規則化的數據文檔按照文件名的規則順序處理,把表格的行轉換為普通文本格式的行;
步驟4.2,查看轉換出來的文本格式,確定分割條件,分割的條件包括:文理科段落的區分、各個院校段落的區分、院校下各個專業段落的區分條件;
步驟4.3,分別提取所述步驟4.2中的各個所述的段落,合并斷行和上下文回溯;
步驟4.4,通過所述步驟4.3得到一個相對規格化的段落的數據文本后,再針對步驟4.2中的各類具體情況提取需要的信息;
步驟4.5,對步驟4.4得到的信息結果做合并,把某些可能混合在其它段落中的信息作缺省的上下文推斷填充,至此完成數據提取處理操作。
6.一種高招大本數據采集系統,其特征在于,該系統包括書籍掃描模塊、圖像預處理
模塊、字符識別模塊、修正模塊,
書籍掃描模塊,用于通過掃描儀,將紙質書籍掃描成電子文檔;
圖像預處理模塊,用于對電子文檔進行圖像預處理;
字符識別模塊,采用字符處理方法對所述圖像預處理后的結果進行字符識別,以識別所述結果中的各類字符;
修正模塊,用于所述對字符識別后的結果進行修正,生成非規則化的數據文檔,然后所述對非規則化的數據文檔進行數據提取處理操作。
7.根據權利要求6所述的一種高招大本數據采集系統,其特征在于,所述圖像預處理模塊具體包括:二值化模塊、圖像增強模塊、噪聲處理模塊,
二值化模塊,采用閾值分割技術,設定灰度閾值,若圖像像素點灰度值大于或等于所述閾值,則被判定為屬于某一特定區域,用 255 表示其灰度值,否則,像素點將被排除在特定區域之外而被判定為背景或其他無用區域,用0表示其灰度值;
圖像增強模塊,通過基于空間域的增強和基于頻率域的增強處理方法,以減少所獲取圖像的小的空間改變;
噪聲處理模塊,使用濾波器對圖像進行濾波,去除噪聲。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳愛拼信息科技有限公司,未經深圳愛拼信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611194572.3/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





