[發明專利]一種高招大本數據采集系統及方法在審
| 申請號: | 201611194572.3 | 申請日: | 2016-12-22 |
| 公開(公告)號: | CN106650664A | 公開(公告)日: | 2017-05-10 |
| 發明(設計)人: | 楊洋;潘嶸;林曉藝;趙泛舟;李訓耕 | 申請(專利權)人: | 深圳愛拼信息科技有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/34;G06K9/40 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 518057 廣東省深圳市南山區南山街道科*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 高招 大本 數據 采集 系統 方法 | ||
技術領域
本發明涉及一種數據采集方法,更具體的,涉及一種高招大本數據采集系統及方法。
背景技術
在普通高校的招生過程中,考生填報志愿不僅關系著能否被高校錄取,更為重要的是:填志愿時選擇專業、學校內在地規定了學生未來的學業及職業發展路線及發展狀態。通常所說的考生志愿,指考生所選報的院校和專業,是考生的志向、愿望、愛好、個性和能力等因素的綜合反映。而其中往年錄取數據是考生在填報學校時的最重要的依據,這關系著考生是否能夠考生該所學校。
通常情況下,各省都會派發對應的《高考填報指南》,其中就包含著該省往年的所有學校的錄取數據。但這類書籍頁數多,數據量大,考生在翻閱該書籍時難以快速準確捕獲自己所需要的信息,因此將該類書籍數據電子化有其必要性。
目前主流的將書籍數據電子化的方式是人工錄入,但這種方式耗費時間較長,且因有非常重的人工干預的成分,難以保證數據的準確性和完整性。從2016年開始,高招大本的書籍出版都很晚,將數據電子化需要在非常短的時間內完成,否則失去意義。所以全、準、快是錄入高招大本數據的基本原則,顯然人工錄入的方式并不能達成這三項標準。
發明內容
本發明旨在至少解決現有技術中存在的技術問題之一。
為此,本發明的目的在于,提供一種快捷、流程化的數據采集方法處理高招大本數據,避免數據的缺失,保證其準確性,幫助考生便捷地查看往年錄取數據。
為實現上述目的,本發明提供了一種一種高招大本數據采集方法,包括如下步驟:
步驟1,通過掃描儀,將紙質書籍掃描成電子文檔;
步驟2,對電子文檔進行圖像預處理;
步驟3,采用字符處理方法對所述圖像預處理后的結果進行字符識別,以識別所述結果中的各類字符;
步驟4,對所述字符識別后的結果進行修正,生成非規則化的數據文檔,然后對所述非規則化的數據文檔進行數據提取處理操作。
本發明還提供了一種高招大本數據采集系統,該系更具體的,所述步驟2中對電子文檔進行圖像預處理包括:
步驟1.1,圖像二值化處理,采用閾值分割技術,設定灰度閾值,若圖像像素點灰度值大于或等于所述閾值,則被判定為屬于某一特定區域,用 255 表示其灰度值,否則,像素點將被排除在特定區域之外而被判定為背景或其他無用區域,用0表示其灰度值;
步驟1.2,圖像增強處理,通過基于空間域的增強和基于頻率域的增強處理方法,以減少所獲取圖像的小的空間改變;
步驟1.3,噪聲處理,使用濾波器對所述圖像增強處理后的結果進行濾波,去除噪聲。
更具體的,所述步驟3中的字符識別包括:
步驟3.1,漢字字符識別:采用水平方向上、豎直方向上、45度角方向、反45度角方向4個特定方向上的矢量準確地描述出一個漢字的基本字形特征;
步驟3.2,英文字符識別:采用基于字符結構的方法對字符進行識別,根據字符在水平方向、豎直方向、筆畫的特點,對字符進行逐級的分類,形成一顆判定樹,每個字符就是一個葉子,依據字符自身的結構特征進行逼近識別;
步驟3.3,阿拉伯數字識別:先計算歐拉數,再提取凹陷區的特征,最后根據特征組合識別字符。
更具體的,所述步驟4中的對識別后的結果進行修正包括:
利用上下文信息、語法及邏輯,對識別的結果進行修正,生成非規則化的數據文檔。
更具體的,所述步驟4中對所述非規則化的數據文檔進行數據提取處理操作包括:
步驟4.1,把非規則化的數據文檔按照文件名的規則順序處理,把表格的行轉換為普通文本格式的行;
步驟4.2,查看轉換出來的文本格式,確定分割條件,分割的條件包括:文理科段落的區分、各個院校段落的區分、院校下各個專業段落的區分條件;
步驟4.3,分別提取所述步驟4.2中的各個所述的段落,合并斷行和上下文回溯;
步驟4.4,通過所述步驟4.3得到一個相對規格化的段落的數據文本后,再針對步驟4.2中的各類具體情況提取需要的信息;
步驟4.5,對步驟4.4得到的信息結果做合并,把某些可能混合在其它段落中的信息作缺省的上下文推斷填充,至此完成數據提取處理操作。
本發明還提供了一種高招大本數據采集系統,該系統包括書籍掃描模塊、圖像預處理模塊、字符識別模塊、修正模塊,其中,
書籍掃描模塊,用于通過掃描儀,將紙質書籍掃描成電子文檔;
圖像預處理模塊,用于對電子文檔進行圖像預處理;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳愛拼信息科技有限公司,未經深圳愛拼信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611194572.3/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





