日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種高招大本數據采集系統及方法在審

專利信息
申請號: 201611194572.3 申請日: 2016-12-22
公開(公告)號: CN106650664A 公開(公告)日: 2017-05-10
發明(設計)人: 楊洋;潘嶸;林曉藝;趙泛舟;李訓耕 申請(專利權)人: 深圳愛拼信息科技有限公司
主分類號: G06K9/00 分類號: G06K9/00;G06K9/34;G06K9/40
代理公司: 暫無信息 代理人: 暫無信息
地址: 518057 廣東省深圳市南山區南山街道科*** 國省代碼: 廣東;44
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 高招 大本 數據 采集 系統 方法
【說明書】:

技術領域

發明涉及一種數據采集方法,更具體的,涉及一種高招大本數據采集系統及方法。

背景技術

在普通高校的招生過程中,考生填報志愿不僅關系著能否被高校錄取,更為重要的是:填志愿時選擇專業、學校內在地規定了學生未來的學業及職業發展路線及發展狀態。通常所說的考生志愿,指考生所選報的院校和專業,是考生的志向、愿望、愛好、個性和能力等因素的綜合反映。而其中往年錄取數據是考生在填報學校時的最重要的依據,這關系著考生是否能夠考生該所學校。

通常情況下,各省都會派發對應的《高考填報指南》,其中就包含著該省往年的所有學校的錄取數據。但這類書籍頁數多,數據量大,考生在翻閱該書籍時難以快速準確捕獲自己所需要的信息,因此將該類書籍數據電子化有其必要性。

目前主流的將書籍數據電子化的方式是人工錄入,但這種方式耗費時間較長,且因有非常重的人工干預的成分,難以保證數據的準確性和完整性。從2016年開始,高招大本的書籍出版都很晚,將數據電子化需要在非常短的時間內完成,否則失去意義。所以全、準、快是錄入高招大本數據的基本原則,顯然人工錄入的方式并不能達成這三項標準。

發明內容

本發明旨在至少解決現有技術中存在的技術問題之一。

為此,本發明的目的在于,提供一種快捷、流程化的數據采集方法處理高招大本數據,避免數據的缺失,保證其準確性,幫助考生便捷地查看往年錄取數據。

為實現上述目的,本發明提供了一種一種高招大本數據采集方法,包括如下步驟:

步驟1,通過掃描儀,將紙質書籍掃描成電子文檔;

步驟2,對電子文檔進行圖像預處理;

步驟3,采用字符處理方法對所述圖像預處理后的結果進行字符識別,以識別所述結果中的各類字符;

步驟4,對所述字符識別后的結果進行修正,生成非規則化的數據文檔,然后對所述非規則化的數據文檔進行數據提取處理操作。

本發明還提供了一種高招大本數據采集系統,該系更具體的,所述步驟2中對電子文檔進行圖像預處理包括:

步驟1.1,圖像二值化處理,采用閾值分割技術,設定灰度閾值,若圖像像素點灰度值大于或等于所述閾值,則被判定為屬于某一特定區域,用 255 表示其灰度值,否則,像素點將被排除在特定區域之外而被判定為背景或其他無用區域,用0表示其灰度值;

步驟1.2,圖像增強處理,通過基于空間域的增強和基于頻率域的增強處理方法,以減少所獲取圖像的小的空間改變;

步驟1.3,噪聲處理,使用濾波器對所述圖像增強處理后的結果進行濾波,去除噪聲。

更具體的,所述步驟3中的字符識別包括:

步驟3.1,漢字字符識別:采用水平方向上、豎直方向上、45度角方向、反45度角方向4個特定方向上的矢量準確地描述出一個漢字的基本字形特征;

步驟3.2,英文字符識別:采用基于字符結構的方法對字符進行識別,根據字符在水平方向、豎直方向、筆畫的特點,對字符進行逐級的分類,形成一顆判定樹,每個字符就是一個葉子,依據字符自身的結構特征進行逼近識別;

步驟3.3,阿拉伯數字識別:先計算歐拉數,再提取凹陷區的特征,最后根據特征組合識別字符。

更具體的,所述步驟4中的對識別后的結果進行修正包括:

利用上下文信息、語法及邏輯,對識別的結果進行修正,生成非規則化的數據文檔。

更具體的,所述步驟4中對所述非規則化的數據文檔進行數據提取處理操作包括:

步驟4.1,把非規則化的數據文檔按照文件名的規則順序處理,把表格的行轉換為普通文本格式的行;

步驟4.2,查看轉換出來的文本格式,確定分割條件,分割的條件包括:文理科段落的區分、各個院校段落的區分、院校下各個專業段落的區分條件;

步驟4.3,分別提取所述步驟4.2中的各個所述的段落,合并斷行和上下文回溯;

步驟4.4,通過所述步驟4.3得到一個相對規格化的段落的數據文本后,再針對步驟4.2中的各類具體情況提取需要的信息;

步驟4.5,對步驟4.4得到的信息結果做合并,把某些可能混合在其它段落中的信息作缺省的上下文推斷填充,至此完成數據提取處理操作。

本發明還提供了一種高招大本數據采集系統,該系統包括書籍掃描模塊、圖像預處理模塊、字符識別模塊、修正模塊,其中,

書籍掃描模塊,用于通過掃描儀,將紙質書籍掃描成電子文檔;

圖像預處理模塊,用于對電子文檔進行圖像預處理;

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳愛拼信息科技有限公司,未經深圳愛拼信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201611194572.3/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 久久免费视频一区| 日韩欧美国产高清91| 久久久久久久亚洲视频| 91麻豆精品一区二区三区| 日韩中文字幕一区二区在线视频 | 手机看片国产一区| 久久夜靖品2区| 欧洲在线一区| 91看黄网站| 午夜影院毛片| 国产1区2区视频| 26uuu色噜噜精品一区二区 | 国产精品一二三区视频出来一| 欧美精品粉嫩高潮一区二区 | 国产清纯白嫩初高生在线播放性色| 久久免费精品国产| 精品三级一区二区| 国产亚洲精品久久午夜玫瑰园 | 国产欧美视频一区二区| 日韩欧美精品一区二区三区经典| 99久久夜色精品| 国产清纯白嫩初高生在线观看性色| 国产精品1区2区| 欧美日韩三区二区| 亚洲一区欧美| 日韩区欧美久久久无人区| 午夜国产一区二区三区| 精品国产精品亚洲一本大道| 91精品福利观看| 久久精品麻豆| 国产一区欧美一区| 亚洲欧美一区二区三区1000 | 一区二区精品在线| 香港三日本8a三级少妇三级99 | 思思久久96热在精品国产| xx性欧美hd| 5g影院天天爽入口入口| 浪潮av色| 久久久久国产一区二区三区不卡| 欧美日韩一二三四区| 精品久久久久一区二区| 国产亚洲精品久久久久动| 国产精品一区久久人人爽| 久久九九国产精品| 国产欧美久久一区二区三区| 91看片片| 久久国产精品网站| 国产精品麻豆自拍| 日韩免费一级视频| 国产88在线观看入口| 亚洲乱码一区二区三区三上悠亚| 欧美一区二区三区片| 97欧美精品| 在线观看v国产乱人精品一区二区| 曰韩av在线| 美女张开腿黄网站免费| 午夜国产一区二区三区四区| 欧美一级久久久| 99精品久久久久久久婷婷| 国产一区二区免费在线| 国产在线精品二区| 国产99网站| 91一区在线观看| 日本一区二区三区在线看| 久久激情网站| 午夜黄色一级电影| 国产精品麻豆99久久久久久| 96国产精品视频| 97人人澡人人爽人人模亚洲 | 国产91久久久久久久免费| 欧美精品一区二区性色| 久久99国产精品视频| 午夜av电影网| 色婷婷精品久久二区二区蜜臂av| 欧美日韩一区二区三区不卡| 久久er精品视频| 精品国产一区二区三区久久久久久 | 欧美性xxxxx极品少妇| 久久一区二区精品| 欧美一区二区三区片| 羞羞免费视频网站| 国产亚洲精品精品国产亚洲综合|