[發(fā)明專利]圖片類案卷材料的采集方法在審
| 申請?zhí)枺?/td> | 201910897316.8 | 申請日: | 2019-09-23 |
| 公開(公告)號: | CN110675121A | 公開(公告)日: | 2020-01-10 |
| 發(fā)明(設(shè)計(jì))人: | 蘇學(xué)武;劉懷春;孔洋;陳繼良;吳海平 | 申請(專利權(quán))人: | 珠海市新德匯信息技術(shù)有限公司 |
| 主分類號: | G06Q10/10 | 分類號: | G06Q10/10 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 519000 廣東省珠海市高新區(qū)唐家*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 采集 半自動化 結(jié)果數(shù)據(jù) 數(shù)據(jù)整理 文本信息 上傳 關(guān)系型數(shù)據(jù)庫應(yīng)用 光學(xué)字符識別技術(shù) 數(shù)據(jù)處理接口 語義分析技術(shù) 數(shù)據(jù)利用率 圖片 材料采集 材料數(shù)據(jù) 材料特征 采集信息 臨時(shí)數(shù)據(jù) 深度分析 圖片材料 引入 分詞 異構(gòu) 與非 預(yù)設(shè) 整合 數(shù)據(jù)庫 入庫 保存 配置 統(tǒng)一 | ||
1.圖片類案卷材料的采集方法,其特征在于,包括以下步驟:
A.根據(jù)所提供的用戶交互頁面,依照頁面的操作向?qū)В蟼餍枰杉膱D片類案卷材料;
B.對步驟A上傳的圖片類案卷材料進(jìn)行數(shù)據(jù)預(yù)處理,通過結(jié)合系統(tǒng)后臺自動化數(shù)據(jù)整理以及人工數(shù)據(jù)整理的半自動化數(shù)據(jù)整理方式,依據(jù)一組特定的基于采集規(guī)范預(yù)設(shè)的規(guī)則,整理好案卷材料數(shù)據(jù)以及其他采集信息數(shù)據(jù);
C.在步驟B通過結(jié)合自動化與人工的方式完成對采集數(shù)據(jù)的整理后,按照設(shè)計(jì)好的數(shù)據(jù)模型,對在步驟B中整理好的臨時(shí)數(shù)據(jù)集進(jìn)行整合、組織,得到結(jié)果數(shù)據(jù);
D.將步驟C中加工好的結(jié)果數(shù)據(jù),存儲到數(shù)據(jù)庫。
2.根據(jù)權(quán)利要求1所述的圖片類案卷材料采集方法,其特征在于,所述步驟B包括以下具體步驟:
B1.為所有上傳的圖片類案卷材料文件創(chuàng)建唯一標(biāo)識,建立圖片文件與唯一標(biāo)識的映射;
B2.將圖片文件的內(nèi)容以字節(jié)流的形式與圖片文件對應(yīng)的由步驟B1創(chuàng)建的唯一標(biāo)識一并傳入后臺;
B3.后臺接收到傳入的數(shù)據(jù)后,將圖片文件內(nèi)容的字節(jié)流數(shù)據(jù)轉(zhuǎn)化為三階張量;
B4.調(diào)用光學(xué)字符識別服務(wù)提供的接口,將步驟B3得到的三階張量傳入,得到服務(wù)返回的識別結(jié)果;
B5.在步驟B4得到光學(xué)字符識別服務(wù)返回的識別結(jié)果后,根據(jù)一組特定的基于采集規(guī)范預(yù)設(shè)的規(guī)則,自動化整理數(shù)據(jù);
B6.判斷自動化整理數(shù)據(jù)是否已符合采集的要求,如果滿足,則直接進(jìn)行B8步驟;否則,可先進(jìn)行B7步驟;
B7.根據(jù)案卷材料采集規(guī)范的要求,對需要采集的案卷材料以及其他采集信息進(jìn)行人工整理,完成后進(jìn)行B8步驟;
B8.將經(jīng)過半自動化整理的臨時(shí)數(shù)據(jù)集提交至后臺。
3.根據(jù)權(quán)利要求2所述的圖片類案卷材料采集方法,其特征在于,所述光學(xué)字符識別服務(wù),是一組基于深度學(xué)習(xí)網(wǎng)絡(luò)所構(gòu)建的模型,并封裝成一組基于web架構(gòu)的、可供外部調(diào)用的接口,為外部提供服務(wù)。
4.根據(jù)權(quán)利要求3所述的圖片類案卷材料采集方法,其特征在于,所述基于深度學(xué)習(xí)網(wǎng)絡(luò)構(gòu)建的模型,主要實(shí)現(xiàn)了基于CTPN網(wǎng)絡(luò)的文本檢測模型、基于GAN對抗網(wǎng)絡(luò)的超分辨率模型、基于CRNN的文字識別模型,其中:
文本檢測模型用于檢測圖片文件出現(xiàn)文字的區(qū)域,便于后續(xù)做圖片切割處理;
超分辨率模型用于解決因圖片質(zhì)量較模糊、部分文字區(qū)域有污跡而導(dǎo)致文字識別結(jié)果不準(zhǔn)的問題;
文字識別模型用于對采集的圖片文件進(jìn)行文字識別,提取出圖片包含的文本信息。
5.根據(jù)權(quán)利要求2所述的圖片類案卷材料采集方法,其特征在于,所述基于采集規(guī)范預(yù)設(shè)的規(guī)則,主要包括對采集模板以及要素提取的定義,其中:
采集模板定義是根據(jù)各類異構(gòu)案卷材料配置不同的采集模板,主要包括三大類信息:模板分類、模板名稱、案件編號、案件名稱模板字段信息;模板包含的附屬材料及相關(guān)字段信息;模板包含的附屬清單及相關(guān)字段信息;
要素提取定義是對有固定格式的案卷材料進(jìn)行要素提取規(guī)則的配置,包括前置規(guī)則與后置規(guī)則,結(jié)合分詞技術(shù)以及語義分析技術(shù)的應(yīng)用,提取出數(shù)據(jù)價(jià)值更高的要素信息。
6.根據(jù)權(quán)利要求2所述的圖片類案卷材料采集方法,其特征在于,所述自動化整理數(shù)據(jù),是后臺根據(jù)預(yù)設(shè)規(guī)則自動完成數(shù)據(jù)整理的過程,主要包括采集文件的自動歸類編目與采集字段的信息回填兩個(gè)處理過程,最終將自動化數(shù)據(jù)整理的結(jié)果返回到前端用戶界面并進(jìn)行渲染。
7.根據(jù)權(quán)利要求2所述的圖片類案卷材料采集方法,其特征在于,所述人工整理,是用戶根據(jù)采集規(guī)范對自動化數(shù)據(jù)整理的結(jié)果進(jìn)行比對,判斷是否達(dá)到采集規(guī)范的要求,對于不符合要求的,可以在提供的用戶界面進(jìn)行調(diào)整,支持調(diào)整的包括采集文件的歸類編目、采集文件的排序、無法自動化整理的文件、修改字段的回填信息、補(bǔ)充無法回填的字段信息。
8.根據(jù)權(quán)利要求2所述的圖片類案卷材料采集方法,其特征在于,所述臨時(shí)數(shù)據(jù)集,是在經(jīng)過自動化與人工的半自動化數(shù)據(jù)整理后,能通過用戶界面表達(dá)的數(shù)據(jù)集合。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于珠海市新德匯信息技術(shù)有限公司,未經(jīng)珠海市新德匯信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910897316.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測目的的數(shù)據(jù)處理系統(tǒng)或方法;其他類目不包含的專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測目的的處理系統(tǒng)或方法
G06Q10-00 行政;管理
G06Q10-02 .預(yù)定,例如用于門票、服務(wù)或事件的
G06Q10-04 .預(yù)測或優(yōu)化,例如線性規(guī)劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項(xiàng)目管理,例如組織、規(guī)劃、調(diào)度或分配時(shí)間、人員或機(jī)器資源;企業(yè)規(guī)劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運(yùn)輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計(jì)算機(jī)輔助管理
- 通過查詢結(jié)果擴(kuò)充和結(jié)果數(shù)據(jù)反饋的迭代數(shù)據(jù)分析過程
- 實(shí)現(xiàn)數(shù)據(jù)同步、獲知數(shù)據(jù)同步結(jié)果方法及其系統(tǒng)、HLR
- 一種管理數(shù)據(jù)條件和數(shù)據(jù)結(jié)果的方法
- 改進(jìn)數(shù)據(jù)庫內(nèi)搜索結(jié)果的方法
- 稽核結(jié)果數(shù)據(jù)展現(xiàn)及數(shù)據(jù)穿透的系統(tǒng)及方法
- 理化實(shí)驗(yàn)數(shù)據(jù)收集與結(jié)果預(yù)測裝置
- 數(shù)據(jù)分析結(jié)果的管控放置
- 數(shù)據(jù)預(yù)測結(jié)果、基金估值結(jié)果的評估方法及裝置
- 結(jié)果相依分析-SWATH數(shù)據(jù)的迭代分析
- 基于傳感器數(shù)據(jù)的查詢結(jié)果
- 用戶接口軟件設(shè)計(jì)系統(tǒng)
- 基于點(diǎn)頻濾波器的信號幅頻譜檢測方法和系統(tǒng)
- 電力諧波測量方法和系統(tǒng)
- 基于本地處理的樣本數(shù)據(jù)的行為一致的集群范圍數(shù)據(jù)整理
- 基于農(nóng)業(yè)地理信息共享數(shù)據(jù)整理入庫方法
- 數(shù)據(jù)庫處理方法和設(shè)備
- 基于互聯(lián)網(wǎng)的同類別數(shù)據(jù)提取整理系統(tǒng)
- 一種文件碎片的整理方法、裝置、存儲介質(zhì)及電子設(shè)備
- 整理指令處理方法、存儲器控制電路單元與存儲裝置
- 一種工程咨詢數(shù)據(jù)的整理方法、裝置及存儲介質(zhì)





