[發(fā)明專利]有效數(shù)據(jù)提取方法、裝置、存儲介質及終端在審
| 申請?zhí)枺?/td> | 201811510383.1 | 申請日: | 2018-12-11 |
| 公開(公告)號: | CN109614622A | 公開(公告)日: | 2019-04-12 |
| 發(fā)明(設計)人: | 火一莽;王如意;石志中;張俊杰 | 申請(專利權)人: | 北京銳安科技有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F16/332 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 孟金喆 |
| 地址: | 100044 北京市海淀區(qū)西小口*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 目標文件 有效數(shù)據(jù) 預設 有效數(shù)據(jù)提取 存儲介質 第一數(shù)據(jù) 目標數(shù)據(jù) 遍歷 終端 關鍵字匹配 模板提取 提取效率 預設位置 載入 申請 | ||
1.一種有效數(shù)據(jù)提取方法,其特征在于,包括:
載入目標文件,拆分所述目標文件,得到多個第一數(shù)據(jù);
根據(jù)預設位置從所述第一數(shù)據(jù)中確定第二數(shù)據(jù),從所述第二數(shù)據(jù)開始遍歷,將當前遍歷的數(shù)據(jù)作為目標數(shù)據(jù);
如果所述目標數(shù)據(jù)與預設關鍵字匹配,則根據(jù)所述預設關鍵字對應的獲取模板提取有效數(shù)據(jù)。
2.根據(jù)權利要求1所述的有效數(shù)據(jù)提取方法,其特征在于,所述拆分所述目標文件,包括:
根據(jù)預設符號拆分所述目標文件,所述預設符號包括,逗號,句號或分段符;
或者,根據(jù)預設關鍵詞拆分所述目標文件;
或者,根據(jù)預設表格選項拆分所述目標文件。
3.根據(jù)權利要求1所述的有效數(shù)據(jù)提取方法,其特征在于,所述拆分所述目標文件,包括:
獲取所述目標文件的文件類型;
根據(jù)所述文件類型確定拆分模版;
根據(jù)所述拆分模版拆分所述目標文件。
4.根據(jù)權利要求1所述的有效數(shù)據(jù)提取方法,其特征在于,所述拆分所述目標文件,包括:
識別所述目標文件中的圖像數(shù)據(jù),得到相應的文本數(shù)據(jù);
根據(jù)所述文本數(shù)據(jù)進行拆分。
5.根據(jù)權利要求1-4中任一項所述的有效數(shù)據(jù)提取方法,其特征在于,如果目標數(shù)據(jù)與預設關鍵字匹配,則根據(jù)所述預設關鍵字對應的獲取模板提取有效數(shù)據(jù),包括:
根據(jù)目標文件的類型確定關鍵字庫,所述關鍵字庫包括多個預設關鍵字以及每個預設關鍵字對應的獲取模板;
判斷所述目標數(shù)據(jù)是否與目標關鍵字匹配,所述目標關鍵字為所述關鍵字庫中的任意一個預設關鍵字;
如果所述目標數(shù)據(jù)與目標關鍵字匹配,則根據(jù)所述目標關鍵字對應的獲取模板提取有效數(shù)據(jù)。
6.根據(jù)權利要求5所述的有效數(shù)據(jù)提取方法,其特征在于,在根據(jù)所述目標關鍵字對應的獲取模板提取有效數(shù)據(jù)之后,包括:
對所述有效數(shù)據(jù)進行分詞處理,得到至少一個分詞數(shù)據(jù);
如果所述分詞數(shù)據(jù)與預設子關鍵字匹配,則根據(jù)所述預設子關鍵字對應的子獲取模板提取子有效數(shù)據(jù)。
7.根據(jù)權利要求5所述的有效數(shù)據(jù)提取方法,其特征在于,在如果目標數(shù)據(jù)與預設關鍵字匹配,則根據(jù)所述預設關鍵字對應的獲取模板提取有效數(shù)據(jù)之前,包括:
根據(jù)已知的目標文件和預期的有效數(shù)據(jù)確定至少一個預設關鍵字以及每個預設關鍵字對應的獲取模板;
根據(jù)所述至少一個預設關鍵字以及每個預設關鍵字對應的獲取模板生成關鍵字庫;
建立所述目標文件的類型與所述關鍵字庫的關聯(lián)關系。
8.一種有效數(shù)據(jù)提取的裝置,其特征在于,包括:
載入模塊,用于載入目標文件;
拆分模塊,用于拆分所述載入模塊載入的所述目標文件,得到多個第一數(shù)據(jù);
遍歷模塊,用于根據(jù)預設位置從所述拆分模塊得到的所述第一數(shù)據(jù)中確定第二數(shù)據(jù),從所述第二數(shù)據(jù)開始遍歷,將當前遍歷的數(shù)據(jù)作為目標數(shù)據(jù);
提取模塊,用于如果所述目標數(shù)據(jù)與預設關鍵字匹配,則根據(jù)所述預設關鍵字對應的獲取模板提取有效數(shù)據(jù)。
9.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,該程序被處理器執(zhí)行時實現(xiàn)如權利要求1-7中任一所述有效數(shù)據(jù)提取方法。
10.一種終端,包括存儲器,處理器及存儲在存儲器上并可在處理器運行的計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如權利要求1-7任一所述的有效數(shù)據(jù)提取方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京銳安科技有限公司,未經北京銳安科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811510383.1/1.html,轉載請聲明來源鉆瓜專利網。





