[發明專利]通用購物小票數據精準提取方法有效
| 申請號: | 201910691300.1 | 申請日: | 2019-07-29 |
| 公開(公告)號: | CN110413659B | 公開(公告)日: | 2023-06-02 |
| 發明(設計)人: | 王春雷;張輝;劉帥 | 申請(專利權)人: | 南京沁恒微電子股份有限公司 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458;G06Q30/0201 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 胡彬 |
| 地址: | 210012 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 通用 購物 票數 精準 提取 方法 | ||
1.一種通用購物小票數據精準提取方法,其特征在于,包括如下步驟:
S1、小票數據快速模型化,包括:通過機器學習將待提取的小票與模型庫中的模型匹配,若能匹配則進行S2,若不能匹配則將待提取的小票數據進行劃分,形成多個數據域,標記數據域起止關鍵字、提取點的上下文結構和數據類型,創建數據模型,并將創建的數據模型存儲到模型庫中;
S2、模型分析,包括:把步驟S1中創建的數據模型反序列化成若干數據域,每個數據域包含一組數據域起止關鍵字及指定的提取點特征值數組;
S3、關鍵詞精準提取,包括第一步:解析數據域對象,讀取屬性,根據各數據域起止關鍵字將小票內容劃分為相應提取區域;第二步:獲取提取點特征值數組,讀取提取點特征值的屬性生成提取表達式,用來描述提取關鍵字所在的上下文結構信息;第三步:在劃分出的提取區域中,匹配表達式;
S4、明細輸出。
2.根據權利要求1所述的方法,其特征在于,將模型庫中的數據模型快速映射到需要提取的小票數據上,若能匹配則進行S2,若不能匹配則將待提取的小票數據進行劃分,形成多個數據域,創建數據模型,并將創建的數據模型存儲到模型庫中。
3.根據權利要求1所述的方法,其特征在于,將待提取的小票數據通過標注進行數據劃分,形成數據域。
4.根據權利要求1所述的方法,其特征在于,startWith屬性標示數據域的起始關鍵字,endWith屬性標示數據域的結束關鍵字;每個特征值包含待提取信息的四個描述屬性,type屬性標示提取數據的具體含義;format屬性標示提取數據的格式;keyword屬性標示提取數據的相關關鍵字;extend屬性標示提取數據的擴展屬性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京沁恒微電子股份有限公司,未經南京沁恒微電子股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910691300.1/1.html,轉載請聲明來源鉆瓜專利網。





