[發明專利]通用購物小票數據精準提取方法有效
| 申請號: | 201910691300.1 | 申請日: | 2019-07-29 |
| 公開(公告)號: | CN110413659B | 公開(公告)日: | 2023-06-02 |
| 發明(設計)人: | 王春雷;張輝;劉帥 | 申請(專利權)人: | 南京沁恒微電子股份有限公司 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458;G06Q30/0201 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 胡彬 |
| 地址: | 210012 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 通用 購物 票數 精準 提取 方法 | ||
本發明公開了一種通用購物小票數據精準提取方法,其步驟為:S1、小票數據模型化;S2、模型分析;S3、關鍵詞提?。籗4、明細輸出。本發明通過建立數據模型對小票進行描述、匹配、提取使得該方法通用性強、識別率高、兼容性好。
技術領域
本發明涉及一種通用購物小票數據精準提取方法,屬于數據提取技術領域。
背景技術
隨著新零售時代的到來,越來越多的企業以互聯網作為依托,通過運用大數據、人工智能等技術手段,對商品的生產、流通與銷售過程進行升級改造,進而重塑業態結構以便高效地利用流量紅利。“消費信息統計、購物導向預測、對象差異營銷”這種傳統電商獨有的高回報閉環生態模式也被越來越多的商業綜合體所借鑒。
與線上購物平臺相比,線下商超無法直接獲取各門店的消費信息流,因而包含價目明細的各類購物小票成了消費信息采集分析的唯一入口,與之對應的各種小票數據采集、分析、處理方案也應運而生。在此類應用方案中,如何將處理后的小票內容數據輸出為“快速精確的輸出商品明細消費信息“是最關鍵的技術難點之一。
目前行業內常用的提取解決方案是,針對某一個固定小票模板進行,逐行讀取小票數據,然后進行分析處理。提取所需要的數據,此方法的缺陷及要解決的問題有以下幾點:
逐行讀取效率太低。會讀取到大量與提取的數據無關的信息,在對數據解析過程中,不方便做數據的上下文分析。
每個商戶的小票信息排板布局各不相同,需要為每一型小票寫一套提取算法,無法兼容差異化布局小票,增加一種小票就需要為其開發一套提取算法,大大提高了后期算法維護、升級成本,。
每一種類型小票都需要一套提取算法,小票的數據無法形成模板重用,更不方便對近似排版小票進行快速提取。
發明內容
為了解決上述問題,本發明提供一種通用購物小票數據精準提取方法,通過小票快速建模、為提取點生成上下文結構表達式,,實現票據提取通用性兼容性、精準度的全面提升。
解決上述問題的技術方案為:一種通用購物小票數據精準提取方法,包括如下步驟:包括如下步驟:
S1、小票數據模型化;
S2、模型分析;
S3、關鍵詞精準提??;
S4、明細輸出。
進一步地,S1的具體步驟為:將待提取的小票數據進行劃分,形成多個數據域,創建數據模型,并將創建的數據模型存儲到模型庫中。
進一步地,通過機器學習將待提取的小票與模型庫中的模型匹配若能匹配則進行S2,若不能匹配則將待提取的小票數據進行劃分,形成多個數據域,創建數據模型,并將創建的數據模型存儲到模型庫中。
進一步地,將模型庫中的數據模型快速映射到需要提取的小票數據上,若能匹配則進行S2,若不能匹配則將待提取的小票數據進行劃分,形成多個數據域,創建數據模型,并將創建的數據模型存儲到模型庫中。
進一步地,將待提取的小票數據通過標注進行數據劃分,形成數據域,標記數據域起止關鍵字、提取點的上下文結構和數據類型。
進一步地,S2的具體步驟為把S1中創建的數據模型反序列化成若干數據域,每個數據域包含一組數據域起止關鍵字及指定的提取點特征值數組。
進一步地,startWith屬性標示數據域的起始關鍵字,endWith屬性標示數據域的結束關鍵字;每個特征值包含待提取信息的四個描述屬性,type屬性標示提取數據的具體含義;format屬性標示提取數據的格式;keyword屬性標示提取數據的相關關鍵字;extend屬性標示提取數據的擴展屬性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京沁恒微電子股份有限公司,未經南京沁恒微電子股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910691300.1/2.html,轉載請聲明來源鉆瓜專利網。





