[發明專利]一種票據結構化方法及裝置在審
| 申請號: | 202110727264.7 | 申請日: | 2021-06-29 |
| 公開(公告)號: | CN113343663A | 公開(公告)日: | 2021-09-03 |
| 發明(設計)人: | 張凱;高云峰 | 申請(專利權)人: | 廣州智選網絡科技有限公司 |
| 主分類號: | G06F40/186 | 分類號: | G06F40/186;G06F40/284;G06F40/151;G06K9/20;G06K9/34;G06K9/62 |
| 代理公司: | 北京艾格律詩專利代理有限公司 11924 | 代理人: | 謝毅 |
| 地址: | 510650 廣東省廣州市天河區高唐*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 票據 結構 方法 裝置 | ||
本申請提供了一種票據結構化方法及裝置。所述票據結構化方法包括:獲取待識別票據;識別所述待識別票據,獲取待識別票據中的票據信息;獲取規則庫,所述規則庫中包括多種規則票據模板;根據所述待識別票據判斷規則票據模板中是否有一種規則票據模板符合預設條件,若有,則獲取符合預設條件的規則票據模板作為待填入票據模板;將票據信息中的票據內容信息填入待填入票據模板。
技術領域
本申請屬于司法建議技術領域,特別涉及一種票據結構化方法以及票據結構化裝置。
背景技術
文本識別技術提供了一種數據采集方式,如在市場營銷行業可以利用文本識別技術識別票據圖像中的購物信息,識別發票圖像中的購物信息等?,F有的文本識別技術可以提取票據圖片中的文字,將圖像中的文字轉換為非結構化的文字信息,但這些識別出的非結構化文字并不能直接用于后續的數據使用環節。如將購物票據中的商品購買信息,用于后續的數據分析和挖掘等。
現有的票據雖然內容大體相同,但是格式不盡相同,導致機器識別歸納困難,不具有統一的格式。
因此,希望有一種技術方案來克服或至少減輕現有技術的至少一個上述缺陷。
發明內容
本申請的目的是提供了一種票據結構化方法,以解決上述至少一方面的問題。
在本申請的第一方面,提供了一種票據結構化方法,所述票據結構化方法包括:
獲取待識別票據;
識別所述待識別票據,獲取待識別票據中的票據信息;
獲取規則庫,所述規則庫中包括多種規則票據模板;
根據所述待識別票據判斷規則票據模板中是否有一種規則票據模板符合預設條件,若有,則
獲取符合預設條件的規則票據模板作為待填入票據模板;
將所述票據信息中的票據內容信息填入待填入票據模板。
可選地,所述票據信息至少包括票據名稱信息以及票據內容信息;
每種所述規則票據模板包括規則票據名稱信息以及規則票據內容信息。
可選地,所述待識別票據為OFD格式;
所述識別所述待識別票據,獲取待識別票據中的票據信息包括:
解析所述待識別票據,從而獲取所述待識別票據中的文字圖元;
獲取字典庫,所述字典庫中包括數字字典庫、英文字典庫以及中文字典庫;
根據所述字典庫對所述文字圖元進行識別從而獲取票據信息。
可選地,所述識別所述待識別票據,獲取待識別票據中的票據信息進一步包括:
獲取所述文字圖元在所述待識別票據中的位置信息;
獲取預設名稱位置坐標信息;
分別判斷各個所述文字圖元在所述待識別票據中的位置信息與所述預設名稱位置坐標信息是否超過第一預設坐標差值,若否,則
獲取判斷為否的所述文字圖元作為規則票據名稱信息;
其他所述文字圖元作為所述規則票據內容信息。
可選地,所述預設條件為:
計算所述待識別票據的票據名稱信息分別與各種所述規則票據模板中的規則票據名稱信息的相似度值;
判斷各個所述相似度值最高的相似度值是否超過預設相似度閾值;若是,則判斷該相似度值最高的相似度值所對應的規則票據模板符合所述預設條件。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州智選網絡科技有限公司,未經廣州智選網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110727264.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:異步交易性能測試方法和系統
- 下一篇:觸控反饋模組及電子設備





