[發明專利]票據數據的提取方法、裝置和計算機可讀介質在審
| 申請號: | 202111281487.1 | 申請日: | 2021-11-01 |
| 公開(公告)號: | CN113920515A | 公開(公告)日: | 2022-01-11 |
| 發明(設計)人: | 于興興;林喆;朱亮;梅娟;曹穎 | 申請(專利權)人: | 上海商米科技集團股份有限公司;深圳米開朗基羅科技有限公司 |
| 主分類號: | G06V30/19 | 分類號: | G06V30/19 |
| 代理公司: | 上海專利商標事務所有限公司 31100 | 代理人: | 杜娟;駱希聰 |
| 地址: | 200433 上海市楊浦*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 票據 數據 提取 方法 裝置 計算機 可讀 介質 | ||
本發明涉及一種票據數據的提取方法、裝置和計算機可讀介質。該方法包括構建關鍵字圖,關鍵字圖包括頂點和邊,頂點包括關鍵字和匹配規則,邊包括所連接的2個頂點之間的運算關系;獲得票據中的目標文本,每個目標文本包括相互對應的文字和數據;根據匹配規則比較關鍵字圖中的每個頂點中的關鍵字和每個目標文本中的文字,獲得與目標文本匹配的目標頂點,根據目標頂點和目標頂點對應的目標邊構建票據的關鍵字子圖;從關鍵字子圖中選擇包括目標頂點和目標邊的所有路徑中的最長路徑;以及根據最長路徑中的目標頂點的關鍵字對應的數據和目標邊的運算關系計算目標數據。該方法通過關鍵字圖確定目標數據的計算方式,提升了票據數據提取的精確性。
技術領域
本發明主要涉及文本處理領域,具體地涉及一種票據數據的提取方法、裝置和計算機可讀介質。
背景技術
近年來,人工智能逐漸成為全球科技和產業變革的重要驅動力,推動了商業智能的興起和發展。商戶購物小票信息解析(簡稱小票解析)是商業智能領域中比較重要的應用,近幾年開始受到廣泛關注。小票解析能夠為各類商場、購物街和購物中心等匯總商戶的訂單和交易信息,并在商場經營分析、商場業態分布、商戶租金方案等方面發揮著重要的作用。
小票解析是指從商戶的購物小票中提取除所需的訂單信息或經營信息,例如訂單號、下單時間、訂單金額等。以提取訂單金額為例,一般的小票解析系統在提取訂單金額時往往是粗略地針對某個特定的解析關鍵字進行提取,以獲得凈營業收入。在實際應用場景下,一張小票會存在多種與金額相關的關鍵字。現有的技術未充分考慮這些關鍵字之間的關聯,因而提取出的金額往往與凈營業收入差別較大。例如,小票解析系統以“合計金額”作為提取訂單金額的關鍵依據,但是當訂單有特殊優惠時,會出現“優惠金額”項,實際的凈營業收入應該從合計金額中減去優惠金額。如果小票解析系統不考慮“優惠金額”的話,則會導致解析出的金額與實際的收入不符。此類數據如果直接用于商場經營分析,會使分析結果產生偏差。
因此,亟需一種高準確性的票據數據的提取方法和裝置,提高用戶商業分析的可靠性。
發明內容
本發明所要解決的技術問題是提供一種票據數據的提取方法、裝置和計算機可讀介質,解決票據數據提取不夠精細,導致提取結果偏差較大的問題。
為解決上述技術問題,本申請提出一種購物小票的文字識別方法,包括:構建關鍵字圖,關鍵字圖包括頂點和邊,頂點包括關鍵字和匹配規則,關鍵字與匹配規則一一對應,邊用于連接2個頂點,邊包括所連接的2個頂點之間的運算關系,關鍵字與所要提取的目標數據相關;獲得票據中的目標文本,每個目標文本包括相互對應的文字和數據;根據匹配規則比較關鍵字圖中的每個頂點中的關鍵字和每個目標文本中的文字,獲得與目標文本匹配的目標頂點,根據目標頂點和目標頂點對應的目標邊構建票據的關鍵字子圖;從關鍵字子圖中選擇包括目標頂點和目標邊的所有路徑中的最長路徑;以及根據最長路徑中的目標頂點的關鍵字對應的數據和目標邊的運算關系計算目標數據。
在本申請的一實施例中,獲得票據中的目標文本的步驟包括:設置起始位置和終止位置;提取票據中處于起始位置和終止位置之間的全部文本行;以及提取全部文本行中的目標文本。
在本申請的一實施例中,設置起始位置和終止位置的步驟包括:逐行搜索票據中的文本行,并將文本行中的文字與關鍵字進行比較,將首次出現與關鍵字相匹配的文字所在的文本行編號作為起始位置,將末次出現與關鍵字相匹配的文字所在的文本行編號作為終止位置。
在本申請的一實施例中,根據匹配規則比較關鍵字圖中的每個頂點中的關鍵字和每個目標文本中的文字的步驟之后還包括:若目標文本無法與關鍵字圖中的任何頂點中的關鍵字相匹配,則將目標文本作為新增關鍵字,在關鍵字圖中增加新增頂點,新增頂點包括新增關鍵字和對應的新增匹配規則,并根據新增頂點與其他頂點之間的運算關系構建一個或多個新增邊。
在本申請的一實施例中,根據與目標文本匹配的目標頂點和目標頂點對應的目標邊構建票據的關鍵字子圖的步驟包括:在關鍵字圖中,為與目標文本中的文字不匹配的頂點添加匹配失敗標記。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海商米科技集團股份有限公司;深圳米開朗基羅科技有限公司,未經上海商米科技集團股份有限公司;深圳米開朗基羅科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111281487.1/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





