[發明專利]票據數據的提取方法、裝置和計算機可讀介質在審
| 申請號: | 202111281487.1 | 申請日: | 2021-11-01 |
| 公開(公告)號: | CN113920515A | 公開(公告)日: | 2022-01-11 |
| 發明(設計)人: | 于興興;林喆;朱亮;梅娟;曹穎 | 申請(專利權)人: | 上海商米科技集團股份有限公司;深圳米開朗基羅科技有限公司 |
| 主分類號: | G06V30/19 | 分類號: | G06V30/19 |
| 代理公司: | 上海專利商標事務所有限公司 31100 | 代理人: | 杜娟;駱希聰 |
| 地址: | 200433 上海市楊浦*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 票據 數據 提取 方法 裝置 計算機 可讀 介質 | ||
1.一種票據數據的提取方法,其特征在于,包括:
構建關鍵字圖,所述關鍵字圖包括頂點和邊,所述頂點包括關鍵字和匹配規則,所述關鍵字與所述匹配規則一一對應,所述邊用于連接2個所述頂點,所述邊包括所連接的2個頂點之間的運算關系,所述關鍵字與所要提取的目標數據相關;
獲得票據中的目標文本,每個所述目標文本包括相互對應的文字和數據;
根據所述匹配規則比較所述關鍵字圖中的每個頂點中的關鍵字和每個所述目標文本中的文字,獲得與所述目標文本匹配的目標頂點,根據所述目標頂點和所述目標頂點對應的目標邊構建所述票據的關鍵字子圖;
從所述關鍵字子圖中選擇包括所述目標頂點和所述目標邊的所有路徑中的最長路徑;以及
根據所述最長路徑中的目標頂點的關鍵字對應的數據和所述目標邊的運算關系計算所述目標數據。
2.如權利要求1所述的提取方法,其特征在于,獲得票據中的目標文本的步驟包括:
設置起始位置和終止位置;
提取所述票據中處于所述起始位置和所述終止位置之間的全部文本行;以及
提取所述全部文本行中的所述目標文本。
3.如權利要求2所述的提取方法,其特征在于,設置起始位置和終止位置的步驟包括:
逐行搜索所述票據中的文本行,并將所述文本行中的文字與所述關鍵字進行比較,將首次出現與所述關鍵字相匹配的文字所在的文本行編號作為所述起始位置,將末次出現與所述關鍵字相匹配的文字所在的文本行編號作為所述終止位置。
4.如權利要求1所述的提取方法,其特征在于,根據所述匹配規則比較所述關鍵字圖中的每個頂點中的關鍵字和每個所述目標文本中的文字的步驟之后還包括:若所述目標文本無法與所述關鍵字圖中的任何頂點中的關鍵字相匹配,則將所述目標文本作為新增關鍵字,在所述關鍵字圖中增加新增頂點,所述新增頂點包括所述新增關鍵字和對應的新增匹配規則,并根據所述新增頂點與其他頂點之間的運算關系構建一個或多個新增邊。
5.如權利要求1所述的提取方法,其特征在于,根據與所述目標文本匹配的目標頂點和所述目標頂點對應的目標邊構建所述票據的關鍵字子圖的步驟包括:在所述關鍵字圖中,為與所述目標文本中的文字不匹配的頂點添加匹配失敗標記。
6.如權利要求1所述的提取方法,其特征在于,根據與所述目標文本匹配的目標頂點和所述目標頂點對應的目標邊構建所述票據的關鍵字子圖的步驟包括:在所述關鍵字圖中,刪除與所述目標文本中的文字不匹配的頂點和與所述頂點相關的邊。
7.如權利要求1所述的提取方法,其特征在于,從所述關鍵字子圖中選擇包括所述目標頂點和所述目標邊的所有路徑中的最長路徑的步驟包括:采用深度優先遍歷方法遍歷所述關鍵字子圖中的所有路徑,確定最深路徑作為所述最長路徑。
8.如權利要求1所述的提取方法,其特征在于,所述關鍵字圖還包括起始頂點和結束頂點,所述起始頂點作為所述所有路徑的起點,所述結束頂點作為所述所有路徑的終點。
9.如權利要求1所述的提取方法,其特征在于,所述數據是金額數據。
10.一種票據數據的提取裝置,包括:
存儲器,用于存儲可由處理器執行的指令;
處理器,用于執行所述指令以實現如權利要求1-9任一項所述的方法。
11.一種存儲有計算機程序代碼的計算機可讀介質,所述計算機程序代碼在由處理器執行時實現如權利要求1-9任一項所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海商米科技集團股份有限公司;深圳米開朗基羅科技有限公司,未經上海商米科技集團股份有限公司;深圳米開朗基羅科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111281487.1/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





