[發明專利]小票消費明細內容融合及提取方法、設備以及存儲介質有效
| 申請號: | 201811267693.5 | 申請日: | 2018-10-29 |
| 公開(公告)號: | CN109460725B | 公開(公告)日: | 2019-10-01 |
| 發明(設計)人: | 李華康;張坤;金旭;孔令軍;方浪;管慧娟 | 申請(專利權)人: | 蘇州派維斯信息科技有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00 |
| 代理公司: | 蘇州市中南偉業知識產權代理事務所(普通合伙) 32257 | 代理人: | 郭磊;殷海霞 |
| 地址: | 215000 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 內容融合 標簽 文檔 索引 索引關鍵字 完整性判斷 屬性信息 文本文檔 信息抽取 傳統的 行合并 上傳 分類 客戶 網絡 學習 圖片 | ||
1.一種小票消費明細內容融合及提取方法,其特征在于,包括:
獲取客戶上傳的小票圖片的文本文檔;
利用深度學習網絡對小票文檔中的每一行文字進行分類,得到了每行帶有標簽的行標簽文檔;
根據所述帶有標簽的行標簽文檔,獲取小票的明細區域;
根據明細索引關鍵字找出明細索引行,對于含有或不含有明細索引行都要進行明細完整性判斷然后進行明細行合并;
獲取小票中的各條消費明細屬性信息列表;
其中,“根據明細索引關鍵字找出明細索引行,對于含有或不含有明細索引行都要進行明細完整性判斷然后進行明細行合并;”具體包括:
S41,首先將明細行集合中的每一行表示成由標簽數字組成的字符串;
S42,初始設置標志flag=0,計算出明細行集合中的第一行與第二行的文本編輯距離d1,如果明細行集合中只有一行,那么此行就作為一個完整的明細;設定一個閾值t1,如果d1<t1,執行步驟S43,否則,如果flag==0時,執行步驟S44(1),flag==1時,執行步驟S44(2);
S43,將第一行和第二行分別作為兩個完整的明細;在得到兩個明細模板后,取出明細集合中的第三行,分別計算第三行與第一行的編輯距離d2和第三行與第二行的編輯距離d3,計算這兩個距離的平均值;后面再將第三行與第四行合并,也分別計算出它與兩個明細模板的編輯距離,計算其平均值,如果平均值減小了,將第三四行進行合并,后面的操作一直進行,直到距離平均值不再減小,明細行合并結束,這樣就得到一個新的明細;如果明細行集合還有剩余,同理進行同樣操作,最終得到一個完整的明細集合;
S44,(1)如果原始明細行集合只有兩行,就將這兩個明細行合并作為一個完整的明細,就無需進行后面的執行過程;將第二行與第三合并得到新的明細行,假設此明細行為一個完整的明細,再將第二三四行合并得到另一個新的明細行,由于一個完整的明細一般最多由3行明細行組成的,所以只有這兩種合并方式;計算出這兩個明細模板與第一行的編輯距離d4、d5,計算d*=min{d4、d5},設定一個閾值t2,若d*<t2,如果d*=d4,二三行合并,否則二三四行合并,這樣得到一個新的明細行作為新明細行集合的第二行,執行步驟S43;如果d*>=t2,執行步驟S45;
(2)如果原始明細行集合只有兩行,就將這兩個明細行合并作為一個完整的明細,就無需進行后面的執行過程;首先假設第二行本身就為一個完整的明細,將第二行與第三合并得到新的明細行,將此也看作一個完整的明細,再將第二三四行合并得到另一個新的明細行,因為一般一個完整的明細最多由3行明細行組成的,所以只有這兩種合并方式;計算出這三個明細模板與第一行的編輯距離d4、d5、d6,計算d*=min{d4、d5、d6},設定一個閾值t3,如果d*<t3,如果d*=d4,不做合并操作,如果d*=d5,二三行合并,否則二三四行合并,這樣得到一個新的明細行作為新明細行集合的第二行,執行步驟S43;如果d*>=t3,執行步驟S45;
S45,將第一行與第二行進行合并,將此合并后的結果作為新的明細行集合的第一行,這樣得到了一個新的明細行集合且flag設為1;然后再重新執行步驟S42;由于一個完整的明細最多囊括三個明細行,此時如果原始的明細行集合中的第一二三行已經進行了合并操作,此時就將此合并的結果作為一個完整的明細,假如原始明細行集合中還有剩余的明細行,再次執行步驟S43,不過此時只需計算一個編輯距離,由于只含有一個明細模板。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州派維斯信息科技有限公司,未經蘇州派維斯信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811267693.5/1.html,轉載請聲明來源鉆瓜專利網。





