[發明專利]小票消費明細內容融合及提取方法、設備以及存儲介質有效
| 申請號: | 201811267693.5 | 申請日: | 2018-10-29 |
| 公開(公告)號: | CN109460725B | 公開(公告)日: | 2019-10-01 |
| 發明(設計)人: | 李華康;張坤;金旭;孔令軍;方浪;管慧娟 | 申請(專利權)人: | 蘇州派維斯信息科技有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00 |
| 代理公司: | 蘇州市中南偉業知識產權代理事務所(普通合伙) 32257 | 代理人: | 郭磊;殷海霞 |
| 地址: | 215000 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 內容融合 標簽 文檔 索引 索引關鍵字 完整性判斷 屬性信息 文本文檔 信息抽取 傳統的 行合并 上傳 分類 客戶 網絡 學習 圖片 | ||
本發明公開了一種小票消費明細內容融合及提取方法。一種小票消費明細內容融合及提取方法,包括:獲取客戶上傳的小票圖片的文本文檔;利用深度學習網絡對小票文檔中的每一行文字進行分類,得到了每行帶有標簽的行標簽文檔;根據所述帶有標簽的行標簽文檔,獲取小票的明細區域;根據明細索引關鍵字找出明細索引行,對于含有或不含有明細索引行都要進行明細完整性判斷然后進行明細行合并;獲取小票中的各條消費明細屬性信息列表。本發明的有益效果:由于是專門針對小票設計,相對傳統的信息抽取方法效果好。
技術領域
本發明涉及涉及自然語言處理領域,具體涉及一種關于快銷小票消費明細內容融合及提取方法。
背景技術
信息抽取是屬于自然語言處理領域的一項重要內容,是指從非結構化的信息源中抽取出特定的信息,并將抽取到的信息結構化的形式進行保存。信息抽取一般包括以下幾個步驟:文本切分,句子切分,詞性標注,命名實體識別,關系識別。切分的方式一般會涉及到按段落切分,按句子切分,按詞語切分。而詞性標注就需要涉及到按詞語切分,就是所謂的分詞,分詞一般調用一些分詞工具就可以實現,分詞過后根據詞性對照表就可以實現詞性標注。命名實體識別指的是對一些專有名詞(主要人名,地名,結構名等命名實體)進行抽取,而我們處理的對象是快銷小票,主要抽取的內容是小票的消費明細。關系識別指的是在正確識別實體的基礎上,抽取到它們之間的關系。
傳統技術存在以下技術問題:
小票和普通的文本文檔不同,使用傳統的信息抽取方法可能會抽取效果不佳。
發明內容
本發明要解決的技術問題是提供一種小票消費明細內容融合及提取方法,相對傳統的信息抽取方法效果好。
為了解決上述技術問題,本發明提供了一種小票消費明細內容融合及提取方法,包括:
獲取客戶上傳的小票圖片的文本文檔;
利用深度學習網絡對小票文檔中的每一行文字進行分類,得到了每行帶有標簽的行標簽文檔;
根據所述帶有標簽的行標簽文檔,獲取小票的明細區域;
根據明細索引關鍵字找出明細索引行,對于含有或不含有明細索引行都要進行明細完整性判斷然后進行明細行合并;
獲取小票中的各條消費明細屬性信息列表。
在其中一個實施例中,“獲取客戶上傳的小票圖片的文本文檔;”中,利用 ocr識別獲取客戶上傳的小票圖片的文本文檔。
在其中一個實施例中,“利用深度學習網絡對小票文檔中的每一行文字進行分類,得到了每行帶有標簽的行標簽文檔;”中,使用深度學習網絡進行訓練得到了一個行概率模型,所述行概率模型集成LSTM模型,DNN深度神經網絡模型以及聯合概率模型。
在其中一個實施例中,“根據帶有標簽的行標簽文檔,獲取小票的明細區域;”具體包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州派維斯信息科技有限公司,未經蘇州派維斯信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811267693.5/2.html,轉載請聲明來源鉆瓜專利網。





