[發(fā)明專利]單據(jù)要素抽取方法、裝置、設(shè)備及存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 201911415309.6 | 申請日: | 2019-12-31 |
| 公開(公告)號: | CN111144370B | 公開(公告)日: | 2023-08-04 |
| 發(fā)明(設(shè)計)人: | 杜倩云;吳培浩;吳啟超 | 申請(專利權(quán))人: | 科大訊飛華南人工智能研究院(廣州)有限公司 |
| 主分類號: | G06V30/41 | 分類號: | G06V30/41;G06V30/42;G06V30/18;G06V30/26;G06V10/82;G06N3/0442;G06N3/082;G06N3/042;G06N3/0464 |
| 代理公司: | 北京路浩知識產(chǎn)權(quán)代理有限公司 11002 | 代理人: | 呂偉盼 |
| 地址: | 511458 廣東省廣州市南沙區(qū)豐澤*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 單據(jù) 要素 抽取 方法 裝置 設(shè)備 存儲 介質(zhì) | ||
本發(fā)明實施例涉及圖像識別技術(shù)領(lǐng)域,提供了一種單據(jù)要素抽取方法、裝置、設(shè)備及存儲介質(zhì)。該單據(jù)要素抽取方法包括:獲取單據(jù)圖片的文本片段和文本片段對應(yīng)的位置信息,根據(jù)位置信息確定文本片段的圖像側(cè)特征向量;將圖像側(cè)特征向量、文本片段的詞嵌入向量及文本片段的圖嵌入向量進(jìn)行拼接,獲取連續(xù)的文本序列;對所述連續(xù)的文本序列進(jìn)行重排序,獲取符合閱讀順序的文本序列。本發(fā)明實施例提供的單據(jù)要素抽取方法、裝置、設(shè)備及存儲介質(zhì),可以有效補(bǔ)充單據(jù)圖片識別中損失的文本信息,提高要素抽取的完整性。
技術(shù)領(lǐng)域
本發(fā)明涉及圖像識別技術(shù)領(lǐng)域,尤其涉及一種單據(jù)要素抽取方法、裝置、設(shè)備及存儲介質(zhì)。
背景技術(shù)
單據(jù)可以為制式單據(jù)或非制式單據(jù),其中,非制式單據(jù)指的是沒有明確格式的非結(jié)構(gòu)化單據(jù)。在實際應(yīng)用中,來自不同地區(qū)不同機(jī)構(gòu)的單據(jù)格式往往高度個性化,各式各樣,而且時常是以圖片的形式存在,當(dāng)需要人工審核時需要耗費(fèi)較高的時間和精力。因此,如何自動從單據(jù)中提取預(yù)定義的要素信息是信息結(jié)構(gòu)化表示和信息智能處理的必要步驟和核心技術(shù)。
現(xiàn)有的單據(jù)要素抽取方法主要是對單據(jù)圖片進(jìn)行光學(xué)字符識別(OpticalCharacter?Recognition,簡稱OCR),然后將識別結(jié)果按照從上到下從左到右的順序進(jìn)行拼接,將拼接結(jié)果作為要素抽取結(jié)果,但是這種方法通常無法獲取完整的要素抽取結(jié)果并且要素值容易被切斷。
發(fā)明內(nèi)容
本發(fā)明實施例的目的是提供一種單據(jù)要素抽取方法、裝置、設(shè)備及存儲介質(zhì),用以解決傳統(tǒng)單據(jù)要素抽取方法無法獲取完整的要素抽取結(jié)果且要素值容易被切斷的問題。
第一方面,本發(fā)明實施例提供單據(jù)要素抽取方法,包括:
獲取單據(jù)圖片的文本片段和所述文本片段對應(yīng)的位置信息,根據(jù)所述位置信息確定所述文本片段的圖像側(cè)特征向量;
將所述圖像側(cè)特征向量、所述文本片段的詞嵌入向量及所述文本片段的圖嵌入向量進(jìn)行拼接,獲取連續(xù)的文本序列;
對所述連續(xù)的文本序列進(jìn)行重排序,獲取符合閱讀順序的文本序列。
優(yōu)選地,所述根據(jù)所述位置信息確定所述文本片段的圖像側(cè)特征向量,具體包括:
獲取單據(jù)圖片的特征圖,根據(jù)所述位置信息確定所述文本片段在所述特征圖上對應(yīng)區(qū)域的信息特征;
對所述信息特征進(jìn)行池化處理,確定用于表征所述文本片段的圖像信息的圖像側(cè)特征向量。
優(yōu)選地,所述將所述圖像側(cè)特征向量、所述文本片段的詞嵌入向量及所述文本片段的圖嵌入向量進(jìn)行拼接,具體包括:
若所述文本片段包括多個單詞,則對每一所述單詞拼接相同的圖像側(cè)特征向量和圖嵌入向量。
優(yōu)選地,所述對所述連續(xù)的文本序列進(jìn)行重排序,獲取符合閱讀順序的文本序列,具體包括:
通過重排序模型,對所述連續(xù)的文本序列進(jìn)行重排序,獲取符合閱讀順序的文本序列。
優(yōu)選地,所述重排序模型包括BiLSTM層、自注意力層和指針網(wǎng)絡(luò)層;對應(yīng)的,所述通過重排序模型,對所述連續(xù)的文本序列進(jìn)行重排序,獲取符合閱讀順序的文本序列,具體包括:
將連續(xù)的文本序列輸入所述BiLSTM層,確定所述文本片段的上下文特征;
將所述上下文特征輸入所述自注意力層,確定各單詞的權(quán)重;
將所述上下文特征及所述各單詞的權(quán)重輸入所述指針網(wǎng)絡(luò)層,由所述指針網(wǎng)絡(luò)層輸出所述符合閱讀順序的文本序列。
優(yōu)選地,所述對所述連續(xù)的文本序列進(jìn)行重排序,還包括:在所述重排序模型的訓(xùn)練過程中,使用交叉熵?fù)p失函數(shù)進(jìn)行訓(xùn)練。
優(yōu)選地,所述獲取單據(jù)圖片的文本片段和所述文本片段對應(yīng)的位置信息具體包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于科大訊飛華南人工智能研究院(廣州)有限公司,未經(jīng)科大訊飛華南人工智能研究院(廣州)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911415309.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種業(yè)務(wù)單據(jù)的核銷方法及系統(tǒng)
- 應(yīng)收款發(fā)票核銷方法和裝置
- 單據(jù)編碼生成的方法和裝置
- 一種單據(jù)模板的管理方法、調(diào)用單據(jù)的方法及相關(guān)裝置
- 一種整合單據(jù)的方法及裝置
- 一種待簽單據(jù)的工作流定義、制作和審批方法
- 供需單據(jù)的調(diào)整方法、裝置、計算機(jī)設(shè)備和存儲介質(zhì)
- 金融單據(jù)和業(yè)務(wù)單據(jù)的掛接方法及終端設(shè)備
- 一種單據(jù)生成方法、信息管理系統(tǒng)及存儲介質(zhì)
- 單據(jù)作業(yè)流程的管理方法、裝置、計算機(jī)設(shè)備和存儲介質(zhì)
- 點(diǎn)焊接部的解析方法、點(diǎn)焊接部的解析程序、記錄介質(zhì)及點(diǎn)焊接部的解析裝置
- 一種電子地圖中的線要素合并方法及裝置
- 一種站場完整性管理數(shù)據(jù)模型建立方法及系統(tǒng)
- 生產(chǎn)系統(tǒng)模擬裝置以及生產(chǎn)系統(tǒng)模擬方法
- 體系構(gòu)建方法和裝置
- 轉(zhuǎn)運(yùn)珠套件(玖運(yùn)—K金心想事成—星座)
- 轉(zhuǎn)運(yùn)珠套件(時至運(yùn)來—五行生肖之生肖)
- 一種警情要素提取系統(tǒng)及其提取方法
- 數(shù)據(jù)校驗方法、裝置和電子設(shè)備
- 一種要素內(nèi)容獲取方法、裝置、設(shè)備及存儲介質(zhì)





