[發(fā)明專利]基于深度學(xué)習(xí)的文檔信息抽取方法及裝置在審
| 申請(qǐng)?zhí)枺?/td> | 202110266211.X | 申請(qǐng)日: | 2021-03-09 |
| 公開(公告)號(hào): | CN113065549A | 公開(公告)日: | 2021-07-02 |
| 發(fā)明(設(shè)計(jì))人: | 劉義江;李云超;姜琳琳;吳彥巧;姜敬;檀小亞;師孜晗;陳蕾;侯棟梁;池建昆;范輝;閻鵬飛;魏明磊;辛銳;陳曦;楊青;沈靜文 | 申請(qǐng)(專利權(quán))人: | 國(guó)網(wǎng)河北省電力有限公司;國(guó)網(wǎng)河北省電力有限公司雄安新區(qū)供電公司 |
| 主分類號(hào): | G06K9/32 | 分類號(hào): | G06K9/32;G06F40/30;G06N3/04 |
| 代理公司: | 石家莊新世紀(jì)專利商標(biāo)事務(wù)所有限公司 13100 | 代理人: | 呼春輝 |
| 地址: | 050022 *** | 國(guó)省代碼: | 河北;13 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 深度 學(xué)習(xí) 文檔 信息 抽取 方法 裝置 | ||
本發(fā)明公開了基于深度學(xué)習(xí)的文檔信息抽取方法及裝置,涉及文檔信息抽取技術(shù)領(lǐng)域;方法包括S1文本檢測(cè),處理器獲取共享特征向量X的文字區(qū)域特征向量;S2文本識(shí)別,獲取基于文字區(qū)域特征向量的注意力圖;S3視覺(jué)協(xié)作機(jī)制,根據(jù)共享特征向量X的文字區(qū)域特征向量獲取視覺(jué)特征并發(fā)送至信息抽取模塊;S4語(yǔ)義協(xié)作機(jī)制,根據(jù)基于共享特征向量X的注意力圖獲取語(yǔ)義特征并發(fā)送至信息抽取模塊;S5信息抽取,根據(jù)視覺(jué)特征和語(yǔ)義特征從共享特征向量X中抽取信息;裝置包括文本檢測(cè)模塊、文本識(shí)別模塊、視覺(jué)協(xié)作機(jī)制模塊、語(yǔ)義協(xié)作機(jī)制模塊和信息抽取模塊共五個(gè)程序模塊;其通過(guò)步驟S1至步驟S5等,實(shí)現(xiàn)了從文檔圖片中檢測(cè)識(shí)別和信息提取。
技術(shù)領(lǐng)域
本發(fā)明涉及文檔信息抽取技術(shù)領(lǐng)域,尤其涉及一種基于深度學(xué)習(xí)的文檔信息抽取方法及裝置。
背景技術(shù)
經(jīng)過(guò)文字識(shí)別技術(shù)不斷的發(fā)展,文字識(shí)別準(zhǔn)確率逐步提升,但是很少有考慮到文檔圖片到人類所需要獲取的信息之間的關(guān)系,文字識(shí)別技術(shù)僅僅是對(duì)一章圖片中文字機(jī)械性的翻譯,但是無(wú)法提取其中關(guān)系和抽取重要信息內(nèi)容。同時(shí)近年來(lái),可視信息抽取技術(shù)受到越發(fā)廣泛的關(guān)注。其在如文檔理解、信息檢索和智能教育等諸多時(shí)下熱門的任務(wù)場(chǎng)景中得到廣泛應(yīng)用。
現(xiàn)有的可視信息抽取方法主要分為兩個(gè)獨(dú)立的階段:
1)文本檢測(cè)與識(shí)別;
2)信息抽取。
前者用來(lái)得到圖片中所包含的全部文本的位置與內(nèi)容,而后者在前者提供的結(jié)果上,進(jìn)一步提取出特定類別的關(guān)鍵信息。然而,現(xiàn)存方法的局限性主要在于:
1)盡管文本檢測(cè)與識(shí)別模型已經(jīng)學(xué)習(xí)到有效的特征表示,但在信息抽取部分,這些特征被直接丟棄,而又從OCR結(jié)果中重新生成。這導(dǎo)致了計(jì)算資源的浪費(fèi),并且被丟棄的特征可能比重新學(xué)習(xí)到的更有效。
2)模塊間的獨(dú)立性導(dǎo)致他們的訓(xùn)練過(guò)程沒(méi)有交互,這一方面限制了信息抽取模塊所能獲得的有用信息量,另一方面也使得文本檢測(cè)與識(shí)別模塊無(wú)法根據(jù)最終目標(biāo)進(jìn)行自適應(yīng)的優(yōu)化。
現(xiàn)有技術(shù)問(wèn)題及思考:
如何解決從文檔圖片中檢測(cè)識(shí)別和信息提取的技術(shù)問(wèn)題。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問(wèn)題是提供一種基于深度學(xué)習(xí)的文檔信息抽取方法及裝置,其通過(guò)步驟S1至步驟S5等,實(shí)現(xiàn)了從文檔圖片中檢測(cè)識(shí)別和信息提取。
為解決上述技術(shù)問(wèn)題,本發(fā)明所采取的技術(shù)方案是:基于深度學(xué)習(xí)的文檔信息抽取方法包括如下步驟,S1文本檢測(cè),處理器獲取共享特征向量X的文字區(qū)域特征向量;S2文本識(shí)別,處理器獲取基于共享特征向量X的文字區(qū)域特征向量的注意力圖;S3視覺(jué)協(xié)作機(jī)制,處理器根據(jù)共享特征向量X的文字區(qū)域特征向量獲取視覺(jué)特征并發(fā)送至信息抽取模塊;S4語(yǔ)義協(xié)作機(jī)制,處理器根據(jù)基于共享特征向量X的注意力圖獲取語(yǔ)義特征并發(fā)送至信息抽取模塊;S5信息抽取,處理器根據(jù)視覺(jué)特征和語(yǔ)義特征從共享特征向量X中抽取信息。
進(jìn)一步的技術(shù)方案在于:步驟S1具體包括處理器獲取原始的文檔圖片,通過(guò)共享主干網(wǎng)絡(luò)從原始的文檔圖片的文字區(qū)域中提取并獲得共享特征向量X,共享主干網(wǎng)絡(luò)為卷積神經(jīng)網(wǎng)絡(luò),通過(guò)第一神經(jīng)網(wǎng)絡(luò)從共享特征向量X中獲取檢測(cè)框B、置信度C和掩碼M,第一神經(jīng)網(wǎng)絡(luò)為由殘差神經(jīng)網(wǎng)絡(luò)ResNet-50后接特征金字塔網(wǎng)絡(luò)FPN形成的基于掩碼的卷積循環(huán)神經(jīng)網(wǎng)絡(luò)Mask R-CNN,檢測(cè)框B為共享特征向量X上的文字區(qū)域邊框,通過(guò)檢測(cè)框B在共享特征向量X中剪裁并獲得共享特征向量X的文字區(qū)域特征向量。
進(jìn)一步的技術(shù)方案在于:步驟S2具體包括處理器將共享特征向量X的文字區(qū)域特征向量通過(guò)第二神經(jīng)網(wǎng)絡(luò)編碼和第三神經(jīng)網(wǎng)絡(luò)解碼,從而獲得注意力圖,第二神經(jīng)網(wǎng)絡(luò)為卷積神經(jīng)網(wǎng)絡(luò)ResNet-18,第三神經(jīng)網(wǎng)絡(luò)為循環(huán)神經(jīng)網(wǎng)絡(luò)LSTM,注意力圖為一維注意力圖即識(shí)別結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國(guó)網(wǎng)河北省電力有限公司;國(guó)網(wǎng)河北省電力有限公司雄安新區(qū)供電公司,未經(jīng)國(guó)網(wǎng)河北省電力有限公司;國(guó)網(wǎng)河北省電力有限公司雄安新區(qū)供電公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110266211.X/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)
- 一種電子文檔識(shí)別方法及裝置
- 文檔匹配方法和文檔匹配裝置
- 復(fù)雜文檔分離組織方法以及復(fù)雜文檔自動(dòng)生成方法
- 一種文檔流程控制方法及裝置
- 云文檔加密及解密方法、加密及解密裝置、以及處理系統(tǒng)
- 一種將Markdown文檔轉(zhuǎn)換為PDF文檔的方法、裝置
- 文檔類型識(shí)別方法、裝置、設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 基于文檔編輯軟件的文檔處理方法、裝置、設(shè)備及介質(zhì)
- 一種引用文檔的更新方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 文檔操作錄制方法、文檔操作動(dòng)畫生成方法、裝置及設(shè)備





