[發(fā)明專利]一種基于圖神經(jīng)網(wǎng)絡(luò)的多模態(tài)文檔信息抽取方法在審

申請(qǐng)?zhí)枺?/td>	202210056911.0	申請(qǐng)日：	2022-01-18
公開（公告）號(hào)：	CN114419304A	公開（公告）日：	2022-04-29
發(fā)明（設(shè)計(jì)）人：	羅偉杰;陳永紅;謝翀	申請(qǐng)（專利權(quán)）人：	深圳前海環(huán)融聯(lián)易信息科技服務(wù)有限公司
主分類號(hào)：	G06V10/22	分類號(hào)：	G06V10/22;G06V10/25;G06V10/44;G06V10/82;G06N3/04;G06N3/08
代理公司：	深圳市中科創(chuàng)為專利代理有限公司 44384	代理人：	譚雪婷;彭濤
地址：	518000 廣東省深圳市前海深港合作區(qū)前***	國省代碼：	廣東;44
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種基于神經(jīng)網(wǎng)絡(luò) 多模態(tài) 文檔信息抽取方法
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種基于圖神經(jīng)網(wǎng)絡(luò)的多模態(tài)文檔信息抽取方法，其特征在于，包括如下步驟：

步驟S1：光學(xué)字符識(shí)別OCR：對(duì)圖片中的文字進(jìn)行識(shí)別，并轉(zhuǎn)化成文本格式輸出文本塊，同時(shí)輸出文本塊的位置坐標(biāo)；

步驟S2：預(yù)編碼：對(duì)光學(xué)字符識(shí)別OCR輸出的文本塊進(jìn)行特征提取，包括文本、視覺、布局三種模態(tài)特征，并進(jìn)行模態(tài)間的特征融合，輸出圖節(jié)點(diǎn)特征；

步驟S3：圖構(gòu)建：將所述文本塊內(nèi)容進(jìn)行抽象化，輸出初始圖G＝(V,E,A)：其中，V代表圖節(jié)點(diǎn)，E代表節(jié)點(diǎn)間的邊，A代表圖的鄰接矩陣；

步驟S4：圖劃分：通過將圖節(jié)點(diǎn)分配到不同的簇來實(shí)現(xiàn)對(duì)步驟S3中的初始圖進(jìn)行劃分，并對(duì)圖節(jié)點(diǎn)的分配矩陣進(jìn)行迭代更新，通過迭代多次分配實(shí)現(xiàn)圖的分塊；

步驟S5：圖深度編碼：根據(jù)步驟S4中各個(gè)階段的分配矩陣和簇表示對(duì)圖節(jié)點(diǎn)的最終表示進(jìn)行更新；

步驟S6：信息抽取：對(duì)步驟S5中的圖節(jié)點(diǎn)進(jìn)行節(jié)點(diǎn)分類和鏈路預(yù)測，輸出最終結(jié)果。

2.根據(jù)權(quán)利要求1所述的基于圖神經(jīng)網(wǎng)絡(luò)的多模態(tài)文檔信息抽取方法，其特征在于：在所述步驟S1中，對(duì)圖片中的文字進(jìn)行識(shí)別包括文本檢測和文字識(shí)別，通過文本檢測和文字識(shí)別輸出所述文本塊和文本塊的位置坐標(biāo)，其中，文本檢測使用了輕量級(jí)DBNet作為骨干網(wǎng)絡(luò)；文字識(shí)別使用CRNN來進(jìn)行行文本識(shí)別，并采用CenterLoss來提升識(shí)別效果。

3.根據(jù)權(quán)利要求1所述的基于圖神經(jīng)網(wǎng)絡(luò)的多模態(tài)文檔信息抽取方法，其特征在于：在所述步驟S2中，使用RoBERTa提取文本特征，使用ResNet作為骨干網(wǎng)絡(luò)，根據(jù)文本塊的位置坐標(biāo)并通過RoIAlign獲得對(duì)應(yīng)文本塊范圍內(nèi)的視覺特征；并且，根據(jù)文本塊的位置坐標(biāo)、大小生成初始布局特征；最后，對(duì)提取的文本特征、視覺特征、布局特征三種模態(tài)特征，利用Block機(jī)制進(jìn)行特征融合，輸出圖節(jié)點(diǎn)特征。

4.根據(jù)權(quán)利要求1所述的基于圖神經(jīng)網(wǎng)絡(luò)的多模態(tài)文檔信息抽取方法，其特征在于：在所述步驟S3中，E代表節(jié)點(diǎn)間的邊，是由各文本塊間的空間關(guān)系以及語義相似度定義，邊的特征通過計(jì)算文本塊之間的相對(duì)位置關(guān)系，以及包含兩者的視覺范圍特征得出；A代表圖的鄰接矩陣，通過得到的邊特征，利用多頭自注意力機(jī)制進(jìn)行計(jì)算。

5.根據(jù)權(quán)利要求1所述的基于圖神經(jīng)網(wǎng)絡(luò)的多模態(tài)文檔信息抽取方法，其特征在于：在所述步驟S4中，通過將圖節(jié)點(diǎn)分配到不同的簇來實(shí)現(xiàn)圖劃分具體包括：假設(shè)當(dāng)前圖節(jié)點(diǎn)個(gè)數(shù)為N，首先預(yù)定義衰減因子c確定下一層簇的個(gè)數(shù)N*c，利用第一圖卷積網(wǎng)絡(luò)進(jìn)行信息交互和圖節(jié)點(diǎn)分配矩陣學(xué)習(xí)N x N*c，分配完成后輸入到另外的第二圖卷積網(wǎng)絡(luò)進(jìn)行簇之間的信息交互，圖的鄰接矩陣維度由N x N變?yōu)镹*c x N*c；通過迭代多次分配實(shí)現(xiàn)圖的分塊。

6.根據(jù)權(quán)利要求1所述的基于圖神經(jīng)網(wǎng)絡(luò)的多模態(tài)文檔信息抽取方法，其特征在于：在所述步驟S5中，對(duì)圖節(jié)點(diǎn)的最終表示進(jìn)行更新包括：在相同簇內(nèi)的圖節(jié)點(diǎn)按照“從左到右，從上到下”的原則進(jìn)行橫向位置排序編碼；對(duì)圖節(jié)點(diǎn)的依次分配結(jié)果進(jìn)行縱向位置編碼，同時(shí)將層次化分塊信息和局部閱讀順序融入到圖節(jié)點(diǎn)表示中。

7.根據(jù)權(quán)利要求1所述的基于圖神經(jīng)網(wǎng)絡(luò)的多模態(tài)文檔信息抽取方法，其特征在于：在所述步驟S6中，所述鏈路預(yù)測是通過拼接兩個(gè)候選圖節(jié)點(diǎn)的表示作為輸入，最后通過一個(gè)分類器計(jì)算兩者之間邊的概率。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳前海環(huán)融聯(lián)易信息科技服務(wù)有限公司，未經(jīng)深圳前海環(huán)融聯(lián)易信息科技服務(wù)有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202210056911.0/1.html，轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。

上一篇：鏡頭
下一篇：一種連鑄小方坯鋼坯的跟蹤監(jiān)視控制方法

同類專利

專利分類

G 物理

G06 計(jì)算；推算；計(jì)數(shù)

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識(shí)產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】