[發明專利]基于圖注意力模型的文檔內容理解方法及系統在審
| 申請號: | 202010519571.1 | 申請日: | 2020-06-09 |
| 公開(公告)號: | CN111767732A | 公開(公告)日: | 2020-10-13 |
| 發明(設計)人: | 華遠;黃征;周異;陳凱 | 申請(專利權)人: | 上海交通大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/279;G06K9/00 |
| 代理公司: | 上海段和段律師事務所 31334 | 代理人: | 李佳俊;郭國中 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 注意力 模型 文檔 內容 理解 方法 系統 | ||
1.一種基于圖注意力模型的文檔內容理解系統,其特征在于,包括:
文檔建圖模塊:對文檔中出現的文本單詞按照關聯性建立邊,從而生成對應文檔內容的圖網絡,建立文檔的二維空間信息;
文檔文字特征提取模塊:使用自然語言處理領域的模型提取得到文檔中的文字的向量表示,記為文字特征信息;
文檔圖片特征提取模塊:使用計算機視覺領域的模型提取得到文檔中文字的圖像信息表示,記為圖片特征信息;
圖注意力模型:對文檔的文字特征和圖片特征進行特征融合,并且根據建立的文檔的二維空間信息對相鄰的節點之間的信息進行交換和傳遞。
2.根據權利要求1所述的基于圖注意力模型的文檔內容理解系統,其特征在于,所述文檔建圖模塊:
對電子文檔的內容按照行序列,對每個單詞的當前行、上一行以及下一行的所有單詞建立連接,在文檔中物理位置小于預設距離的單詞就有了單跳連接,物理位置大于預設距離的單詞就需要多跳連接,有效的去除冗余信息對最后信息抽取的影響;
為了得到每個單詞相對于整個文檔的空間位置信息,對文檔中的每個單詞,都將其和全局節點建立連接,文檔中的所有單詞,也就是圖中的所有節點每次都會和全局節點進行信息交換,得到其相對于整個空間的相對位置信息,獲得文檔的二維空間信息。
3.根據權利要求1所述的基于圖注意力模型的文檔內容理解系統,其特征在于,所述文檔文字特征提取模塊:
對文檔中的文字信息使用Bert模型提取得到對應的文字特征信息。
4.根據權利要求1所述的基于圖注意力模型的文檔內容理解系統,其特征在于,所述文檔圖片特征提取模塊:
對文檔中的圖片信息使用ResNet模型提取對應文字的圖片特征信息。
5.根據權利要求1所述的基于圖注意力模型的文檔內容理解系統,其特征在于,所述圖注意力模型:
通過注意力機制對圖中的各個節點的信息進行注意力計算和信息的交換傳遞。
6.一種基于圖注意力模型的文檔內容理解方法,其特征在于,包括:
文檔建圖步驟:對文檔中出現的文本單詞按照關聯性建立邊,從而生成對應文檔內容的圖網絡,建立文檔的二維空間信息;
文檔文字特征提取步驟:使用自然語言處理領域的模型提取得到文檔中的文字的向量表示,記為文字特征信息;
文檔圖片特征提取步驟:使用計算機視覺領域的模型提取得到文檔中文字的圖像信息表示,記為圖片特征信息;
信息交換及傳遞步驟:對文檔的文字特征和圖片特征進行特征融合,并且根據建立的文檔的二維空間信息對相鄰的節點之間的信息進行交換和傳遞。
7.根據權利要求6所述的基于圖注意力模型的文檔內容理解方法,其特征在于,所述文檔建圖步驟:
對電子文檔的內容按照行序列,對每個單詞的當前行、上一行以及下一行的所有單詞建立連接,在文檔中物理位置小于預設距離的單詞就有了單跳連接,物理位置大于預設距離的單詞就需要多跳連接,有效的去除冗余信息對最后信息抽取的影響;
為了得到每個單詞相對于整個文檔的空間位置信息,對文檔中的每個單詞,都將其和全局節點建立連接,文檔中的所有單詞,也就是圖中的所有節點每次都會和全局節點進行信息交換,得到其相對于整個空間的相對位置信息,獲得文檔的二維空間信息。
8.根據權利要求6所述的基于圖注意力模型的文檔內容理解方法,其特征在于,所述文檔文字特征提取步驟:
對文檔中的文字信息使用Bert模型提取得到對應的文字特征信息。
9.根據權利要求6所述的基于圖注意力模型的文檔內容理解方法,其特征在于,所述文檔圖片特征提取步驟:
對文檔中的圖片信息使用ResNet模型提取對應文字的圖片特征信息。
10.根據權利要求6所述的基于圖注意力模型的文檔內容理解方法,其特征在于,所述信息交換及傳遞步驟:
通過注意力機制對圖中的各個節點的信息進行注意力計算和信息的交換傳遞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海交通大學,未經上海交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010519571.1/1.html,轉載請聲明來源鉆瓜專利網。





