[發明專利]基于圖注意力模型的文檔內容理解方法及系統在審
| 申請號: | 202010519571.1 | 申請日: | 2020-06-09 |
| 公開(公告)號: | CN111767732A | 公開(公告)日: | 2020-10-13 |
| 發明(設計)人: | 華遠;黃征;周異;陳凱 | 申請(專利權)人: | 上海交通大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/279;G06K9/00 |
| 代理公司: | 上海段和段律師事務所 31334 | 代理人: | 李佳俊;郭國中 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 注意力 模型 文檔 內容 理解 方法 系統 | ||
本發明提供了一種基于圖注意力模型的文檔內容理解方法及系統,包括:文檔建圖模塊:對文檔中出現的文本單詞按照關聯性建立邊,從而生成對應文檔內容的圖網絡,建立文檔的二維空間信息;文檔文字特征提取模塊:使用自然語言處理領域的模型提取得到文檔中的文字的向量表示,記為文字特征信息;文檔圖片特征提取模塊:使用計算機視覺領域的模型提取得到文檔中文字的圖像信息表示,記為圖片特征信息;圖注意力模型:對文檔的文字特征和圖片特征進行特征融合,并且根據建立的文檔的二維空間信息對相鄰的節點之間的信息進行交換和傳遞。本發明利用圖神經網路對得到的圖結構信息進行學習訓練,從而可以顯性并有效的利用文檔的二維空間信息。
技術領域
本發明涉及文檔識別技術領域,具體地,涉及基于圖注意力模型的文檔內容理解方法和系統。
背景技術
流程自動化利用AI技術幫助人們從繁雜的電子文檔處理任務中解放出來,其中最關鍵就是自動文檔分析與識別技術。面對大量無標注電子文檔,例如采購收據,保險單文件,海關申報單等,如果完全由人工處理解析會耗費大量的人力物力,如何有效的使用人工智能從文檔中提取獲得有效信息就顯得非常重要。現有的文檔內容理解的方法有很多種,包括傳統的基于字符串匹配的規則方法和基于命名實體識別的方法。
基于字符串匹配的規則方法通常需要設計一套正則表達式,通過正則匹配的方式去獲得其需要得到的信息,例如文檔中的地點名稱,聯系方式等信息。這種方案本質上是一種人工設計特征匹配的方式,在一些簡單的任務上可能有效,一旦任務變得復雜需要識別和獲取的信息增多,這種方案的設計難度就會驟增。
基于命名實體識別方法將文檔內容理解轉化為序列標注問題。所謂命名實體識別(Named Entity Recognition,簡稱NER),又稱作“專名識別”,是指識別文本中具有特定意義的實體,主要包括人名、地名、機構名、專有名詞等。對于文檔內容,基于命名實體識別的方法會將文檔內容串聯成一段序列,并通過深度學習的方式去對這個序列進行序列標注。通常序列標注可以采用BIO的格式進行標注,即將每個元素標注為“B-X”、“I-X”或者“O”。其中,“B-X”表示此元素所在的片段屬于X類型并且此元素在此片段的開頭,“I-X”表示此元素所在的片段屬于X類型并且此元素在此片段的中間位置,“O”表示不屬于任何類型。經典的命名實體識別網絡Bi-LSTM-CRF架構采用雙向的長短期記憶人工神經網絡(Long Short-Term Memory,簡稱LSTM)取代傳統的RNN模型提取文檔中不同內容之前的語義信息,之后使用CRF網絡來獲得實體的標簽信息。
本文提出了基于圖注意力模型文檔內容理解方法,區別于傳統的命名實體識別任務,本方案將文檔內容理解任務看作是基于圖的節點分類任務,彌補了傳統序列標注任務對二維空間信息利用缺失的問題。另外本方案設計了一套獨有的建圖算法,區別于一般的建圖方案,加入了全局節點作為全局信息的存儲器,讓圖中的局部節點能夠獲得全局的信息。
基于字符串匹配的算法優勢于不要大量的訓練數據,缺點也非常明顯,就是能夠提取的信息必須具有很強的字符特征,并且需要完全符合預先設計的規則,否則就沒有辦法進行獲取。因此采用字符串匹配的規則方案在泛化性和適用性上都有顯著的弊端和缺陷。
現有方法、難點及缺陷如下:
基于命名實體識別的方案優勢在于通過神經網絡的學習可以有效的提升模型的泛化能力,并且隨著近年來自然語言處理領域的飛速的發展,基于預訓練模型的命名實體識別模型的準確率得到很大提高。但是基于命名實體識別的模型具有以下兩大缺陷:
(1)命名實體識別本質上依然是序列標注任務,將文檔內容串聯成序列丟失了大量空間信息。文檔內容和傳統的序列有一個天然的區別在于文檔是二維空間,而文字序列是一維空間,如果將文檔內容理解任務理解為命名實體識別任務的來處理,那么文檔的二維空間信息就沒有得到充分的利用。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海交通大學,未經上海交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010519571.1/2.html,轉載請聲明來源鉆瓜專利網。





