[發(fā)明專利]一種文檔實(shí)體抽取方法、系統(tǒng)及計(jì)算機(jī)存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202210902548.X | 申請(qǐng)日: | 2022-07-29 |
| 公開(kāi)(公告)號(hào): | CN114973265A | 公開(kāi)(公告)日: | 2022-08-30 |
| 發(fā)明(設(shè)計(jì))人: | 馬永亮;秦晉;周明 | 申請(qǐng)(專利權(quán))人: | 北京瀾舟科技有限公司 |
| 主分類號(hào): | G06V30/148 | 分類號(hào): | G06V30/148;G06V30/418;G06F40/295 |
| 代理公司: | 深圳市智享知識(shí)產(chǎn)權(quán)代理有限公司 44361 | 代理人: | 馮彬彬 |
| 地址: | 100000 北京市海淀*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文檔 實(shí)體 抽取 方法 系統(tǒng) 計(jì)算機(jī) 存儲(chǔ) 介質(zhì) | ||
本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,特別涉及一種文檔實(shí)體抽取方法、系統(tǒng)及計(jì)算機(jī)存儲(chǔ)介質(zhì),包括以下步驟:獲取文檔,對(duì)文檔進(jìn)行預(yù)處理得到文檔中的文本、文本位置和文檔圖片;獲取預(yù)設(shè)問(wèn)題,所述預(yù)設(shè)問(wèn)題對(duì)應(yīng)至少一個(gè)未知實(shí)體,對(duì)文本、文本位置和文檔圖片進(jìn)行向量化編碼并拼接得到文本表示矩陣,并基于文本表示矩陣獲得至少一對(duì)對(duì)應(yīng)于預(yù)設(shè)問(wèn)題中未知實(shí)體的開(kāi)始位置和結(jié)束位置的組合;判斷每對(duì)組合中的開(kāi)始位置和結(jié)束位置是否匹配,若是,抽取該開(kāi)始位置和結(jié)束位置之間的文本作為對(duì)應(yīng)未知實(shí)體的實(shí)體抽取結(jié)果。通過(guò)利用文本、布局和圖像等各個(gè)特征的信息,來(lái)減少一些特征對(duì)實(shí)體抽取結(jié)果的錯(cuò)誤影響,提高實(shí)體抽取的準(zhǔn)確度。
技術(shù)領(lǐng)域
本發(fā)明涉及文檔解析領(lǐng)域,其特別涉及一種文檔實(shí)體方法、系統(tǒng)及計(jì)算機(jī)存儲(chǔ)介質(zhì)。
背景技術(shù)
目前針對(duì)文檔解析技術(shù)有基于啟發(fā)式規(guī)則的,也有基于深度學(xué)習(xí)的方法,其中基于啟發(fā)式規(guī)則的方法需要大量的人工參與,基于經(jīng)驗(yàn)總結(jié)規(guī)則,而通常得到的規(guī)則并沒(méi)有很好的泛化性,這通常導(dǎo)致當(dāng)換一個(gè)領(lǐng)域的文檔,總結(jié)的規(guī)則往往就失效了;而目前其他基于深度學(xué)習(xí)的方法,大都是基于單一模態(tài)深度學(xué)習(xí)網(wǎng)絡(luò)模型,或者進(jìn)行多模態(tài)的簡(jiǎn)單組合,它們通常依賴于人工標(biāo)記的訓(xùn)練樣本,而不能充分利用大規(guī)模未標(biāo)記樣本進(jìn)行訓(xùn)練,或者依賴預(yù)訓(xùn)練的圖像模型或自然語(yǔ)言模型,并不考慮文本、布局和圖像信息的聯(lián)合訓(xùn)練,以及不同模態(tài)的作用強(qiáng)度,同時(shí)針對(duì)單個(gè)文本對(duì)應(yīng)多個(gè)實(shí)體的情況,現(xiàn)有方法不能很好的解決。
發(fā)明內(nèi)容
為了解決實(shí)體抽取不精準(zhǔn)的問(wèn)題,本發(fā)明提供一種文檔實(shí)體抽取方法、系統(tǒng)及計(jì)算機(jī)存儲(chǔ)介質(zhì)。
本發(fā)明為解決上述技術(shù)問(wèn)題,提供如下的技術(shù)方案:一種文檔實(shí)體抽取方法,包括以下步驟:
獲取文檔,對(duì)文檔進(jìn)行預(yù)處理得到文檔中的文本、文本位置和文檔圖片;
獲取預(yù)設(shè)問(wèn)題,所述預(yù)設(shè)問(wèn)題對(duì)應(yīng)至少一個(gè)未知實(shí)體,對(duì)文本、文本位置和文檔圖片進(jìn)行向量化編碼并拼接得到文本表示矩陣,并基于文本表示矩陣獲得至少一對(duì)對(duì)應(yīng)于預(yù)設(shè)問(wèn)題中未知實(shí)體的開(kāi)始位置和結(jié)束位置的組合;
判斷每對(duì)組合中的開(kāi)始位置和結(jié)束位置是否匹配,若是,抽取該開(kāi)始位置和結(jié)束位置之間的文本作為對(duì)應(yīng)未知實(shí)體的實(shí)體抽取結(jié)果。
優(yōu)選地,利用pdf解析工具和/或OCR技術(shù)對(duì)文檔進(jìn)行預(yù)處理。
優(yōu)選地,對(duì)文本、文本位置和文檔圖片進(jìn)行向量化編碼并拼接得到文本表示矩陣,并基于文本表示矩陣獲得至少一對(duì)對(duì)應(yīng)于預(yù)設(shè)問(wèn)題中未知實(shí)體的開(kāi)始位置和結(jié)束位置的組合包括以下步驟:
基于多模態(tài)預(yù)訓(xùn)練模型,分別對(duì)文本、文本位置和文檔圖片進(jìn)行特征向量化編碼獲得文本向量、布局向量以及視覺(jué)向量,按照預(yù)設(shè)規(guī)則進(jìn)行拼接得到N*D維的文本表示矩陣,其中N表示文本token的數(shù)量,D表示每一個(gè)文本token的維度;
基于文本表示矩陣,判斷每個(gè)文本token是否是對(duì)應(yīng)于預(yù)設(shè)問(wèn)題中未知實(shí)體的開(kāi)始位置或結(jié)束位置,得到至少一個(gè)備選的開(kāi)始位置和至少一個(gè)備選的結(jié)束位置;
對(duì)上述判斷得到的備選的開(kāi)始位置和結(jié)束位置進(jìn)行兩兩組合。
優(yōu)選地,基于多模態(tài)預(yù)訓(xùn)練模型,分別對(duì)文本、文本位置和文檔圖片進(jìn)行特征向量化編碼獲得文本向量、布局向量以及視覺(jué)向量包括以下具體步驟:
對(duì)應(yīng)文本采用WordPiece得到文本token,并對(duì)應(yīng)各文本token生成文本向量;
基于使用ResNet-FPN作為視覺(jué)編碼器的主干網(wǎng)絡(luò),將文檔圖片縮放到預(yù)定大小并由主干網(wǎng)絡(luò)通過(guò)平均池化轉(zhuǎn)化為固定尺寸,之后展平獲得視覺(jué)向量;
布局向量采用視覺(jué)的邊界框進(jìn)行表示,將文本位置以坐標(biāo)形式表示并縮放到0-1000之間,使用兩個(gè)向量層去編碼x軸和y軸的位置特征,基于標(biāo)準(zhǔn)化的第i個(gè)文本/視覺(jué)標(biāo)記的邊界框布局向量層把邊界框特征拼接起來(lái)構(gòu)成布局向量。
優(yōu)選地,按照預(yù)設(shè)規(guī)則進(jìn)行拼接是先將文本向量、布局向量在維度為1的方向進(jìn)行拼接,再將視覺(jué)向量與拼接后的文本向量和布局向量在維度為0的方向進(jìn)行拼接。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京瀾舟科技有限公司,未經(jīng)北京瀾舟科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210902548.X/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種電子文檔識(shí)別方法及裝置
- 文檔匹配方法和文檔匹配裝置
- 復(fù)雜文檔分離組織方法以及復(fù)雜文檔自動(dòng)生成方法
- 一種文檔流程控制方法及裝置
- 云文檔加密及解密方法、加密及解密裝置、以及處理系統(tǒng)
- 一種將Markdown文檔轉(zhuǎn)換為PDF文檔的方法、裝置
- 文檔類型識(shí)別方法、裝置、設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 基于文檔編輯軟件的文檔處理方法、裝置、設(shè)備及介質(zhì)
- 一種引用文檔的更新方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 文檔操作錄制方法、文檔操作動(dòng)畫(huà)生成方法、裝置及設(shè)備
- 網(wǎng)絡(luò)實(shí)體監(jiān)控方法及裝置
- 一種實(shí)體鏈接方法及裝置
- 一種基于深度學(xué)習(xí)的實(shí)體鏈接方法
- 實(shí)體發(fā)現(xiàn)方法及裝置
- 一種數(shù)據(jù)處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種實(shí)體關(guān)系識(shí)別方法、裝置及設(shè)備
- 尾實(shí)體鏈接方法、裝置、服務(wù)器及存儲(chǔ)介質(zhì)
- 基于實(shí)體對(duì)齊的屬性融合方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種實(shí)體召回方法及相關(guān)裝置
- 實(shí)體表征模型的訓(xùn)練和表征方法、電子設(shè)備和存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





