[發(fā)明專利]文檔數(shù)字化中的語義規(guī)范化有效
| 申請?zhí)枺?/td> | 201880069289.9 | 申請日: | 2018-11-30 |
| 公開(公告)號: | CN111263943B | 公開(公告)日: | 2023-10-10 |
| 發(fā)明(設(shè)計)人: | K·諾思羅普;C·特里姆;T·希克凱;A·阿德尼蘭;K·諾思羅普 | 申請(專利權(quán))人: | 國際商業(yè)機器公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30 |
| 代理公司: | 北京市金杜律師事務(wù)所 11256 | 代理人: | 酆迅;姚杰 |
| 地址: | 美國紐*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文檔 數(shù)字化 中的 語義 規(guī)范化 | ||
一種用于規(guī)范化文檔圖像中的鍵的方法,包括:基于候選鍵在語義上與鍵可互換,識別與文檔圖像中的對象相對應(yīng)的候選鍵為鍵本體數(shù)據(jù)中的鍵。文檔圖像的每個對象的上下文、位置和樣式在文檔元數(shù)據(jù)中表示。將候選鍵規(guī)范化為規(guī)范化形式。確定對應(yīng)于規(guī)范化形式的鍵類,并且評估指示該鍵類代表候選鍵的可能性的置信度分數(shù)。在驗證時用鍵類更新語義數(shù)據(jù)庫,以增強對未來文檔的處理。
技術(shù)領(lǐng)域
本公開涉及文檔數(shù)字化技術(shù),并且更具體地涉及用于對文檔圖像中出現(xiàn)的鍵進行語義規(guī)范化的方法、計算機程序產(chǎn)品和系統(tǒng)。
背景技術(shù)
在傳統(tǒng)的文檔處理中,在準備時,逐頁掃描紙上墨文檔(ink-on-paper)作為相應(yīng)的可視圖像。掃描紙張的結(jié)果文檔文件通常是一系列頁面的可視圖像。頁面的每個視覺圖像具有表示單詞、短語、句子以及對應(yīng)于特定單詞的多種格式的值的對象。識別這種可視對象的數(shù)據(jù)內(nèi)容并將某些數(shù)據(jù)內(nèi)容關(guān)聯(lián)在一起以產(chǎn)生如數(shù)據(jù)字段名和關(guān)系數(shù)據(jù)庫的相應(yīng)值中的計算數(shù)據(jù)的一系列過程被稱為文檔數(shù)字化或數(shù)據(jù)提取。計算數(shù)據(jù)可以通過使用許多計算機程序應(yīng)用程序而被訪問和進一步處理。鑒于在傳統(tǒng)紙件表格和尚未計算的掃描文檔圖像中表示的信息量,從傳統(tǒng)文檔中自動和準確的數(shù)據(jù)提取可以顯著地有助于工業(yè)和社會生產(chǎn)力。
發(fā)明內(nèi)容
通過在一個方面提供一種用于規(guī)范化文檔圖像中的鍵的方法,解決了現(xiàn)有技術(shù)的一個或多個缺點,并且提供了附加的優(yōu)點,該方法包括:由計算機的一個或多個處理器獲得文檔圖像的文檔元數(shù)據(jù),其中文檔元數(shù)據(jù)包括針對出現(xiàn)在文檔圖像中的每個對象的上下文、位置和樣式;基于候選鍵與鍵語義可互換,識別與文檔圖像中的對象相對應(yīng)的候選鍵為鍵本體數(shù)據(jù)中的鍵;將所述候選鍵規(guī)范化為規(guī)范化形式;確定與所述規(guī)范化形式相對應(yīng)的鍵類,其中,所述鍵類與所述鍵本體數(shù)據(jù)中的鍵相關(guān)聯(lián);基于所述文檔元數(shù)據(jù),評估所述鍵類的置信度分數(shù),其中,所述置信度分數(shù)指示所述鍵類由所述候選鍵表示的可能性;以及基于根據(jù)預(yù)配置的驗證方式驗證所述鍵類,用所述鍵類更新語義數(shù)據(jù)庫,使得所述鍵類可以與出現(xiàn)在其他文檔圖像中的語義上可互換的文本有效地相關(guān)聯(lián)。
本發(fā)明的另一方面提供了一種用于規(guī)范化文檔圖像中的鍵的方法,包括:基于候選鍵在語義上可與鍵互換,通過計算機的一個或多個處理器,識別與文檔圖像中的對象相對應(yīng)的候選鍵為鍵本體數(shù)據(jù)中的鍵;將所述候選鍵規(guī)范化為規(guī)范化形式;從所述規(guī)范化形式導(dǎo)出所述候選鍵的一個或多個別名,其中所述一個或多個別名不與語義數(shù)據(jù)庫中的所述鍵相關(guān)聯(lián);基于所述文檔圖像的文檔元數(shù)據(jù),針對所述一個或多個別名中的每個評估相應(yīng)的置信度分數(shù),其中,所述置信度分數(shù)指示每個別名由所述候選鍵表示的可能性;以及基于根據(jù)預(yù)先配置的驗證方式驗證所述一個或多個別名,利用所述一個或多個別名來更新所述語義數(shù)據(jù)庫,使得基于所述文本與所述候選鍵語義匹配,所述一個或多個別名可以與來自其他文檔圖像的文本有效地相關(guān)聯(lián)。
本發(fā)明的另一方面提供了一種計算機程序產(chǎn)品,其包括計算機可讀存儲介質(zhì),該計算機可讀存儲介質(zhì)可由一個或多個處理器讀取并且存儲由該一個或多個處理器執(zhí)行的指令,用于執(zhí)行一種用于規(guī)范化文檔圖像中的鍵的方法,該方法包括:獲得文檔圖像的文檔元數(shù)據(jù),其中文檔元數(shù)據(jù)包括針對出現(xiàn)在文檔圖像中的每個對象的上下文、位置和樣式;基于候選鍵與鍵語義可互換,識別與文檔圖像中的對象相對應(yīng)的候選鍵為鍵本體數(shù)據(jù)中的鍵;將所述候選鍵規(guī)范化為規(guī)范化形式;確定與所述規(guī)范化形式相對應(yīng)的鍵類,其中,所述鍵類與所述鍵本體數(shù)據(jù)中的鍵相關(guān)聯(lián);基于所述文檔元數(shù)據(jù),評估所述鍵類的置信度分數(shù),其中,所述置信度分數(shù)指示所述鍵類由所述候選鍵表示的可能性;以及基于根據(jù)預(yù)配置的驗證方式驗證所述鍵類,用所述鍵類更新語義數(shù)據(jù)庫,使得所述鍵類可以與出現(xiàn)在其他文檔圖像中的語義上可互換的文本有效地相關(guān)聯(lián)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國際商業(yè)機器公司,未經(jīng)國際商業(yè)機器公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201880069289.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 快速開啟已中斷數(shù)字化影片的方法
- 一種數(shù)字化文物安全共享系統(tǒng)
- 實驗室復(fù)現(xiàn)式數(shù)字化電能計量設(shè)備遠程校準系統(tǒng)及方法
- 一種數(shù)字化諧波標準電能表以及電能檢定系統(tǒng)
- 一種數(shù)字化諧波標準諧波電能表以及電能檢定系統(tǒng)
- 數(shù)字化臺面、家用數(shù)字化書桌及教室用數(shù)字化書桌
- 殼狀牙科器械及其設(shè)計方法和制備方法
- 模擬數(shù)字化牙齒模型位姿變化的方法
- 數(shù)字化殼狀牙齒矯治器設(shè)計方法、制造方法及系統(tǒng)
- 城市軌道交通工程數(shù)字化設(shè)計成果的交付率評估方法





