[發(fā)明專利]從非結構化文檔提取結構化信息在審
| 申請?zhí)枺?/td> | 202111195230.4 | 申請日: | 2021-10-13 |
| 公開(公告)號: | CN114358000A | 公開(公告)日: | 2022-04-15 |
| 發(fā)明(設計)人: | M·貝斯勒;A·邁爾;D·雅恩;T·漢普-班穆勒 | 申請(專利權)人: | 國際商業(yè)機器公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/242;G06F16/36;G06F16/33;G06F16/25 |
| 代理公司: | 北京市中咨律師事務所 11247 | 代理人: | 劉薇;于靜 |
| 地址: | 美國*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 結構 文檔 提取 信息 | ||
本發(fā)明的實施例提供了方法、計算機程序產品和系統(tǒng)。本發(fā)明的實施例可以提取結構化信息以用于非結構化文檔分析。本發(fā)明的實施例可以通過識別數(shù)據(jù)庫中的與業(yè)務術語表的業(yè)務術語相對應的表和列來提取結構化信息以用于非結構化文檔分析。然后,本發(fā)明的實施例可以接收用于在非結構化文檔中識別的感興趣業(yè)務術語的指定。然后,本發(fā)明的實施例可以基于所識別的表和列來生成分析模塊,該分析模塊使得能夠識別或辨認表和列的屬性的屬性值。然后,本發(fā)明的實施例可以基于感興趣業(yè)務術語的指定,使用分析模塊以從非結構化文檔自動提取至少部分屬性的值。
技術領域
本發(fā)明涉及數(shù)字計算機系統(tǒng)領域,更具體地,涉及一種用于從非結構 化文檔提取結構化信息的方法。
背景技術
用于數(shù)據(jù)分析的非結構化文檔的數(shù)量呈指數(shù)增長。然而,非結構化文 檔可能不以簡單的方式被查詢,這相當大地限制了對包含在這樣的文檔中 的知識的提取。
發(fā)明內容
各種實施例提供了如獨立權利要求的主題所述的用于從非結構化文檔 提取結構化信息的方法、計算機系統(tǒng)和計算機程序產品。在從屬權利要求 中描述了有利的實施例。如果本發(fā)明的實施例不是相互排斥的,則它們可 以彼此自由地組合。
在一個方面,本發(fā)明涉及一種用于提取結構化信息以用于非結構化文 檔分析的計算機實現(xiàn)的方法。該方法包括:識別數(shù)據(jù)庫中的與業(yè)務術語表 的業(yè)務術語相對應的表和列;接收用于在非結構化文檔中識別的感興趣業(yè) 務術語的指定;基于所識別的表和列來生成分析模塊,所述分析模塊使得 能夠識別或辨認表和列的屬性的屬性值;以及基于感興趣業(yè)務術語的指定, 使用分析模塊以從非結構化文檔自動提取/檢測屬性的至少一部分的值。
在另一方面,本發(fā)明涉及一種計算機程序產品,其包括具有計算機可 讀程序代碼的計算機可讀存儲介質,該計算機可讀程序代碼被配置為實現(xiàn) 根據(jù)前述實施例的方法的所有步驟。
在另一方面,本發(fā)明涉及一種計算機系統(tǒng),其被配置用于:識別數(shù)據(jù) 庫中的與業(yè)務術語表的業(yè)務術語相對應的表和列;接收用于在非結構化文 檔中識別的感興趣業(yè)務術語的指定;基于所識別的表和列來生成分析模塊, 所述分析模塊使得能夠識別或辨認表和列的屬性的屬性值;以及基于感興 趣業(yè)務術語的指定,使用分析模塊以從非結構化文檔自動提取/檢測屬性的 至少一部分的值。
本主題可以使得能夠使用計算機實現(xiàn)的方法來從非結構化文檔提取結 構化信息。這可以實現(xiàn)將來自非結構化文檔的相關信息自動發(fā)現(xiàn)為結構化 信息。這可以使結構化信息及時可用于諸如數(shù)據(jù)科學家的用戶。本主題可 以節(jié)省執(zhí)行從非結構化文檔特別提取結構化信息會另外所需的資源。這可 以是特別有利的,因為待被分析的非結構化文檔的數(shù)量不斷增加。
附圖說明
下面僅通過示例,參考附圖更詳細地解釋本發(fā)明的實施例,其中:
圖1是根據(jù)本發(fā)明的實施例的計算機系統(tǒng)的框圖。
圖2是根據(jù)本發(fā)明的實施例的用于從非結構化文檔提取結構化信息的 方法的流程圖。
圖3是根據(jù)本發(fā)明的實施例的用于從非結構化文檔提取結構化信息的 方法的流程圖。
圖4是根據(jù)本發(fā)明的實施例的用于從非結構化文檔提取結構化信息的 方法的流程圖。
圖5表示根據(jù)本發(fā)明的實施例的適于實現(xiàn)一個或多個方法步驟的計算 機化系統(tǒng)。
具體實施方式
本發(fā)明的各種實施例的描述將被呈現(xiàn)以用于說明的目的,但并不旨在 是窮盡的或限于所公開的實施例。在不背離所描述的實施例的范圍和精神 的情況下,許多修改和變化對于本領域的普通技術人員將是顯而易見的。 選擇本文使用的術語以最好地解釋實施例的原理、實際應用或對市場上已 有技術的改進,或使本領域的普通技術人員能夠理解本文所公開的實施例。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國際商業(yè)機器公司,未經國際商業(yè)機器公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111195230.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:具有網格部件的鞋類和鞋類部件
- 下一篇:形成多層涂膜的方法
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現(xiàn)方法和信息再現(xiàn)設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





