[發明專利]抽取關系型表格的方法和裝置在審
| 申請號: | 201210003480.8 | 申請日: | 2012-01-06 |
| 公開(公告)號: | CN103198069A | 公開(公告)日: | 2013-07-10 |
| 發明(設計)人: | 孫軍;謝宣松;姜珊珊;鄭繼川 | 申請(專利權)人: | 株式會社理光 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京市柳沈律師事務所 11105 | 代理人: | 張麗新 |
| 地址: | 日本*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 抽取 關系 表格 方法 裝置 | ||
技術領域
本發明總體地涉及信息處理和信息抽取領域,更具體地涉及從非結構化文檔中抽取關系型表格的方法和裝置。
背景技術
目前,存在大量的電子文檔,例如,互聯網上的各種描述產品的文章等。對各種文檔進行信息處理、分析、統計等,正成為業界研究和開發的熱點。
文檔可以分為結構化文檔和非結構化的文檔。
結構化文檔一般是按照某種預定義的文檔對象模型構造的文檔,其已經給文檔定義了框架,使得各部分的作用一目了然,例如通過一些數據庫定義語言或面向對象的編程語言等構建的文檔可以稱為結構化文檔。
在本文中,將除了結構化文檔外的各種文檔統稱為非結構化文檔。非結構化文檔可以分為半結構化文檔和無結構文檔。網頁等諸如HTML或XML格式的文檔常被人稱為半結構化文檔或半結構化數據,從其中的一些標簽語言即可以知道所描述對象的屬性和值。無結構文檔類似于自然語言形式,例如我們常見的后綴為txt的純文本文檔即為一種典型的無結構文檔。此外,word格式和pdf格式的文檔中也不存在便于理解文章所描述的主體和具體屬性的信息,因此也可視為無結構文檔。
在非結構化文檔存在海量表格,其中的關系型表格通常含有豐富的有用信息。所謂關系型表格是就其對現實世界中的事物間關系的模型而命名,一般是二維表格,其中含有多個對象,每個對象具有諸多屬性和對應的屬性值。圖1示出了Web網頁中的一個關系型表格的例子。
互聯網中有很多含關系型數據的網頁,比如說產品參數對比表格網頁。以網頁為例,自動從網頁中抽取關系型表格信息可以用來更好地構建此類網頁的索引,有助于搜索。所抽取的海量關系型表格可以用于科研、工程、統計、策略制定、市場調研等,用以提供量化數據。
已經存在一些從非結構化文檔中檢測表格的技術。
在文獻1,A?Machine?Learning?B?ased?Approach?for?Table?Detection?on?The?Web,Proceedings?of?the?Eleventh?International?World?Wide?Web?Conference(WWW2002)中,描述了一種基于監督的機器學習方法,在訓練數據之后,來把每個給定的表格分類成真實的表格或者非真實的表格。
在文獻2,Uncovering?the?Relational?Web,Proceedings?of?the?11th?International?Workshop?on?Web?and?Databases(WebDB?2008)中,描述了從大的網頁庫中過濾關系表的簡單的方法,其假設每個數據元組是表格中的行,還試圖恢復列的標簽信息和類型信息。
在文獻3,US7590647(B2)-Method?for?extracting,interpreting?and?standardizing?tabular?data?from?unstructured?documents中,描述了一個系統,方法,計算機程序,能夠自動地從非結構化文檔中識別,解析,和解釋表格數據。該技術對于表格解釋,使用標準模板,包含一個標準化數據域的集合;其次,該技術假設每個數據元組是表格中的行。
發明內容
鑒于現有技術中的上述問題,提出了本發明。
根據本發明的一個方面,提供了一種從非結構化文檔中抽取關系型表格的方法,可以包括:檢測非結構化文檔中的表格,以獲得表格;以及確定指示表格中的對象標識符部分、屬性名部分和屬性值部分的表格布局。
所述非結構化文檔可以是網頁,以及可以通過解析網頁并選擇被用來顯示表格數據的DOM節點來得到表格。
抽取關系型表格的方法還可以包括在確定表格布局之前,規范化所檢測的表格的內容。
規范化所檢測的表格的內容可以包括:對于表格的每個表格單元格計算一段文本,此文本可以為空。
對于表格的每個表格單元格計算一段文本可以包括:對于每個無文本節點但含圖像節點的單元格,基于圖像節點的特征確定一段文本。
該抽取關系型表格的方法還可以包括:在確定表格布局之前,過濾表格中的內容,以去除信息含量低的數據。
過濾表格中的內容可以包括以下操作中的至少一種:計算表示行的信息含量的行信息量分數,并去除行信息量分數低的行;計算表示列的信息含量的列信息量分數,并去除列信息量分數低的列;計算表示整個表格的信息含量的表格信息量分數,并且如果整個表格的信息量分數低于預定閾值,則丟棄該表格。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于株式會社理光,未經株式會社理光許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210003480.8/2.html,轉載請聲明來源鉆瓜專利網。





